arle(1)

arle

以 runtime 为主干的 Rust workspace。infer 在 CUDA、Metal、CPU 上提供 OpenAI 兼容服务;arle 是 run / serve / train / data 的统一前门。

cuda stable · ampere+ metal beta · apple silicon cpu dev only api openai · v1 release v0.1.4 · 2026-04-28
arle — bash ~/projects/arle
$ arle --doctor
cuda    ok    # nvidia-smi · cuda 12.x · ampere+
metal   beta  # apple m-series detected
cpu     ok    # dev-only smoke path
model   ok    # Qwen3-4B reachable
api     ok    # /v1/chat/completions · streaming

$ arle serve --backend cuda --model Qwen3-4B
listening on http://0.0.0.0:8000  · ready in 1.4s

安装

每个平台一行能跑的命令。预编译 tarball 与 SHA 见每次 GitHub Release;curl 安装脚本会先校验 SHA256 再解压。

Apple Silicon · Homebrew zsh / bash
$ brew install cklxx/tap/arle
$ arle --doctor
Linux x86_64 / macOS · curl sh 兼容
$ curl -fsSL https://github.com/cklxx/arle/releases/latest/download/install.sh \
    | sh
$ arle --doctor
CUDA · GPU 容器 docker / nvidia
$ docker run --rm --gpus all -p 8000:8000 \
    -v /path/to/Qwen3-4B:/model:ro \
    ghcr.io/cklxx/arle:latest \
    serve --backend cuda --model-path /model
源码 · Cargo workspace
$ git clone https://github.com/cklxx/arle && cd arle
$ cargo install --path crates/cli --features cuda
# --features cuda 可选; cpu 默认就能编

基准

直接来自 docs/experience/wins/ 的带日期快照。数字出自 scripts/bench_guidellm.sh 与标准 step-driver 冒烟,未做挑选。

2026-04-28 stable · CI 已门控

cuda · NVIDIA L4 · Qwen3-4B · BF16 + FP8 分页 KV(auto)· c=16

输出
197tok/s
ITL p50
77.9ms
对比 legacy
+64%
KV 利用率
69%
scripts/bench_guidellm.sh cuda-l4-hbm-tier-fp8-auto 完整快照 ↗
2026-04-27 beta · 持续验证

metal · Apple M4 Pro · Qwen3.5-0.8B Q4_K_M · GGUF decode

生成
211tok/s
e2e
202tok/s
decode
4.7ms/tok
TTFT
223ms
metal_bench --model Qwen3.5-0.8B-Q4_K_M.gguf 完整快照 ↗

支持矩阵

三种后端,一份运行时契约。权威矩阵见 docs/support-matrix.md

后端稳定度系统 / 硬件模型量化API
cudastableLinux + NVIDIA Ampere+Qwen3 / Qwen3.5FP16 / BF16、GGUF Q4_KOpenAI v1
metalbetaApple Silicon(M1+)Qwen3 / Qwen3.5FP16 / BF16、dense GGUFOpenAI v1
cpudev only便携冒烟Qwen3 / Qwen3.5(小尺寸)FP16 / BF16OpenAI v1

文件

仓库一览。每条都指回 cklxx/arle 的标准路径。