输出
197tok/s
以 runtime 为主干的 Rust workspace。infer 在 CUDA、Metal、CPU 上提供 OpenAI 兼容服务;arle 是 run / serve / train / data 的统一前门。
$ arle --doctor cuda ok # nvidia-smi · cuda 12.x · ampere+ metal beta # apple m-series detected cpu ok # dev-only smoke path model ok # Qwen3-4B reachable api ok # /v1/chat/completions · streaming $ arle serve --backend cuda --model Qwen3-4B listening on http://0.0.0.0:8000 · ready in 1.4s
每个平台一行能跑的命令。预编译 tarball 与 SHA 见每次 GitHub Release;curl 安装脚本会先校验 SHA256 再解压。
$ brew install cklxx/tap/arle $ arle --doctor
$ curl -fsSL https://github.com/cklxx/arle/releases/latest/download/install.sh \ | sh $ arle --doctor
$ docker run --rm --gpus all -p 8000:8000 \
-v /path/to/Qwen3-4B:/model:ro \
ghcr.io/cklxx/arle:latest \
serve --backend cuda --model-path /model $ git clone https://github.com/cklxx/arle && cd arle $ cargo install --path crates/cli --features cuda # --features cuda 可选; cpu 默认就能编
直接来自 docs/experience/wins/ 的带日期快照。数字出自 scripts/bench_guidellm.sh 与标准 step-driver 冒烟,未做挑选。
cuda · NVIDIA L4 · Qwen3-4B · BF16 + FP8 分页 KV(auto)· c=16
scripts/bench_guidellm.sh cuda-l4-hbm-tier-fp8-auto 完整快照 ↗ metal · Apple M4 Pro · Qwen3.5-0.8B Q4_K_M · GGUF decode
metal_bench --model Qwen3.5-0.8B-Q4_K_M.gguf 完整快照 ↗ 三种后端,一份运行时契约。权威矩阵见 docs/support-matrix.md。
| 后端 | 稳定度 | 系统 / 硬件 | 模型 | 量化 | API |
|---|---|---|---|---|---|
cuda | stable | Linux + NVIDIA Ampere+ | Qwen3 / Qwen3.5 | FP16 / BF16、GGUF Q4_K | OpenAI v1 |
metal | beta | Apple Silicon(M1+) | Qwen3 / Qwen3.5 | FP16 / BF16、dense GGUF | OpenAI v1 |
cpu | dev only | 便携冒烟 | Qwen3 / Qwen3.5(小尺寸) | FP16 / BF16 | OpenAI v1 |
仓库一览。每条都指回 cklxx/arle 的标准路径。