arle

以 runtime 为主干的 Rust workspace。infer 在 CUDA、Metal、CPU 上提供 OpenAI 兼容服务；arle 是 run / serve / train / data 的统一前门。

cuda stable · ampere+ metal beta · apple silicon cpu dev only api openai · v1 release v0.1.4 · 2026-04-28

$ Quickstart cklxx/arle ↗

arle — bash ~/projects/arle

$ arle --doctor
cuda    ok    # nvidia-smi · cuda 12.x · ampere+
metal   beta  # apple m-series detected
cpu     ok    # dev-only smoke path
model   ok    # Qwen3-4B reachable
api     ok    # /v1/chat/completions · streaming

$ arle serve --backend cuda --model Qwen3-4B
listening on http://0.0.0.0:8000  · ready in 1.4s

安装

每个平台一行能跑的命令。预编译 tarball 与 SHA 见每次 GitHub Release；curl 安装脚本会先校验 SHA256 再解压。

Apple Silicon · Homebrew zsh / bash

$ brew install cklxx/tap/arle
$ arle --doctor

Linux x86_64 / macOS · curl sh 兼容

$ curl -fsSL https://github.com/cklxx/arle/releases/latest/download/install.sh \
    | sh
$ arle --doctor

CUDA · GPU 容器 docker / nvidia

$ docker run --rm --gpus all -p 8000:8000 \
    -v /path/to/Qwen3-4B:/model:ro \
    ghcr.io/cklxx/arle:latest \
    serve --backend cuda --model-path /model

源码 · Cargo workspace

$ git clone https://github.com/cklxx/arle && cd arle
$ cargo install --path crates/cli --features cuda
# --features cuda 可选; cpu 默认就能编

基准

直接来自 docs/experience/wins/ 的带日期快照。数字出自 scripts/bench_guidellm.sh 与标准 step-driver 冒烟，未做挑选。

2026-04-28 stable · CI 已门控

cuda · NVIDIA L4 · Qwen3-4B · BF16 + FP8 分页 KV（auto）· c=16

输出

197tok/s

ITL p50

77.9ms

对比 legacy

+64%

KV 利用率

69%

scripts/bench_guidellm.sh cuda-l4-hbm-tier-fp8-auto 完整快照 ↗

2026-04-27 beta · 持续验证

metal · Apple M4 Pro · Qwen3.5-0.8B Q4_K_M · GGUF decode

生成

211tok/s

e2e

202tok/s

decode

4.7ms/tok

TTFT

223ms

metal_bench --model Qwen3.5-0.8B-Q4_K_M.gguf 完整快照 ↗

支持矩阵

三种后端，一份运行时契约。权威矩阵见 docs/support-matrix.md。

后端	稳定度	系统 / 硬件	模型	量化	API
`cuda`	stable	Linux + NVIDIA Ampere+	Qwen3 / Qwen3.5	FP16 / BF16、GGUF Q4_K	OpenAI v1
`metal`	beta	Apple Silicon（M1+）	Qwen3 / Qwen3.5	FP16 / BF16、dense GGUF	OpenAI v1
`cpu`	dev only	便携冒烟	Qwen3 / Qwen3.5（小尺寸）	FP16 / BF16	OpenAI v1

文件

仓库一览。每条都指回 cklxx/arle 的标准路径。

/README.zh-CN.md 中文公共入口：安装 · CLI · 架构
/docs/http-api.md HTTP 契约 · 流式行为
/docs/support-matrix.md 后端 / 模型 / 量化支持
/docs/stability-policy.md 稳定性分级 · 兼容性姿态
/docs/experience/wins/ 带日期的基准快照
/crates/cli/ arle 二进制 · 子命令 · doctor
/infer/ 运行时主干 · scheduler · loader · http
/crates/cuda-kernels/ cuda kernel crate · csrc · prelude
/crates/mlx-sys/ metal 桥接 · cmake + cc
/examples/ curl · Docker · Metal · tiny train 冒烟示例
/releases 发版二进制 · 校验和

.arle

安装

基准

支持矩阵

文件

arle