AI Infra:xLLM,京东开源的国产算力LLM推理引擎
京东开源的国产AI加速器专属LLM推理引擎,专为昇腾/海光/飞腾等国产算力优化,服务与引擎解耦架构,支持Qwen/DeepSeek/MoE等主流模型,企业级高吞吐低延迟部署。
一、核心机制
- 全图流水线:调度→计算→通信并行,消除气泡
- 动态图优化:变长输入自适应 + 多图缓存 + 智能内存池
- 全局KV缓存:跨请求重用 + 分布式预取路由
- 算法加速:投机解码 + MoE负载均衡 + 多核并行
全局多级KV Cache管理有点意思
二、架构
xllm/
├── core/ # 调度/运行时/算子/分布式引擎
├── api_service/ # gRPC/REST服务
├── server/ # 主入口(xllm二进制)
├── models/ # 模型适配层
└── proto/ # 通信协议(Protobuf)
三、支持模型
- Qwen2 / Qwen2.5 / Qwen3 / Qwen3-MoE
- DeepSeek-V3/R1 / DeepSeek-R1-Distill-Qwen
- Kimi-k2 / MiniCPM-V / MiMo-VL
- Llama2/3(兼容)
参考:
- Github:https://github.com/jd-opensource/xllm
- 文档:https://xllm.readthedocs.io
- 许可:Apache 2.0 — 可商用、可修改、可分发