AI Infra：xLLM，京东开源的国产算力LLM推理引擎

京东开源的国产AI加速器专属LLM推理引擎，专为昇腾/海光/飞腾等国产算力优化，服务与引擎解耦架构，支持Qwen/DeepSeek/MoE等主流模型，企业级高吞吐低延迟部署。

一、核心机制

全图流水线：调度→计算→通信并行，消除气泡
动态图优化：变长输入自适应 + 多图缓存 + 智能内存池
全局KV缓存：跨请求重用 + 分布式预取路由
算法加速：投机解码 + MoE负载均衡 + 多核并行

全局多级KV Cache管理有点意思

二、架构

xllm/
├── core/       # 调度/运行时/算子/分布式引擎
├── api_service/ # gRPC/REST服务
├── server/     # 主入口（xllm二进制）
├── models/     # 模型适配层
└── proto/      # 通信协议（Protobuf）

三、支持模型

Qwen2 / Qwen2.5 / Qwen3 / Qwen3-MoE
DeepSeek-V3/R1 / DeepSeek-R1-Distill-Qwen
Kimi-k2 / MiniCPM-V / MiMo-VL
Llama2/3（兼容）

参考：

Github：https://github.com/jd-opensource/xllm
文档：https://xllm.readthedocs.io
许可：Apache 2.0 — 可商用、可修改、可分发

标签：infra, ai

评论已关闭