动态 · 推理框架代码更新

推理框架重要更新:vLLM / SGLang / TensorRT-LLM

发布方 vLLM / SGLang(开源社区) Framework Digest 2026-05-16

原文摘要

近期推理框架更新以 SGLang v0.5.12、vLLM v0.21.0、vLLM v0.20.2、TensorRT-LLM v1.3.0rc14、SGLang v0.5.11、vLLM v0.20.1 为主。从 release 内容看,值得关注的技术点集中在调度、batching 或 prefill/decode 路径、KV cache / Attention、量化与低精度、MoE / expert 并行。它更适合作为升级提醒,不是单一重大技术发布;如果线上依赖这些框架,建议先核对 changelog 中是否命中你们的 scheduler、KV/Attention、量化、MoE、CUDA/Triton kernel 或部署兼容性路径,再决定是否拉分支回归。

链接

原文 · 打开 LLM Inference Scope