动态 · 推理框架代码更新
推理框架重要更新:vLLM / SGLang / TensorRT-LLM
原文摘要
近期推理框架更新以 SGLang v0.5.12、vLLM v0.21.0、vLLM v0.20.2、TensorRT-LLM v1.3.0rc14、SGLang v0.5.11、vLLM v0.20.1 为主。从 release 内容看,值得关注的技术点集中在调度、batching 或 prefill/decode 路径、KV cache / Attention、量化与低精度、MoE / expert 并行。它更适合作为升级提醒,不是单一重大技术发布;如果线上依赖这些框架,建议先核对 changelog 中是否命中你们的 scheduler、KV/Attention、量化、MoE、CUDA/Triton kernel 或部署兼容性路径,再决定是否拉分支回归。