LLM Inference Scope

行业动态

跟踪大模型推理框架、AI 大厂模型发布、技术报告和基础设施动态。

打开交互式雷达

推理框架重要更新:vLLM / SGLang / TensorRT-LLM

vLLM / SGLang / TensorRT-LLM 社区(开源社区)推理框架代码更新2026-05-16

框架版本聚合显示 SGLang v0.5.12/v0.5.11、vLLM v0.21.0/v0.20.x、TensorRT-LLM v1.3.0rc14 都在近一个发布窗口内推进。这个条目目前只从 release 列表抽取版本号,尚未逐项展开 changelog,所以它更像“升级观察哨”:提示团队检查是否有调度器、prefix/KV cache、attention kernel、MoE/LoRA、量化 dtype、OpenAI API 兼容或分布式 serving 行为变化。

Unlocking asynchronicity in continuous batching

Hugging Face(平台/厂商)Hugging Face Blog2026-05-14

Hugging Face 这篇工程文把 continuous batching 的下一步瓶颈讲清楚了:同步循环里 CPU 做 batch 准备、采样、KV 路由表更新时 GPU 会空转。文章用 8B 模型、batch size 32、生成 8K tokens 的实验显示,同步实现总耗时 300.6s,GPU 有 24.0% 时间在等 CPU;通过 CUDA non-default streams、events、双 input/output slot、carry-over mask 和 CUDA graph memory pool 做异步流水后,GPU…

OlmoEarth v1.1: A more efficient family of models

Hugging Face(平台/厂商)Hugging Face Blog2026-05-19

Ai2 发布 OlmoEarth v1.1,一组面向地球观测的更高效开放模型。官方重点不是换成更大模型,而是通过减少 transformer token sequence length 和提供不同模型规模来降推理成本;文章称在保持 v1 研究 benchmark 与合作任务表现的同时,compute cost 最高降低 3x。对大模型推理方向的启发是:在遥感这类高分辨率、多时相输入里,token 设计本身就是一等优化变量,因为 attention/MLP 的计算和 token 序列长度强相关。

I/O 2026: Welcome to the agentic Gemini era

Google / DeepMind(厂商)Google AI Blog2026-05-19

Google I/O 2026 主 keynote 把叙事明确切到 “agentic Gemini era”。Pichai 强调 Google 的 full-stack 路线:TPU/基础设施、Gemini 模型、产品和平台协同,并把 agent 能力铺到 Search、Gemini app、开发者工具、企业平台等入口。对推理研发来说,这不是单个模型参数新闻,而是需求侧信号:未来线上流量会从单轮问答转向更长链路、多工具调用、多模态输入和持续后台任务。

Gemini 3.5: frontier intelligence with action

Google / DeepMind(厂商)Google AI Blog2026-05-19

Google 发布 Gemini 3.5 系列,首发 3.5 Flash,定位是 “frontier intelligence with action”。官方称 3.5 Flash 在 agent 和 coding benchmark 上超过 Gemini 3.1 Pro:Terminal-Bench 2.1 为 76.2%,GDPval-AA 为 1656 Elo,MCP Atlas 为 83.6%,CharXiv Reasoning 为 84.2%;并称输出 token/s 比其他 frontier models 快 4 倍。模型已面向 Gemin…

Building Blocks for Foundation Model Training and Inference on AWS

Hugging Face(平台/厂商)Hugging Face Blog2026-05-11

Amazon/AWS 这篇是基础设施综述,重点把训练、后训练和 test-time compute 的共同瓶颈落到 compute/network/storage/observability。文中列了 H100/H200/B200/B300 的 dense Tensor 规格:H100/H200 BF16 0.9895 PFLOPS、FP8 1.979 PFLOPS;B200 BF16 2.25 PFLOPS、FP8 4.5 PFLOPS、FP4 9 PFLOPS、180GB HBM、8TB/s;B300 FP4 13.5 PFLOPS、288GB H…

The Open Agent Leaderboard

Hugging Face(平台/厂商)Hugging Face Blog2026-05-18

IBM Research 发布 Open Agent Leaderboard,把评估对象从“单模型分数”扩展到完整 agent 系统:工具、规划、记忆、错误恢复、上下文管理都会影响结果和成本。首批整合 6 个真实任务 benchmark,包括 SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline/Retail 和 Telecom 等,并开放 Exgentic 作为可复现实验平台,输出标准化结果、轨迹和成本报告。

Introducing Gemini Omni

Google / DeepMind(厂商)Google DeepMind Blog2026-05-17

Google DeepMind 推出 Gemini Omni,首个模型为 Gemini Omni Flash,定位是 “create anything from any input”,先从视频生成开始。它支持图像、音频、视频、文本作为输入,生成知识 grounded 的高质量视频,并能通过对话式指令编辑;官方强调角色一致性、物理一致性和场景记忆。Omni Flash 已面向 Google AI Plus/Pro/Ultra 用户的 Gemini app 和 Google Flow 推出,YouTube Shorts/Create 本周开始免费推出,AP…

Introducing Google Antigravity 2.0

Google / DeepMind(厂商)Google DeepMind Blog2026-05-17

Google Antigravity 2.0 的直接原文链接在抓取时不可访问,但 I/O 开发者汇总给出了核心信息:Antigravity 从单 IDE 体验扩展为独立桌面应用,用于编排多个 agent 并行执行任务,支持 dynamic subagents、scheduled tasks、与 Google AI Studio、Android、Firebase 等生态集成;同时提供 Antigravity CLI、SDK,以及连接 Gemini Enterprise Agent Platform 的企业入口。Managed Agents in Gemi…