LLM Inference Scope

行业动态

跟踪大模型推理框架、AI 大厂模型发布、技术报告和基础设施动态。

推理框架重要更新：vLLM / SGLang / TensorRT-LLM

vLLM / SGLang / TensorRT-LLM 社区（开源社区）推理框架代码更新2026-05-16

框架版本聚合显示 SGLang v0.5.12/v0.5.11、vLLM v0.21.0/v0.20.x、TensorRT-LLM v1.3.0rc14 都在近一个发布窗口内推进。这个条目目前只从 release 列表抽取版本号，尚未逐项展开 changelog，所以它更像“升级观察哨”：提示团队检查是否有调度器、prefix/KV cache、attention kernel、MoE/LoRA、量化 dtype、OpenAI API 兼容或分布式 serving 行为变化。

Unlocking asynchronicity in continuous batching

Hugging Face（平台/厂商）Hugging Face Blog2026-05-14

Hugging Face 这篇工程文把 continuous batching 的下一步瓶颈讲清楚了：同步循环里 CPU 做 batch 准备、采样、KV 路由表更新时 GPU 会空转。文章用 8B 模型、batch size 32、生成 8K tokens 的实验显示，同步实现总耗时 300.6s，GPU 有 24.0% 时间在等 CPU；通过 CUDA non-default streams、events、双 input/output slot、carry-over mask 和 CUDA graph memory pool 做异步流水后，GPU…

OlmoEarth v1.1: A more efficient family of models

Hugging Face（平台/厂商）Hugging Face Blog2026-05-19

Ai2 发布 OlmoEarth v1.1，一组面向地球观测的更高效开放模型。官方重点不是换成更大模型，而是通过减少 transformer token sequence length 和提供不同模型规模来降推理成本；文章称在保持 v1 研究 benchmark 与合作任务表现的同时，compute cost 最高降低 3x。对大模型推理方向的启发是：在遥感这类高分辨率、多时相输入里，token 设计本身就是一等优化变量，因为 attention/MLP 的计算和 token 序列长度强相关。

I/O 2026: Welcome to the agentic Gemini era

Google / DeepMind（厂商）Google AI Blog2026-05-19

Google I/O 2026 主 keynote 把叙事明确切到 “agentic Gemini era”。Pichai 强调 Google 的 full-stack 路线：TPU/基础设施、Gemini 模型、产品和平台协同，并把 agent 能力铺到 Search、Gemini app、开发者工具、企业平台等入口。对推理研发来说，这不是单个模型参数新闻，而是需求侧信号：未来线上流量会从单轮问答转向更长链路、多工具调用、多模态输入和持续后台任务。

Gemini 3.5: frontier intelligence with action

Google / DeepMind（厂商）Google AI Blog2026-05-19

Google 发布 Gemini 3.5 系列，首发 3.5 Flash，定位是 “frontier intelligence with action”。官方称 3.5 Flash 在 agent 和 coding benchmark 上超过 Gemini 3.1 Pro：Terminal-Bench 2.1 为 76.2%，GDPval-AA 为 1656 Elo，MCP Atlas 为 83.6%，CharXiv Reasoning 为 84.2%；并称输出 token/s 比其他 frontier models 快 4 倍。模型已面向 Gemin…

Building Blocks for Foundation Model Training and Inference on AWS

Hugging Face（平台/厂商）Hugging Face Blog2026-05-11

Amazon/AWS 这篇是基础设施综述，重点把训练、后训练和 test-time compute 的共同瓶颈落到 compute/network/storage/observability。文中列了 H100/H200/B200/B300 的 dense Tensor 规格：H100/H200 BF16 0.9895 PFLOPS、FP8 1.979 PFLOPS；B200 BF16 2.25 PFLOPS、FP8 4.5 PFLOPS、FP4 9 PFLOPS、180GB HBM、8TB/s；B300 FP4 13.5 PFLOPS、288GB H…

The Open Agent Leaderboard

Hugging Face（平台/厂商）Hugging Face Blog2026-05-18

IBM Research 发布 Open Agent Leaderboard，把评估对象从“单模型分数”扩展到完整 agent 系统：工具、规划、记忆、错误恢复、上下文管理都会影响结果和成本。首批整合 6 个真实任务 benchmark，包括 SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline/Retail 和 Telecom 等，并开放 Exgentic 作为可复现实验平台，输出标准化结果、轨迹和成本报告。

Introducing Gemini Omni

Google / DeepMind（厂商）Google DeepMind Blog2026-05-17

Google DeepMind 推出 Gemini Omni，首个模型为 Gemini Omni Flash，定位是 “create anything from any input”，先从视频生成开始。它支持图像、音频、视频、文本作为输入，生成知识 grounded 的高质量视频，并能通过对话式指令编辑；官方强调角色一致性、物理一致性和场景记忆。Omni Flash 已面向 Google AI Plus/Pro/Ultra 用户的 Gemini app 和 Google Flow 推出，YouTube Shorts/Create 本周开始免费推出，AP…

Introducing Google Antigravity 2.0

Google / DeepMind（厂商）Google DeepMind Blog2026-05-17

Google Antigravity 2.0 的直接原文链接在抓取时不可访问，但 I/O 开发者汇总给出了核心信息：Antigravity 从单 IDE 体验扩展为独立桌面应用，用于编排多个 agent 并行执行任务，支持 dynamic subagents、scheduled tasks、与 Google AI Studio、Android、Firebase 等生态集成；同时提供 Antigravity CLI、SDK，以及连接 Gemini Enterprise Agent Platform 的企业入口。Managed Agents in Gemi…