LLM Inference Scope

新模型候选

跟踪重点厂商和高关注模型的参数规模、架构、上下文长度、开源状态和部署难度。

openai/gpt-oss-120b

OpenAI（厂商）120.4B 总 / ~5.7B 激活MoE131.1K

参数/架构：参数 120.4B 总 / ~5.7B 激活，架构 GptOssForCausalLM, gpt_oss，结构 MoE，上下文 131.1K。创新/部署信号：MoE / 稀疏专家、长上下文 131.1K、多模态、70B+ 大模型。 openai/gpt-oss-120b：快照显示 paramsLabel=120.4B 总 / ~5.7B 激活，activeParamsLabel=5.7B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-estim…

openai/gpt-oss-20b

OpenAI（厂商）21.5B 总 / ~4.2B 激活MoE131.1K

参数/架构：参数 21.5B 总 / ~4.2B 激活，架构 GptOssForCausalLM, gpt_oss，结构 MoE，上下文 131.1K。创新/部署信号：MoE / 稀疏专家、长上下文 131.1K、多模态。 openai/gpt-oss-20b：快照显示 paramsLabel=21.5B 总 / ~4.2B 激活，activeParamsLabel=4.2B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-estimate。architec…

meta-llama/Meta-Llama-3-8B-Instruct

Meta（厂商）8BDense / Unknown未知

参数/架构：参数 8B，架构 LlamaForCausalLM, llama，结构 Dense / Unknown。创新/部署信号：Code、Agent / Tool use、Web agent、多模态。 meta-llama/Meta-Llama-3-8B-Instruct：快照显示 paramsLabel=8B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=L…

deepseek-ai/DeepSeek-V4-Pro

DeepSeek（厂商）861.6B 总 / ~87.8B 激活MoE1M

参数/架构：参数 861.6B 总 / ~87.8B 激活，架构 DeepseekV4ForCausalLM, deepseek_v4，结构 MoE，上下文 1M。创新/部署信号：MoE / 稀疏专家、长上下文 1M、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V4-Pro：快照显示 paramsLabel=861.6B 总 / ~87.8B 激活，activeParamsLabel=87.8B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、activ…

mistralai/Mistral-7B-v0.1

Mistral AI（厂商）7.2BDense / Unknown32.8K

参数/架构：参数 7.2B，架构 MistralForCausalLM, mistral，结构 Dense / Unknown，上下文 32.8K。 mistralai/Mistral-7B-v0.1：快照显示 paramsLabel=7.2B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=MistralForCausalLM, mistral，structure…

microsoft/phi-2

Microsoft（厂商）2.8BDense / Unknown2K

参数/架构：参数 2.8B，架构 PhiForCausalLM, phi，结构 Dense / Unknown，上下文 2K。创新/部署信号：Code。 microsoft/phi-2：快照显示 paramsLabel=2.8B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=PhiForCausalLM, phi，structure=Dense / Unknown…

mistralai/Mistral-7B-Instruct-v0.2

Mistral AI（厂商）7.2BDense / Unknown32.8K

参数/架构：参数 7.2B，架构 MistralForCausalLM, mistral，结构 Dense / Unknown，上下文 32.8K。 mistralai/Mistral-7B-Instruct-v0.2：快照显示 paramsLabel=7.2B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=MistralForCausalLM, mistral，…

deepseek-ai/DeepSeek-R1-0528

DeepSeek（厂商）684.5B 总 / ~38.6B 激活MoE163.8K

参数/架构：参数 684.5B 总 / ~38.6B 激活，架构 DeepseekV3ForCausalLM, deepseek_v3，结构 MoE，上下文 163.8K。创新/部署信号：MoE / 稀疏专家、长上下文 163.8K、FP8 部署、Code。 deepseek-ai/DeepSeek-R1-0528：快照显示 paramsLabel=684.5B 总 / ~38.6B 激活，activeParamsLabel=38.6B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、…

moonshotai/Kimi-K2-Instruct

月之暗面 / Kimi（厂商）1T 总 / ~39.1B 激活MoE131.1K

参数/架构：参数 1T 总 / ~39.1B 激活，架构 DeepseekV3ForCausalLM, kimi_k2，结构 MoE，上下文 131.1K。创新/部署信号：MoE / 稀疏专家、长上下文 131.1K、FP8 部署、Code。 moonshotai/Kimi-K2-Instruct：快照显示 paramsLabel=1T 总 / ~39.1B 激活，activeParamsLabel=39.1B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config…

microsoft/phi-4

Microsoft（厂商）~14.7BDense / Unknown16.4K

参数/架构：参数 ~14.7B，架构 Phi3ForCausalLM, phi3，结构 Dense / Unknown，上下文 16.4K。创新/部署信号：Reasoning、Code。 microsoft/phi-4：快照显示 paramsLabel=~14.7B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=config-estimate、active=无 active 字段。architecture/config family=Phi3ForCausalLM, phi3，…

zai-org/GLM-5

智谱 AI / GLM（厂商）753.9B 总 / ~35.9B 激活MoE202.8K

参数/架构：参数 753.9B 总 / ~35.9B 激活，架构 GlmMoeDsaForCausalLM, glm_moe_dsa，结构 MoE，上下文 202.8K。创新/部署信号：MoE / 稀疏专家、长上下文 202.8K、70B+ 大模型。 zai-org/GLM-5：快照显示 paramsLabel=753.9B 总 / ~35.9B 激活，activeParamsLabel=35.9B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-estim…

zai-org/GLM-4.7

智谱 AI / GLM（厂商）358.3B 总 / ~33.6B 激活MoE202.8K

参数/架构：参数 358.3B 总 / ~33.6B 激活，架构 Glm4MoeForCausalLM, glm4_moe，结构 MoE，上下文 202.8K。创新/部署信号：MoE / 稀疏专家、长上下文 202.8K、70B+ 大模型。 zai-org/GLM-4.7：快照显示 paramsLabel=358.3B 总 / ~33.6B 激活，activeParamsLabel=33.6B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-estimate…

mistralai/Mistral-7B-Instruct-v0.1

Mistral AI（厂商）7BDense / Unknown32.8K

参数/架构：参数 7B，架构 MistralForCausalLM, mistral，结构 Dense / Unknown，上下文 32.8K。 mistralai/Mistral-7B-Instruct-v0.1：快照显示 paramsLabel=7B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=name、active=无 active 字段。architecture/config family=MistralForCausalLM, mistral，structure=D…

zai-org/GLM-4.7-Flash

智谱 AI / GLM（厂商）31.2B 总 / ~3.7B 激活MoE202.8K

参数/架构：参数 31.2B 总 / ~3.7B 激活，架构 Glm4MoeLiteForCausalLM, glm4_moe_lite，结构 MoE，上下文 202.8K。创新/部署信号：MoE / 稀疏专家、长上下文 202.8K。 zai-org/GLM-4.7-Flash：快照显示 paramsLabel=31.2B 总 / ~3.7B 激活，activeParamsLabel=3.7B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-estimat…

microsoft/Phi-3-mini-128k-instruct

Microsoft（厂商）~3.8BDense / Unknown262.1K

参数/架构：参数 ~3.8B，架构 Phi3ForCausalLM, phi3，结构 Dense / Unknown，上下文 262.1K。创新/部署信号：长上下文 262.1K、Code。 microsoft/Phi-3-mini-128k-instruct：快照显示 paramsLabel=~3.8B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=config-estimate、active=无 active 字段。architecture/config family=Ph…

moonshotai/Kimi-K2-Thinking

月之暗面 / Kimi（厂商）1.1T 总 / ~39.1B 激活MoE262.1K

参数/架构：参数 1.1T 总 / ~39.1B 激活，架构 DeepseekV3ForCausalLM, kimi_k2，结构 MoE，上下文 262.1K。创新/部署信号：MoE / 稀疏专家、长上下文 262.1K、Reasoning、Code。 moonshotai/Kimi-K2-Thinking：快照显示 paramsLabel=1.1T 总 / ~39.1B 激活，activeParamsLabel=39.1B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active…

zai-org/GLM-5.1

智谱 AI / GLM（厂商）753.9B 总 / ~35.9B 激活MoE202.8K

参数/架构：参数 753.9B 总 / ~35.9B 激活，架构 GlmMoeDsaForCausalLM, glm_moe_dsa，结构 MoE，上下文 202.8K。创新/部署信号：MoE / 稀疏专家、长上下文 202.8K、70B+ 大模型。 zai-org/GLM-5.1：快照显示 paramsLabel=753.9B 总 / ~35.9B 激活，activeParamsLabel=35.9B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-est…

meta-llama/Meta-Llama-3-70B-Instruct

Meta（厂商）70.6BDense / Unknown未知

参数/架构：参数 70.6B，架构 LlamaForCausalLM, llama，结构 Dense / Unknown。创新/部署信号：Code、Agent / Tool use、Web agent、多模态。 meta-llama/Meta-Llama-3-70B-Instruct：快照显示 paramsLabel=70.6B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config f…

MiniMaxAI/MiniMax-M2

MiniMax（厂商）228.7B 总 / ~11B 激活MoE196.6K

参数/架构：参数 228.7B 总 / ~11B 激活，架构 MiniMaxM2ForCausalLM, minimax_m2，结构 MoE，上下文 196.6K。创新/部署信号：MoE / 稀疏专家、长上下文 196.6K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2：快照显示 paramsLabel=228.7B 总 / ~11B 激活，activeParamsLabel=11B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-es…

MiniMaxAI/MiniMax-M2.5

MiniMax（厂商）228.7B 总 / ~11B 激活MoE196.6K

参数/架构：参数 228.7B 总 / ~11B 激活，架构 MiniMaxM2ForCausalLM, minimax_m2，结构 MoE，上下文 196.6K。创新/部署信号：MoE / 稀疏专家、长上下文 196.6K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2.5：快照显示 paramsLabel=228.7B 总 / ~11B 激活，activeParamsLabel=11B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-…

deepseek-ai/DeepSeek-V3.2

DeepSeek（厂商）685.4B 总 / ~38.6B 激活MoE163.8K

参数/架构：参数 685.4B 总 / ~38.6B 激活，架构 DeepseekV32ForCausalLM, deepseek_v32，结构 MoE，上下文 163.8K。创新/部署信号：MoE / 稀疏专家、长上下文 163.8K、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V3.2：快照显示 paramsLabel=685.4B 总 / ~38.6B 激活，activeParamsLabel=38.6B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetenso…

microsoft/bitnet-b1.58-2B-4T

Microsoft（厂商）849.8MDense / Unknown4.1K

参数/架构：参数 849.8M，架构 BitNetForCausalLM, bitnet，结构 Dense / Unknown，上下文 4.1K。创新/部署信号：Code。 microsoft/bitnet-b1.58-2B-4T：快照显示 paramsLabel=849.8M，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=BitNetForCausalLM, b…

zai-org/GLM-4.5

智谱 AI / GLM（厂商）358.3B 总 / ~33.6B 激活MoE131.1K

参数/架构：参数 358.3B 总 / ~33.6B 激活，架构 Glm4MoeForCausalLM, glm4_moe，结构 MoE，上下文 131.1K。创新/部署信号：MoE / 稀疏专家、长上下文 131.1K、70B+ 大模型。 zai-org/GLM-4.5：快照显示 paramsLabel=358.3B 总 / ~33.6B 激活，activeParamsLabel=33.6B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-estimate…

Qwen/Qwen3-Coder-Next

阿里巴巴 / Qwen（厂商）79.7B 总 / ~3.2B 激活MoE262.1K

参数/架构：参数 79.7B 总 / ~3.2B 激活，架构 Qwen3NextForCausalLM, qwen3_next，结构 MoE，上下文 262.1K。创新/部署信号：MoE / 稀疏专家、长上下文 262.1K、Code、70B+ 大模型。 Qwen/Qwen3-Coder-Next：快照显示 paramsLabel=79.7B 总 / ~3.2B 激活，activeParamsLabel=3.2B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=confi…

microsoft/Phi-3-mini-4k-instruct

Microsoft（厂商）3.8BDense / Unknown4.1K

参数/架构：参数 3.8B，架构 Phi3ForCausalLM, phi3，结构 Dense / Unknown，上下文 4.1K。创新/部署信号：Code。 microsoft/Phi-3-mini-4k-instruct：快照显示 paramsLabel=3.8B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=Phi3ForCausalLM, phi3，st…

Qwen/Qwen3-Coder-480B-A35B-Instruct

阿里巴巴 / Qwen（厂商）480.2B 总 / 35B 激活MoE262.1K

参数/架构：参数 480.2B 总 / 35B 激活，架构 Qwen3MoeForCausalLM, qwen3_moe，结构 MoE，上下文 262.1K。创新/部署信号：MoE / 稀疏专家、长上下文 262.1K、Code、70B+ 大模型。 Qwen/Qwen3-Coder-480B-A35B-Instruct：快照显示 paramsLabel=480.2B 总 / 35B 激活，activeParamsLabel=35B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、act…

MiniMaxAI/MiniMax-M2.1

MiniMax（厂商）228.7B 总 / ~11B 激活MoE196.6K

参数/架构：参数 228.7B 总 / ~11B 激活，架构 MiniMaxM2ForCausalLM, minimax_m2，结构 MoE，上下文 196.6K。创新/部署信号：MoE / 稀疏专家、长上下文 196.6K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2.1：快照显示 paramsLabel=228.7B 总 / ~11B 激活，activeParamsLabel=11B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-…

microsoft/phi-1_5

Microsoft（厂商）1.4BDense / Unknown2K

参数/架构：参数 1.4B，架构 PhiForCausalLM, phi，结构 Dense / Unknown，上下文 2K。创新/部署信号：Code。 microsoft/phi-1_5：快照显示 paramsLabel=1.4B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=PhiForCausalLM, phi，structure=Dense / Unkno…

Qwen/Qwen3-0.6B

阿里巴巴 / Qwen（厂商）751.6MDense / Unknown41K

参数/架构：参数 751.6M，架构 Qwen3ForCausalLM, qwen3，结构 Dense / Unknown，上下文 41K。 Qwen/Qwen3-0.6B：快照显示 paramsLabel=751.6M，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=Qwen3ForCausalLM, qwen3，structure=Dense / Unknown…

deepseek-ai/DeepSeek-V4-Flash

DeepSeek（厂商）158.1B 总 / ~20.4B 激活MoE1M

参数/架构：参数 158.1B 总 / ~20.4B 激活，架构 DeepseekV4ForCausalLM, deepseek_v4，结构 MoE，上下文 1M。创新/部署信号：MoE / 稀疏专家、长上下文 1M、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V4-Flash：快照显示 paramsLabel=158.1B 总 / ~20.4B 激活，activeParamsLabel=20.4B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、act…

MiniMaxAI/MiniMax-M2.7

MiniMax（厂商）228.7B 总 / ~11B 激活MoE204.8K

参数/架构：参数 228.7B 总 / ~11B 激活，架构 MiniMaxM2ForCausalLM, minimax_m2，结构 MoE，上下文 204.8K。创新/部署信号：MoE / 稀疏专家、长上下文 204.8K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2.7：快照显示 paramsLabel=228.7B 总 / ~11B 激活，activeParamsLabel=11B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=config-…

deepseek-ai/DeepSeek-V3.2-Exp

DeepSeek（厂商）685.4B 总 / ~38.6B 激活MoE163.8K

参数/架构：参数 685.4B 总 / ~38.6B 激活，架构 DeepseekV32ForCausalLM, deepseek_v32，结构 MoE，上下文 163.8K。创新/部署信号：MoE / 稀疏专家、长上下文 163.8K、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V3.2-Exp：快照显示 paramsLabel=685.4B 总 / ~38.6B 激活，activeParamsLabel=38.6B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safet…

google/functiongemma-270m-it

Google / DeepMind（厂商）270MDense / Unknown未知

参数/架构：参数 270M，架构 Gemma3ForCausalLM, gemma3_text，结构 Dense / Unknown。创新/部署信号：Agent / Tool use。 google/functiongemma-270m-it：快照显示 paramsLabel=270M，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=name、active=无 active 字段。architecture/config family=Gemma3ForCausalLM, gemm…

stepfun-ai/Step-3.5-Flash

阶跃星辰 / StepFun（厂商）199.4BDense / Unknown262.1K

参数/架构：参数 199.4B，架构 Step3p5ForCausalLM, step3p5，结构 Dense / Unknown，上下文 262.1K。创新/部署信号：长上下文 262.1K、Code、70B+ 大模型。 stepfun-ai/Step-3.5-Flash：快照显示 paramsLabel=199.4B，activeParamsLabel 未给出，应按稠密或未确认稀疏激活模型处理；paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config famil…

moonshotai/Kimi-K2-Instruct-0905

月之暗面 / Kimi（厂商）1T 总 / ~39.1B 激活MoE262.1K

参数/架构：参数 1T 总 / ~39.1B 激活，架构 DeepseekV3ForCausalLM, kimi_k2，结构 MoE，上下文 262.1K。创新/部署信号：MoE / 稀疏专家、长上下文 262.1K、FP8 部署、Code。 moonshotai/Kimi-K2-Instruct-0905：快照显示 paramsLabel=1T 总 / ~39.1B 激活，activeParamsLabel=39.1B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=safetensors、active=c…

deepseek-ai/DeepSeek-V3.2-Speciale

DeepSeek（厂商）~672B 总 / ~38.6B 激活MoE163.8K

参数/架构：参数 ~672B 总 / ~38.6B 激活，架构 DeepseekV32ForCausalLM, deepseek_v32，结构 MoE，上下文 163.8K。创新/部署信号：MoE / 稀疏专家、长上下文 163.8K、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V3.2-Speciale：快照显示 paramsLabel=~672B 总 / ~38.6B 激活，activeParamsLabel=38.6B，适合按总参数驻留、激活参数计费/吞吐两条线评估；paramProfile 来源 total=co…