LLM Inference Scope

新模型候选

跟踪重点厂商和高关注模型的参数规模、架构、上下文长度、开源状态和部署难度。

打开交互式雷达

openai/gpt-oss-120b

OpenAI(厂商)120.4B 总 / ~5.7B 激活MoE131.1K

参数/架构:参数 120.4B 总 / ~5.7B 激活,架构 GptOssForCausalLM, gpt_oss,结构 MoE,上下文 131.1K。创新/部署信号:MoE / 稀疏专家、长上下文 131.1K、多模态、70B+ 大模型。 openai/gpt-oss-120b:快照显示 paramsLabel=120.4B 总 / ~5.7B 激活,activeParamsLabel=5.7B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-estim…

openai/gpt-oss-20b

OpenAI(厂商)21.5B 总 / ~4.2B 激活MoE131.1K

参数/架构:参数 21.5B 总 / ~4.2B 激活,架构 GptOssForCausalLM, gpt_oss,结构 MoE,上下文 131.1K。创新/部署信号:MoE / 稀疏专家、长上下文 131.1K、多模态。 openai/gpt-oss-20b:快照显示 paramsLabel=21.5B 总 / ~4.2B 激活,activeParamsLabel=4.2B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-estimate。architec…

meta-llama/Meta-Llama-3-8B-Instruct

Meta(厂商)8BDense / Unknown未知

参数/架构:参数 8B,架构 LlamaForCausalLM, llama,结构 Dense / Unknown。创新/部署信号:Code、Agent / Tool use、Web agent、多模态。 meta-llama/Meta-Llama-3-8B-Instruct:快照显示 paramsLabel=8B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=L…

deepseek-ai/DeepSeek-V4-Pro

DeepSeek(厂商)861.6B 总 / ~87.8B 激活MoE1M

参数/架构:参数 861.6B 总 / ~87.8B 激活,架构 DeepseekV4ForCausalLM, deepseek_v4,结构 MoE,上下文 1M。创新/部署信号:MoE / 稀疏专家、长上下文 1M、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V4-Pro:快照显示 paramsLabel=861.6B 总 / ~87.8B 激活,activeParamsLabel=87.8B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、activ…

mistralai/Mistral-7B-v0.1

Mistral AI(厂商)7.2BDense / Unknown32.8K

参数/架构:参数 7.2B,架构 MistralForCausalLM, mistral,结构 Dense / Unknown,上下文 32.8K。 mistralai/Mistral-7B-v0.1:快照显示 paramsLabel=7.2B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=MistralForCausalLM, mistral,structure…

microsoft/phi-2

Microsoft(厂商)2.8BDense / Unknown2K

参数/架构:参数 2.8B,架构 PhiForCausalLM, phi,结构 Dense / Unknown,上下文 2K。创新/部署信号:Code。 microsoft/phi-2:快照显示 paramsLabel=2.8B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=PhiForCausalLM, phi,structure=Dense / Unknown…

mistralai/Mistral-7B-Instruct-v0.2

Mistral AI(厂商)7.2BDense / Unknown32.8K

参数/架构:参数 7.2B,架构 MistralForCausalLM, mistral,结构 Dense / Unknown,上下文 32.8K。 mistralai/Mistral-7B-Instruct-v0.2:快照显示 paramsLabel=7.2B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=MistralForCausalLM, mistral,…

deepseek-ai/DeepSeek-R1-0528

DeepSeek(厂商)684.5B 总 / ~38.6B 激活MoE163.8K

参数/架构:参数 684.5B 总 / ~38.6B 激活,架构 DeepseekV3ForCausalLM, deepseek_v3,结构 MoE,上下文 163.8K。创新/部署信号:MoE / 稀疏专家、长上下文 163.8K、FP8 部署、Code。 deepseek-ai/DeepSeek-R1-0528:快照显示 paramsLabel=684.5B 总 / ~38.6B 激活,activeParamsLabel=38.6B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、…

moonshotai/Kimi-K2-Instruct

月之暗面 / Kimi(厂商)1T 总 / ~39.1B 激活MoE131.1K

参数/架构:参数 1T 总 / ~39.1B 激活,架构 DeepseekV3ForCausalLM, kimi_k2,结构 MoE,上下文 131.1K。创新/部署信号:MoE / 稀疏专家、长上下文 131.1K、FP8 部署、Code。 moonshotai/Kimi-K2-Instruct:快照显示 paramsLabel=1T 总 / ~39.1B 激活,activeParamsLabel=39.1B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config…

microsoft/phi-4

Microsoft(厂商)~14.7BDense / Unknown16.4K

参数/架构:参数 ~14.7B,架构 Phi3ForCausalLM, phi3,结构 Dense / Unknown,上下文 16.4K。创新/部署信号:Reasoning、Code。 microsoft/phi-4:快照显示 paramsLabel=~14.7B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=config-estimate、active=无 active 字段。architecture/config family=Phi3ForCausalLM, phi3,…

zai-org/GLM-5

智谱 AI / GLM(厂商)753.9B 总 / ~35.9B 激活MoE202.8K

参数/架构:参数 753.9B 总 / ~35.9B 激活,架构 GlmMoeDsaForCausalLM, glm_moe_dsa,结构 MoE,上下文 202.8K。创新/部署信号:MoE / 稀疏专家、长上下文 202.8K、70B+ 大模型。 zai-org/GLM-5:快照显示 paramsLabel=753.9B 总 / ~35.9B 激活,activeParamsLabel=35.9B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-estim…

zai-org/GLM-4.7

智谱 AI / GLM(厂商)358.3B 总 / ~33.6B 激活MoE202.8K

参数/架构:参数 358.3B 总 / ~33.6B 激活,架构 Glm4MoeForCausalLM, glm4_moe,结构 MoE,上下文 202.8K。创新/部署信号:MoE / 稀疏专家、长上下文 202.8K、70B+ 大模型。 zai-org/GLM-4.7:快照显示 paramsLabel=358.3B 总 / ~33.6B 激活,activeParamsLabel=33.6B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-estimate…

mistralai/Mistral-7B-Instruct-v0.1

Mistral AI(厂商)7BDense / Unknown32.8K

参数/架构:参数 7B,架构 MistralForCausalLM, mistral,结构 Dense / Unknown,上下文 32.8K。 mistralai/Mistral-7B-Instruct-v0.1:快照显示 paramsLabel=7B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=name、active=无 active 字段。architecture/config family=MistralForCausalLM, mistral,structure=D…

zai-org/GLM-4.7-Flash

智谱 AI / GLM(厂商)31.2B 总 / ~3.7B 激活MoE202.8K

参数/架构:参数 31.2B 总 / ~3.7B 激活,架构 Glm4MoeLiteForCausalLM, glm4_moe_lite,结构 MoE,上下文 202.8K。创新/部署信号:MoE / 稀疏专家、长上下文 202.8K。 zai-org/GLM-4.7-Flash:快照显示 paramsLabel=31.2B 总 / ~3.7B 激活,activeParamsLabel=3.7B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-estimat…

microsoft/Phi-3-mini-128k-instruct

Microsoft(厂商)~3.8BDense / Unknown262.1K

参数/架构:参数 ~3.8B,架构 Phi3ForCausalLM, phi3,结构 Dense / Unknown,上下文 262.1K。创新/部署信号:长上下文 262.1K、Code。 microsoft/Phi-3-mini-128k-instruct:快照显示 paramsLabel=~3.8B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=config-estimate、active=无 active 字段。architecture/config family=Ph…

moonshotai/Kimi-K2-Thinking

月之暗面 / Kimi(厂商)1.1T 总 / ~39.1B 激活MoE262.1K

参数/架构:参数 1.1T 总 / ~39.1B 激活,架构 DeepseekV3ForCausalLM, kimi_k2,结构 MoE,上下文 262.1K。创新/部署信号:MoE / 稀疏专家、长上下文 262.1K、Reasoning、Code。 moonshotai/Kimi-K2-Thinking:快照显示 paramsLabel=1.1T 总 / ~39.1B 激活,activeParamsLabel=39.1B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active…

zai-org/GLM-5.1

智谱 AI / GLM(厂商)753.9B 总 / ~35.9B 激活MoE202.8K

参数/架构:参数 753.9B 总 / ~35.9B 激活,架构 GlmMoeDsaForCausalLM, glm_moe_dsa,结构 MoE,上下文 202.8K。创新/部署信号:MoE / 稀疏专家、长上下文 202.8K、70B+ 大模型。 zai-org/GLM-5.1:快照显示 paramsLabel=753.9B 总 / ~35.9B 激活,activeParamsLabel=35.9B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-est…

meta-llama/Meta-Llama-3-70B-Instruct

Meta(厂商)70.6BDense / Unknown未知

参数/架构:参数 70.6B,架构 LlamaForCausalLM, llama,结构 Dense / Unknown。创新/部署信号:Code、Agent / Tool use、Web agent、多模态。 meta-llama/Meta-Llama-3-70B-Instruct:快照显示 paramsLabel=70.6B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config f…

MiniMaxAI/MiniMax-M2

MiniMax(厂商)228.7B 总 / ~11B 激活MoE196.6K

参数/架构:参数 228.7B 总 / ~11B 激活,架构 MiniMaxM2ForCausalLM, minimax_m2,结构 MoE,上下文 196.6K。创新/部署信号:MoE / 稀疏专家、长上下文 196.6K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2:快照显示 paramsLabel=228.7B 总 / ~11B 激活,activeParamsLabel=11B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-es…

MiniMaxAI/MiniMax-M2.5

MiniMax(厂商)228.7B 总 / ~11B 激活MoE196.6K

参数/架构:参数 228.7B 总 / ~11B 激活,架构 MiniMaxM2ForCausalLM, minimax_m2,结构 MoE,上下文 196.6K。创新/部署信号:MoE / 稀疏专家、长上下文 196.6K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2.5:快照显示 paramsLabel=228.7B 总 / ~11B 激活,activeParamsLabel=11B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-…

deepseek-ai/DeepSeek-V3.2

DeepSeek(厂商)685.4B 总 / ~38.6B 激活MoE163.8K

参数/架构:参数 685.4B 总 / ~38.6B 激活,架构 DeepseekV32ForCausalLM, deepseek_v32,结构 MoE,上下文 163.8K。创新/部署信号:MoE / 稀疏专家、长上下文 163.8K、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V3.2:快照显示 paramsLabel=685.4B 总 / ~38.6B 激活,activeParamsLabel=38.6B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetenso…

microsoft/bitnet-b1.58-2B-4T

Microsoft(厂商)849.8MDense / Unknown4.1K

参数/架构:参数 849.8M,架构 BitNetForCausalLM, bitnet,结构 Dense / Unknown,上下文 4.1K。创新/部署信号:Code。 microsoft/bitnet-b1.58-2B-4T:快照显示 paramsLabel=849.8M,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=BitNetForCausalLM, b…

zai-org/GLM-4.5

智谱 AI / GLM(厂商)358.3B 总 / ~33.6B 激活MoE131.1K

参数/架构:参数 358.3B 总 / ~33.6B 激活,架构 Glm4MoeForCausalLM, glm4_moe,结构 MoE,上下文 131.1K。创新/部署信号:MoE / 稀疏专家、长上下文 131.1K、70B+ 大模型。 zai-org/GLM-4.5:快照显示 paramsLabel=358.3B 总 / ~33.6B 激活,activeParamsLabel=33.6B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-estimate…

Qwen/Qwen3-Coder-Next

阿里巴巴 / Qwen(厂商)79.7B 总 / ~3.2B 激活MoE262.1K

参数/架构:参数 79.7B 总 / ~3.2B 激活,架构 Qwen3NextForCausalLM, qwen3_next,结构 MoE,上下文 262.1K。创新/部署信号:MoE / 稀疏专家、长上下文 262.1K、Code、70B+ 大模型。 Qwen/Qwen3-Coder-Next:快照显示 paramsLabel=79.7B 总 / ~3.2B 激活,activeParamsLabel=3.2B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=confi…

microsoft/Phi-3-mini-4k-instruct

Microsoft(厂商)3.8BDense / Unknown4.1K

参数/架构:参数 3.8B,架构 Phi3ForCausalLM, phi3,结构 Dense / Unknown,上下文 4.1K。创新/部署信号:Code。 microsoft/Phi-3-mini-4k-instruct:快照显示 paramsLabel=3.8B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=Phi3ForCausalLM, phi3,st…

Qwen/Qwen3-Coder-480B-A35B-Instruct

阿里巴巴 / Qwen(厂商)480.2B 总 / 35B 激活MoE262.1K

参数/架构:参数 480.2B 总 / 35B 激活,架构 Qwen3MoeForCausalLM, qwen3_moe,结构 MoE,上下文 262.1K。创新/部署信号:MoE / 稀疏专家、长上下文 262.1K、Code、70B+ 大模型。 Qwen/Qwen3-Coder-480B-A35B-Instruct:快照显示 paramsLabel=480.2B 总 / 35B 激活,activeParamsLabel=35B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、act…

MiniMaxAI/MiniMax-M2.1

MiniMax(厂商)228.7B 总 / ~11B 激活MoE196.6K

参数/架构:参数 228.7B 总 / ~11B 激活,架构 MiniMaxM2ForCausalLM, minimax_m2,结构 MoE,上下文 196.6K。创新/部署信号:MoE / 稀疏专家、长上下文 196.6K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2.1:快照显示 paramsLabel=228.7B 总 / ~11B 激活,activeParamsLabel=11B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-…

microsoft/phi-1_5

Microsoft(厂商)1.4BDense / Unknown2K

参数/架构:参数 1.4B,架构 PhiForCausalLM, phi,结构 Dense / Unknown,上下文 2K。创新/部署信号:Code。 microsoft/phi-1_5:快照显示 paramsLabel=1.4B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=PhiForCausalLM, phi,structure=Dense / Unkno…

Qwen/Qwen3-0.6B

阿里巴巴 / Qwen(厂商)751.6MDense / Unknown41K

参数/架构:参数 751.6M,架构 Qwen3ForCausalLM, qwen3,结构 Dense / Unknown,上下文 41K。 Qwen/Qwen3-0.6B:快照显示 paramsLabel=751.6M,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config family=Qwen3ForCausalLM, qwen3,structure=Dense / Unknown…

deepseek-ai/DeepSeek-V4-Flash

DeepSeek(厂商)158.1B 总 / ~20.4B 激活MoE1M

参数/架构:参数 158.1B 总 / ~20.4B 激活,架构 DeepseekV4ForCausalLM, deepseek_v4,结构 MoE,上下文 1M。创新/部署信号:MoE / 稀疏专家、长上下文 1M、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V4-Flash:快照显示 paramsLabel=158.1B 总 / ~20.4B 激活,activeParamsLabel=20.4B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、act…

MiniMaxAI/MiniMax-M2.7

MiniMax(厂商)228.7B 总 / ~11B 激活MoE204.8K

参数/架构:参数 228.7B 总 / ~11B 激活,架构 MiniMaxM2ForCausalLM, minimax_m2,结构 MoE,上下文 204.8K。创新/部署信号:MoE / 稀疏专家、长上下文 204.8K、FP8 部署、Code。 MiniMaxAI/MiniMax-M2.7:快照显示 paramsLabel=228.7B 总 / ~11B 激活,activeParamsLabel=11B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=config-…

deepseek-ai/DeepSeek-V3.2-Exp

DeepSeek(厂商)685.4B 总 / ~38.6B 激活MoE163.8K

参数/架构:参数 685.4B 总 / ~38.6B 激活,架构 DeepseekV32ForCausalLM, deepseek_v32,结构 MoE,上下文 163.8K。创新/部署信号:MoE / 稀疏专家、长上下文 163.8K、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V3.2-Exp:快照显示 paramsLabel=685.4B 总 / ~38.6B 激活,activeParamsLabel=38.6B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safet…

google/functiongemma-270m-it

Google / DeepMind(厂商)270MDense / Unknown未知

参数/架构:参数 270M,架构 Gemma3ForCausalLM, gemma3_text,结构 Dense / Unknown。创新/部署信号:Agent / Tool use。 google/functiongemma-270m-it:快照显示 paramsLabel=270M,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=name、active=无 active 字段。architecture/config family=Gemma3ForCausalLM, gemm…

stepfun-ai/Step-3.5-Flash

阶跃星辰 / StepFun(厂商)199.4BDense / Unknown262.1K

参数/架构:参数 199.4B,架构 Step3p5ForCausalLM, step3p5,结构 Dense / Unknown,上下文 262.1K。创新/部署信号:长上下文 262.1K、Code、70B+ 大模型。 stepfun-ai/Step-3.5-Flash:快照显示 paramsLabel=199.4B,activeParamsLabel 未给出,应按稠密或未确认稀疏激活模型处理;paramProfile 来源 total=safetensors、active=无 active 字段。architecture/config famil…

moonshotai/Kimi-K2-Instruct-0905

月之暗面 / Kimi(厂商)1T 总 / ~39.1B 激活MoE262.1K

参数/架构:参数 1T 总 / ~39.1B 激活,架构 DeepseekV3ForCausalLM, kimi_k2,结构 MoE,上下文 262.1K。创新/部署信号:MoE / 稀疏专家、长上下文 262.1K、FP8 部署、Code。 moonshotai/Kimi-K2-Instruct-0905:快照显示 paramsLabel=1T 总 / ~39.1B 激活,activeParamsLabel=39.1B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=safetensors、active=c…

deepseek-ai/DeepSeek-V3.2-Speciale

DeepSeek(厂商)~672B 总 / ~38.6B 激活MoE163.8K

参数/架构:参数 ~672B 总 / ~38.6B 激活,架构 DeepseekV32ForCausalLM, deepseek_v32,结构 MoE,上下文 163.8K。创新/部署信号:MoE / 稀疏专家、长上下文 163.8K、FP8 部署、70B+ 大模型。 deepseek-ai/DeepSeek-V3.2-Speciale:快照显示 paramsLabel=~672B 总 / ~38.6B 激活,activeParamsLabel=38.6B,适合按总参数驻留、激活参数计费/吞吐两条线评估;paramProfile 来源 total=co…