一些关于 Gemini 和 GPT 模型的传言

AI前哨 独家获悉一些关于谷歌 Gemini 和 OpenAI GPT 模型参数量和架构的传言。相关传言无法证实,也无法证伪,真假自辩。

谷歌的模型路线是超稀疏模型,超小参数激活,总参数量巨大

Gemini 2.5 Flash名字当中带有Flash,极快响应速度、低廉的售价也让不少人认为这是一个“小”模型。事实上,Gemini 2.5 Flash 有500B以上的总参数,激活参数低于20B,是一个MoE模型。

Gemini 2.5 FlashTotalActive
Parameter>500B<20B

从总参数量上来说,谷歌 Gemini 2.5 Flash比较接近 Deepseek V3 / R1 的 671B ,但激活参数则远远小于 37B 。激活参数较少,使得谷歌Gemini 2.5 Flash能够通过专家并行(EP)的方式,达到极快的推理速度,维持极低的成本。

Gemini 2.5 Flash的输入输出价格分别为 0.3/2.5 美元每百万token。OpenRouter平台的监测显示,Gemini 2.5 Flash的输出速度超过 100 token/s。


作为对比,OpenAI的 GPT 系列模型的总参数则小得多,而模型稀疏度没有谷歌那么大。

GPT 4.1 并非基于 GPT 4o 进行代码和指令遵循(IF)方面的强化,而是架构创新的产物。GPT 4.1作为MoE模型,总参数不足200B。GPT 4.1为原生支持100万上下文窗口,并非通过 YaRN 方式扩展。

GPT 4.1TotalActive
Parameter<200B>10B

GPT 4.1 的模型定价为 2/8 美元每百万token。其不足200B的模型尺寸相较于售价明显更高,这主要是由于 GPT 4.1 支持百万token上下文导致的。

衡量模型世界知识的SimpleQA常被认为是指示模型大小的很好指标。OpenAI开源的GPT-OSS系列和Deepseek V3均显示出模型尺寸越大、分数越高的关系。GPT 4.1的出现,打破了这一规律。

ModelSizeSimpleQA
gpt-oss20B6.7
gpt-oss120B16.8
GPT 4.1<200B41
Deepseek V3671B26

同时根据Artificial Analysis的综合模型指数,GPT 4.1能力基本与Deepseek V3 0324旗鼓相当,但尺寸却显著更小。GPT 4.1的出现显示出,OpenAI的闭源模型有着更高的知识压缩效率、智能水平。


已发布

分类

来自

评论

One response to “一些关于 Gemini 和 GPT 模型的传言”

  1. […] 一个模型的训练成本可以被认为是“一次性”的,而后续的运行却是无数次的。AI前哨此前获悉,模型总参数尺寸仅为 100多B 的 GPT 4.1 能力基本与 671B 参数的 Deepseek V3 旗鼓相当,但尺寸却显著更小。由于愿意投入更多的算力进行训练,OpenAI的闭源模型有着更高的知识压缩效率、智能水平。 […]

发表评论

了解 AI前哨 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读