CNBC援引知情人士,中国大模型初创公司月之暗面旗下新发布的Kimi K2 Thinking模型,训练成本仅为460万美元。
2025年11月7日,中国大模型公司月之暗面(Moonshoot)发布了Kimi K2 Thinking模型。Kimi K2 Thinking是一款MoE架构的推理模型,总参数1T,每次激活参数为32B。
2025年年初,Deepseek宣称其671B的 V3 模型训练成本仅为560万美元,震惊市场。消息宣布时,正值the information报道Sam Altman寻求5-7万亿美元建设AI产业链。Deepseek 低成本训练模型的消息,使得美股市场暴跌,英伟达、谷歌等相关股票回撤幅度高达20%。
此时此刻正如彼时彼刻。OpenAI与Oracle、Nvidia、微软Azure、亚马逊AWS签订了价值1.5万亿美元的合同。CNBC这一消息显示,Kimi K2 Thinking试图复刻Deepseek冲击,塑造出“中国公司用几百万美元成本,训练出美国公司1万亿美元的模型”的叙事。
为什么低成本训练是一种神话,而非事实
低成本训练的说法存在较大误解。Deepseek V3和Kimi K2 Thinking小于1000万美元的训练成本,只是最终一次训练成功的成本。在模型最终训练以前,需要长时间的预实验探索数据配比、训练方法,产生验证方法用的半成品模型。训练数据,也需要模型进行清洗。这些成本都是各家的核心机密,很少会对外披露。
一个模型的训练成本可以被认为是“一次性”的,而后续的运行却是无数次的。AI前哨此前获悉,模型总参数尺寸仅为 100多B 的 GPT 4.1 能力基本与 671B 参数的 Deepseek V3 旗鼓相当,但尺寸却显著更小。由于愿意投入更多的算力进行训练,OpenAI的闭源模型有着更高的知识压缩效率、智能水平。
目前OpenAI大多数算力和GPU,都用于推理服务全球8亿用户,而非训练。即便有一些方法实现了低成本、低算力的训练,也不能改变推理方面需求。

发表评论