Claude 模型采用 Dense 架构

Anthropic有着最为严格的保密协议。GPT系列和Gemini系列模型，本网站都有独家揭秘。但从未有公开信息揭露Claude模型的参数量。

不过笔者透过多元渠道获取到的信息表明， Claude 模型采用了Dense架构，总参数量不大。通过API输出速度也能够在一定程度上印证，Claude模型的输出速度较为稳定，而OpenAI大量采用MoE架构，每个token之间的输出间隔有较大的差异。

事实上，Claude采用Dense架构——这个是因为 dense 更容易model steering，Anthropic认为Dense比MoE更safety导致的，跟model performance目前暂无联系。

DeepSeek火了之后，中国大多数开源大模型走向了超稀疏的MoE模型架构。笔者与中国AI行业的业内人士交流，普遍认为llama 3 系列dense架构是落后的主要原因。

Claude Sonnet 4.5 和 Opus 4.5 则通过 Dense 架构能够做到SOTA级别，上述传言也就不攻自破。

Dario Amodei从OpenAI出走，代表的是原始的Scaling派，更多算力、更多数据推动模型提升。Anthropic CEO Dario也在多个场合表示Scaling Law才是本质的。推理模型、Test Time Scale，都是一些小技巧。但背后Scaling Law，更多数据、更多算力才推动了。而姚顺雨更是直言，Anthropic不做什么创新，就是把预训练做大、RL做大。

Claude 模型采用 Dense 架构

赞过：

评论

发表评论取消回复

Claude 模型采用 Dense 架构

分享到：

赞过：

评论

发表评论取消回复

了解 AI前哨 的更多信息

了解 AI前哨的更多信息