Anthropic有着最为严格的保密协议。GPT系列和Gemini系列模型,本网站都有独家揭秘。但从未有公开信息揭露Claude模型的参数量。
不过笔者透过多元渠道获取到的信息表明, Claude 模型采用了Dense架构,总参数量不大。通过API输出速度也能够在一定程度上印证,Claude模型的输出速度较为稳定,而OpenAI大量采用MoE架构,每个token之间的输出间隔有较大的差异。
事实上,Claude采用Dense架构——这个是因为 dense 更容易model steering,Anthropic认为Dense比MoE更safety导致的,跟model performance目前暂无联系。
DeepSeek火了之后,中国大多数开源大模型走向了超稀疏的MoE模型架构。笔者与中国AI行业的业内人士交流,普遍认为llama 3 系列dense架构是落后的主要原因。
Claude Sonnet 4.5 和 Opus 4.5 则通过 Dense 架构能够做到SOTA级别,上述传言也就不攻自破。
Dario Amodei从OpenAI出走,代表的是原始的Scaling派,更多算力、更多数据推动模型提升。Anthropic CEO Dario也在多个场合表示Scaling Law才是本质的。推理模型、Test Time Scale,都是一些小技巧。但背后Scaling Law,更多数据、更多算力才推动了。而姚顺雨更是直言,Anthropic不做什么创新,就是把预训练做大、RL做大。

发表评论