数据集 | 大语言模型啰嗦程度 LLM Verbosity

大语言模型的啰嗦程度（LLM Verbosity）是一项隐蔽指标，影响用户使用成本和日常体验。

一方面，模型输出的token也是要计价的，模型真实使用成本并不能只看单价，而是输出长度和单价的乘积。

另一方面，模型输出长度和用户偏好有较大关系。在LM Areana等用户双盲测试下，说的更多的模型可能会获得用户的喜爱。大模型厂商极有可能借此拟合用户偏好。

但是长度长并不等于质量高，也可能负面影响用户体验。不少服务提供商回复速度很慢，一个简单的日常生活问答，需要等待半分钟和5秒钟回答完毕体验是截然不同的。如果回答很长，用户在手机和网页等界面，更是需要多次滚动页面，用户体验下降。

笔者尝试将“可乐可以除水垢吗？”这个问题，提给了市面上的不同模型，统计其回复的 token 数量，绘制表格，量化表征了不同模型的啰嗦程度（verbosity）。

这一问题属于生活日常，且可详可略。大模型既可以简单点出是否可以，也可以详细阐述背后的化学反应，并延伸出推荐做法。

谷歌旗下的Gemini 2.5 Pro最为啰嗦，包含了思考过程的总token消耗达到了3000以上，回复token为1572。新款Gemini 3 Pro则降低到了862 token，更加均衡。

OpenAI旗下的开源模型GPT-OSS-120B第二啰嗦，输出长度达到了1572 token。其回复中列出了化学反应式和多个对比表格，可以说是事无巨细。

OpenAI的模型分化明显。例如GPT 5.1 Instant就极不爱说话，输出长度仅为115 token。GPT 5.2 Instant则又回到了580 token的正常水平。

Claude模型全系都保持了简洁，仅回复了200-300 token。Claude Opus 4.5模型基本能够点出核心要点，同时不浪费token。

本 LLM Verbosity 数据集目前仅测试了一个问题，严谨性不足。不同的服务商推理采样存在一定的随机性，如果采用不同的temperature等超参数会有不同结果。虽然使用prompt约束可以控制模型输出的详细、简略，但默认值偏好决定了绝大多数用户不会改变。

未来将建立一套覆盖日常生活问题的数据集，衡量LLM Verbosity。未来将提供更多维度，例如信息含量、表达形式，是否动用Markdown、表格等表达形式，提供更细粒度。同时，未来本数据集将结合模型价格，计算其综合使用成本。

发布单独的LLM Verbosity页面数据集。更新GPT 5.2系列评测结果，并提出分析。

已发布

13 12 月, 2025

分类

来自

首席分析师

标签：

评论