数据集 | 大语言模型啰嗦程度 LLM Verbosity

大语言模型的啰嗦程度(LLM Verbosity)是一项隐蔽指标,影响用户使用成本和日常体验。

为什么要做 LLM Verbosity 评测

一方面,模型输出的token也是要计价的,模型真实使用成本并不能只看单价,而是输出长度和单价的乘积。

另一方面,模型输出长度和用户偏好有较大关系。在LM Areana等用户双盲测试下,说的更多的模型可能会获得用户的喜爱。大模型厂商极有可能借此拟合用户偏好。

但是长度长并不等于质量高,也可能负面影响用户体验。不少服务提供商回复速度很慢,一个简单的日常生活问答,需要等待半分钟和5秒钟回答完毕体验是截然不同的。如果回答很长,用户在手机和网页等界面,更是需要多次滚动页面,用户体验下降。

LLM Verbosity Dataset

笔者尝试将“可乐可以除水垢吗?”这个问题,提给了市面上的不同模型,统计其回复的 token 数量,绘制表格,量化表征了不同模型的啰嗦程度(verbosity)。

这一问题属于生活日常,且可详可略。大模型既可以简单点出是否可以,也可以详细阐述背后的化学反应,并延伸出推荐做法。

模型回复长度(token)
GPT 5.2 Instant502
GPT 5.2 Thinking580
GPT 5.1 Instant115
GPT 5.1 Thinking1185
GPT 5 Chat464
GPT 5 Thinking605
GPT 5 mini600
Claude Opus 4.5225
Claude Sonnet 4.5325
Claude Haiku 4.5334
Gemini 3 Pro863
Gemini 2.5 Pro3302
Deepseek V3.2 Thinking1182
Deepseek V3.2835
GPT-OSS-120B1572
GPT 4.1452
GPT 4o-1120512
Qwen3-225B-2507534

数据分析

谷歌旗下的Gemini 2.5 Pro最为啰嗦,包含了思考过程的总token消耗达到了3000以上,回复token为1572。新款Gemini 3 Pro则降低到了862 token,更加均衡。

OpenAI旗下的开源模型GPT-OSS-120B第二啰嗦,输出长度达到了1572 token。其回复中列出了化学反应式和多个对比表格,可以说是事无巨细。

OpenAI的模型分化明显。例如GPT 5.1 Instant就极不爱说话,输出长度仅为115 token。GPT 5.2 Instant则又回到了580 token的正常水平。

Claude模型全系都保持了简洁,仅回复了200-300 token。Claude Opus 4.5模型基本能够点出核心要点,同时不浪费token。

不足和展望

本 LLM Verbosity 数据集目前仅测试了一个问题,严谨性不足。不同的服务商推理采样存在一定的随机性,如果采用不同的temperature等超参数会有不同结果。虽然使用prompt约束可以控制模型输出的详细、简略,但默认值偏好决定了绝大多数用户不会改变。

未来将建立一套覆盖日常生活问题的数据集,衡量LLM Verbosity。未来将提供更多维度,例如信息含量、表达形式,是否动用Markdown、表格等表达形式,提供更细粒度。同时,未来本数据集将结合模型价格,计算其综合使用成本。

更新日志

2025年12月13日

发布单独的LLM Verbosity页面数据集。更新GPT 5.2系列评测结果,并提出分析。


已发布

分类

,

来自

评论

一条对“数据集 | 大语言模型啰嗦程度 LLM Verbosity”的回复

  1. […] 5.1 Instant的Verbosity问题。大语言模型啰嗦程度数据集已经搬迁至 LLM Verbosity Dataset […]

发表评论

了解 AI前哨 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读