美国国家经济研究局(NBER)一篇工作论文测算了大语言模型LLM的需求价格弹性为-1.11。
该工作论文题为The Emerging Market for Intelligence: Pricing, Supply, and Demand for LLMs,利用OpenRouter的使用数据估算了大模型的需求价格弹性,并援引微软内部数据对于市场竞争格局做了案例分析。
研究方法
估算大模型需求价格弹性一大问题在于价格内生性。高质量的模型价格更高,使用量也更大,使用简单回归会得出“使用量与价格正相关”、需求价格弹性为正的荒谬结论。该论文采用模型内识别策略来解决这一问题,利用同一模型在不同的提供商之间价格差异估算需求价格弹性。
数据来源
OpenRouter是一家大模型聚合平台,同一开源模型会有多家不同的云服务推理商。不同模型提供商的定价差异,为研究提供了基础数据。
例如GPT-OSS-120B,就有Fireworks、Together AI、DeepInfra等数十家云服务商提供推理,最便宜的GMI Cloud定价为输入/输出分别0.02/0.1美元每百万token,价格最高的Cerebras为0.35/0.75美元每百万token,相应的GMI Cloud输出速度仅为60token/s,而Cerebras提供了高达700token/s的速度。
该研究仅纳入了开源模型,并未考虑闭源模型。闭源模型例如GPT 5.2在OpenRouter上仅有OpenAI一家提供商,因此无法进行识别。
实证模型
作者实证研究的主要模型如下。纳入考量的核心变量包括了价格、吞吐量、延迟、上下文大小,固定效应 γtm 和 θim 分别控制了时间与模型的交互趋势,以及供应商-模型层面的质量差异。

该研究主要利用两大因素识别需求弹性,(1)提供同一模型的供应商的进入与退出;(2)现有供应商的价格调整。由于模型质量保持不变,这种变异可以合理地分离出价格对需求量的因果效应。
研究结果
在控制了供应商-模型固定效应和日期-模型固定效应后,该研究得出大模型的需求弹性约为-1.11。

在估算中,Throughput项的系数为负,表明更高的吞吐量却与更低的需求相关联,违背常识。作者认为这与供应商产能有限的情况相符:当请求的token数量增多时,吞吐量会下降。但需要注意的是,这引发了内生性问题,因为需求会反过来影响吞吐量。
有何影响?
杰文斯悖论,也就是尽管效率提高、价格降低,但是使用量激增,以至于总的收入不降反升。
在一个简化情境下,通常需求弹性的绝对值需要大于1,才能够实现。如果需求价格弹性为-2,降价10%时需求增长20%,两者的乘积0.9*1.2=1.08,总营收实现了增长。
该研究-1.11的弹性系数,表明在供应商层面,大模型仅有微弱的杰文斯悖论。但如果考虑到大模型在全社会渗透率快速提高,仍有可能存在杰文斯悖论。
有何不足?
该研究存在两大不足。
OpenRouter平台自身存在路由机制,如果用户没有明确指定模型提供商,平台会依据自身算法自动分配。因此该研究没有明确区分哪些是用户明确指定供应商的请求,更像是对OpenRouter内部路由算法的逆向工程,而不是真实用户需求的体现。
根据其回归表格显示,within R²仅有0.06,表明绝大多数都被固定效应吸收,而固定效应正是因为OpenRouter平台对于model provider的内置打分。
同时,如果站在OpenRouter平台视角,内置算法将价格弹性设为-1的时候,有一个很特殊的性质:价格乘以数量,也就是总支出(或营收),对价格变化不敏感。价格降10%,流量就多10%,总金额几乎不变。OpenRouter极大可能是在算法当中写死的一个权重参数,保持营收分配的稳定性。
作者在脚注当中承认了这一点。
An important caveat is that OpenRouter allows users to either select a specific provider or delegate the choice to its routing algorithm. OpenRouter’s algorithm selects providers based on a combination of price and other attributes. Thus, some of the observed price sensitivity may reflect routing decisions made by OpenRouter rather than direct user choices.
另一大问题在于,该研究假定了模型-提供商的品质不随时间变化,使用了固定项吸收品质差异。
这假定了同一模型提供商降价时模型输出的品质没有变化。事实上,模型提供商将模型从BF16量化到fp8,同时降价,模型自身的品质是发生变化的。
Epoch AI的评测显示,云服务商推理新模型的稳定性要显著差于老模型。例如新发布的GLM 4.6不同提供商之间的差异要大得多,而老模型成熟的Qwen 3模型差异较小。
we find that providers are noticeably worse at serving newer models, in our case GLM-4.6, compared to established models such as Qwen3. This is consistent with other model releases, which are accompanied by bugs that are then fixed over time. ——Epoch AI
云服务提供商会随着时间的推移,修复自身推理基础设施的Bug,改善性能。
例如Artificial Analysis 评测指出微软Azure托管的GPT-OSS-120B模型跑分显著差于。随后微软官方的技术人员确认并修复了这一问题。
修复前,Azure上的GPT-OSS-120B分数为80%。

修复后,微软Azure托管的GPT-OSS-120B分数提高到了93%。

更加严谨的大模型需求估算,可能需要AB Test给不同用户提供不同定价,观察其使用量变化,或OpenRouter提供内部数据识别哪些用户明确指定了模型供应商才能够完成。
行业地位
尽管存在一些缺陷,但本文是首篇估算大模型需求弹性的论文,后续极大概率会被无数人引用。这也是目前估算大模型需求弹性的唯一参考。

发表评论