纯技术科普 · 不喊单 · 不荐股 · 只算账

AI 越用越便宜，
算力为什么
反而不够用？

过去三年，单个 Token 的价格几乎自由落体，可一次任务烧掉的 Token 总量却在指数爆炸。单价在跌、用量在飙——这正是“AI 越降价、算力越紧张”的真正原因。

▸ 方向键 / 空格 / 点击翻页　·　右下角可“自动播放”

本期速览 · OVERVIEW

一把量价剪刀差，三个数字

单价 · 每年

÷ 10

同等能力越来越便宜

用量 · 两年

× 0

谷歌月处理 Token

推理单次

5–50×

比普通多烧 Token

自制图表

0 张

把这把剪刀讲透

先接上一期

上一期结尾，我埋了一个没说透的问题

EP01《把算力当电卖》结尾我提了句风险：“全行业的 Token 单价这几年一直在猛降。”不少人私信：那 AI 不就越来越便宜了吗？可账单常常不降反升。这一期专门讲清，结论可能跟你想的相反。

🔁 三十秒回顾 EP01

算力=电，一张 GPU=一台发电机，一座机房=一座发电厂。
算力租赁=包租公，买卡建机房，按“卡×小时”出租。
Token=出租车跳表，模型每读一字、吐一字都在跳表，行业按 Token 计费。
Token 按量=把算力拆成小块、按用量供给（像装电表）。

本期只讲一对矛盾

一杯水越来越便宜，全世界却喝得越来越多

🧾 Token 的单价在跌（一杯水越来越便宜），可全世界喝掉的总量在飙（喝水的人和场景暴增）。看懂这对矛盾，就看懂了 AI 算力供需未来几年的真正变量。

一图看懂全文

先给你一张图：量价剪刀差

蓝线（单价）一路往下，黏土线（用量）一路往上，两条线张开的口子，就是整个 Token 总消耗增长的部分。

FIG.01量价剪刀差 · 单价↓ × 用量↑

量价剪刀差（示意框架）· 只要黏土线涨幅跑赢蓝线跌幅，总消耗就在涨

记住这把剪刀

“价格塌方”和“需求爆炸”不矛盾——它们是同一件事的两面。

本期核心论点 · 01

✂️ 记住这把剪刀，全文就懂一半了。下面我先分别证明“蓝线真的在塌”“黏土线真的在飙”，再回答最关键的问题：用量凭什么能涨这么猛？

蓝线 · 事实一

Token 单价，正在自由落体

这不是感觉。硅谷风投 a16z 给它起名 LLMflation（大模型通缩）——同等能力的模型，推理价格大约每年降一个数量级（约 10 倍）。

$60 → $0.06

达到同一基准分数
每百万 Token 成本
2021 末 → 2024 末

1000×

三年降价倍数
≈ 每年降一个数量级

>90%

国内一年内
Token 价格降幅
（2024 价格战起）

国内更刺激

为什么能降成这样？

2024 年 5 月，字节火山引擎的豆包大模型把价格打到 0.0008 元/千 Token，直接点燃价格战，阿里云、百度智能云连夜跟进，此后一年主流模型 Token 价格普遍降九成以上。到 2025 年的豆包 1.6，综合成本压到 2.6 元，比同期 DeepSeek R1 的 7 元再砍 63%。

为什么能这么降？六个力一起往下压：GPU 更快、模型量化（16 位精度压到 4 位）、推理软件优化、小模型追平大模型、训练方法进步、开源把利润空间挤干。

💡 一句话理解 LLMflation：同样聪明的 AI，今年的“每万字对话费”只有去年的十分之一。跟手机流量、跟当年长途电话费一个剧本——技术成熟，单价就往地板砸。

黏土线 · 事实二

可被烧掉的 Token 总量，在指数爆炸

看谷歌一家每月处理的 Token 总量，这是 2026 年 I/O 大会上 CEO 皮查伊亲口给的数据：

FIG.02谷歌月处理 Token 量 · 对数刻度

谷歌单月 Token 处理量（纵轴对数刻度，否则前几根矮到看不见）· 数据：Google I/O 2026

换算一下

两年 330 倍，光最近一年就 7 倍

2024.04 → 2026.05 两年，谷歌一家的月处理量涨了约 330 倍；光最近一年就是 7 倍。配套两个数：每月 850 万开发者在用 Gemini 建应用；过去 12 个月，375 个谷歌云客户每家年消耗超 1 万亿 Token。

🔑 把两条线摆一起：单价一年降约 10 倍，用量一年涨约 7 倍甚至更多。下面三节，回答用量凭什么涨这么猛。

核心机制

为什么越便宜越费？杰文斯悖论

这事一百六十年前就被说透了。1865 年，英国经济学家杰文斯发现：蒸汽机越省煤，全国烧的煤反而越多。

J

Jevons Paradox · 杰文斯悖论

效率越高，总消耗反而越大

一样东西用起来更便宜、更高效，它就会被用到过去根本舍不得用的地方。蒸汽机省煤 → 用蒸汽机变划算 → 工厂、火车、轮船全换上 → 烧的煤不降反升。放到今天：Token 越便宜，AI 就越被塞进每一个角落——搜索、邮件总结、代码补全、客服、文档问答……每个场景单次便宜了，但场景多了几个数量级，总账单照样往上涨。

💡 一句话理解：当年长途电话一分钟几块钱，你只在过年打一个；现在视频通话几乎免费，你一天挂机好几小时。单价归零，总时长却爆了。

别处少有人提

但别把悖论当永动机

🛑 杰文斯效应靠“省下来的钱催生新需求”驱动，它有刹车点：当一个场景被 AI 彻底吃透、边际效用饱和，再降价也榨不出多少增量。所以真正该盯的不是“还会不会降价”，而是那把剪刀的口子，还在不在继续张开。

“算力账本”的看法：看趋势，看的是剪刀差，不是单价。

COMPUTE LEDGER · EP02

你大概率不知道的

别再说“Token”了，它其实是四种

同样叫 Token，价格能差几十倍。看懂这张价目表，你才明白为什么“推理模型”和“智能体”会把账单撑爆。

FIG.03四类 Token 相对价

同样叫 Token，缓存输入 ≈ 输入的 1/10，输出是输入的 3–5 倍

为什么差这么多

输入、输出、缓存、思考，价差从哪来

输出比输入贵（约 3–5 倍）：输入是“一口气读进去”，输出要“一个字一个字地算出来、还得排队生成”，更吃算力。
缓存命中近乎白菜价（约 1 折）：同一段提示词、同一份资料反复用，模型缓存起来，第二次不用重算，命中部分通常只收 1 折左右。
“思考 Token”按输出计费：推理模型答你之前先打一大段你看不见的草稿，这草稿算作输出 Token——价不变，但量能翻几十倍。

🛠 实用结论：想省，别只盯“哪家单价低”。把能复用的提示词做成缓存、让模型少废话、非必要不开思考模式——同一个模型，账单能差好几倍。

又一个被忽略的

“中文税”：你为每个汉字，可能多付了钱

同样一段话，中文消耗的 Token 常常比英文多。但这里有个反转，恰恰是国产模型的机会。

FIG.04中英文 Token 消耗对比

同一段内容的 Token 数（示意）· “中文税”取决于分词器在谁的语料上训练

原理在分词器

谁的中文更便宜，看分词器在谁的语料上训练

模型怎么把文字切成 Token，是事先训练定死的。英文语料为主训练出来的分词器，会把一个汉字切成一两个甚至更多 Token，于是同样意思的中文比英文多耗——实测在一些主流外语优化模型上，中文比英文多耗 11%–64%，商业新闻这类文本最夸张。

反转在这儿：在 Qwen、DeepSeek 这类中文语料喂得足的国产模型上，一个常用汉字往往能压进一个 Token，中文处理反而比英文更省。这是国产模型在中文场景一个实打实、却很少被点破的优势。

用量凭什么涨

两台“抽水机”，把用量往死里抽

黏土线（用量）凭什么涨这么猛？两台抽水机：一台放大单次问答的 Token，一台放大一个任务问多少次。

📚 训练

把模型教聪明
（一次性、烧大钱）

💬 普通推理

问一句答一句
几百 Token

🧠 思考型推理

答前先在草稿纸上
想一长串再作答

抽水机①

推理模型，单次问答多烧 5–50 倍

像 o 系列、DeepSeek R1 这类推理模型，回答前会先打一大段你看不见的草稿（列步骤、试错、自检），屏幕上看不到，却实打实按输出 Token 计费。

FIG.05普通 vs 推理 · 单次 Token · 对数刻度

同一个问题，推理模式比普通模式多烧 5–50 倍 Token（公开评测口径）

抽水机②

智能体，把“问多少次”翻几十倍

A

AI Agent · 抽水机②

智能体，把“问多少次”翻几十倍

过去你用 AI 是“一问一答”。智能体是你给它一个目标——“帮我把这份报告查证、整理、做成表格”——它自己拆任务、自己搜资料、自己调工具、自己反复检查，一个任务背后调用模型几十上百次，每次都是一轮完整 Token 收费。一个稍复杂的智能体任务，烧的 Token 可能是当年一次普通聊天的成千上万倍。

💡 一句话理解：普通问答=打车跳一次表；智能体=雇个助理跑一整天，期间打了几十趟车。每趟都便宜了，趟数却多到吓人。

推理让“每次更费”，智能体让“次数暴增”——两台抽水机一叠加，用量就这么爆了。

本期核心论点 · 02

落回供需

这对“算力供需”到底意味着什么

维度	推动力（量在涨）	另一面（价在降）
需求总量	推理 + 智能体把总消耗推向指数级	取决于 AI 应用是否真用得起来、用得久
单位价格	推理需求结构性上升，优质算力依旧紧俏	单个 Token 单价被持续压低，靠规模摊平
用法变化	从“整租给少数大团队”走向“按量供给给海量小用户”	按量虽便宜，但波动大、不好预测
本质	算力越来越像水电煤：标准化、按量、人人能用	越是基础设施，越拼成本与效率，而非稀缺

🧭 一句话串起来：Token 降价不是终点，而是把 AI 的使用门槛打到地板，让用量长出来。算力正从“拼一张卡有多稀缺”，转向“拼整体规模与效率”。盯的是用量，不是单价。

冷静一下

别只看爆量，也得看没解决的难题

成本反过来咬人：微软内部测算指出，某些场景让 AI 智能体干活，比直接雇人还贵——Token 烧得太狠。
连 OpenAI 都喊贵：2026 年 6 月，Sam Altman 公开承认 Token 成本“正在成为一个问题”。
成本质疑没散：社区里“AI 算这笔账根本不划算”的长帖冲到上千赞，核心论点之一是算力被英伟达一家卡着。
价格战在反转：国内已有多家头部厂商停止降价、部分 API 反而提价。
用量是预期，不是合同：爆量建立在“AI 应用持续繁荣”上，应用层一旦挤泡沫，算力需求会跟着回调。

⚠️ 本质提醒：“降价催生爆量”是真的，但它同时把每一单的成本空间压得很薄。真正能把 AI 用好用省的，是把缓存、输出、思考模式都管起来的人。

一页速查

这一期，六个词记牢

✂️

量价剪刀差

单价↓×用量↑↑，用量涨得比降价更快。

📉

LLMflation

大模型通缩。同等能力推理价约每年降 10 倍。

🔥

杰文斯悖论

越便宜越费，但有刹车点：盯剪刀口还张不张。

🧩

Token 四类价

缓存≈0.1×、输入1×、输出3–5×、思考按输出但量暴增。

🀄

中文税

外语模型中文更费；国产模型中文反而更省。

🤖

两台抽水机

推理放大单次、智能体放大次数。

三个最容易想拧的问题

降价、思考 Token、和 EP01，一次说清

Token 一直降价，AI 用起来不就越来越便宜了？

不一定。单价降，但用量涨得更快（杰文斯悖论）。总账单是“单价 × 用量”，用量增速一旦跑赢降价速度，总花费反而上升——过去两年就是这样。想省，得主动管好用量。

“思考 Token”我屏幕上看不到，为什么要我付钱？

因为模型“在草稿纸上演算”本身就在占用 GPU、消耗算力，按行业通行规则算作输出 Token 计费。同一句回答，用推理模型可能贵好几倍——便宜的是单价，贵的是它想得更多。

这跟 EP01 讲的“算力租赁”是两回事吗？

是同一条链的两端。EP01 讲供给端（算力怎么来、怎么租用），这一期讲需求端（为什么用量会指数膨胀）。供给决定能用上多少，需求决定要用掉多少，两期合起来才是完整一笔账。

📘 本文为 AI 技术科普，目的是把“Token 经济学 / 杰文斯悖论 / 推理模型 / 中文税”这些概念讲清楚。文中数据系引用公开报道，仅作通俗解释之用，可能存在简化或偏差，欢迎指正。本内容不构成任何投资建议。

— END OF LEDGER · EP 02 —

会勇禾口王的AI笔记

算力账本 · COMPUTE LEDGER · EP02 · @huiyonghkw

下期预告 · EP03 算力租赁的回本账

🎁 微信搜 会勇禾口王的AI笔记，回复工厂领 AI 内容流水线手册

AI 越用越便宜，算力为什么反而不够用？

一把量价剪刀差，三个数字

上一期结尾，我埋了一个没说透的问题

🔁 三十秒回顾 EP01

一杯水越来越便宜，全世界却喝得越来越多

先给你一张图：量价剪刀差

Token 单价，正在自由落体

为什么能降成这样？

可被烧掉的 Token 总量，在指数爆炸

两年 330 倍，光最近一年就 7 倍

为什么越便宜越费？杰文斯悖论

效率越高，总消耗反而越大

但别把悖论当永动机

别再说“Token”了，它其实是四种

输入、输出、缓存、思考，价差从哪来

“中文税”：你为每个汉字，可能多付了钱

谁的中文更便宜，看分词器在谁的语料上训练

两台“抽水机”，把用量往死里抽

推理模型，单次问答多烧 5–50 倍

智能体，把“问多少次”翻几十倍

智能体，把“问多少次”翻几十倍

这对“算力供需”到底意味着什么

别只看爆量，也得看没解决的难题

这一期，六个词记牢

降价、思考 Token、和 EP01，一次说清

AI 越用越便宜，
算力为什么
反而不够用？