AI 越用越便宜,
算力为什么
反而不够用?
过去三年,单个 Token 的价格几乎自由落体,可一次任务烧掉的 Token 总量却在指数爆炸。 单价在跌、用量在飙——这正是“AI 越降价、算力越紧张”的真正原因。
一把量价剪刀差,三个数字
上一期结尾,我埋了一个没说透的问题
EP01《把算力当电卖》结尾我提了句风险:“全行业的 Token 单价这几年一直在猛降。”不少人私信:那 AI 不就越来越便宜了吗?可账单常常不降反升。这一期专门讲清,结论可能跟你想的相反。
🔁 三十秒回顾 EP01
- 算力=电,一张 GPU=一台发电机,一座机房=一座发电厂。
- 算力租赁=包租公,买卡建机房,按“卡×小时”出租。
- Token=出租车跳表,模型每读一字、吐一字都在跳表,行业按 Token 计费。
- Token 按量=把算力拆成小块、按用量供给(像装电表)。
一杯水越来越便宜,全世界却喝得越来越多
🧾 Token 的单价在跌(一杯水越来越便宜),可全世界喝掉的总量在飙(喝水的人和场景暴增)。看懂这对矛盾,就看懂了 AI 算力供需未来几年的真正变量。
先给你一张图:量价剪刀差
蓝线(单价)一路往下,黏土线(用量)一路往上,两条线张开的口子,就是整个 Token 总消耗增长的部分。
“价格塌方”和“需求爆炸”不矛盾——它们是同一件事的两面。
✂️ 记住这把剪刀,全文就懂一半了。下面我先分别证明“蓝线真的在塌”“黏土线真的在飙”,再回答最关键的问题:用量凭什么能涨这么猛?
Token 单价,正在自由落体
这不是感觉。硅谷风投 a16z 给它起名 LLMflation(大模型通缩)——同等能力的模型,推理价格大约每年降一个数量级(约 10 倍)。
每百万 Token 成本
2021 末 → 2024 末
≈ 每年降一个数量级
Token 价格降幅
(2024 价格战起)
为什么能降成这样?
2024 年 5 月,字节火山引擎的豆包大模型把价格打到 0.0008 元/千 Token,直接点燃价格战,阿里云、百度智能云连夜跟进,此后一年主流模型 Token 价格普遍降九成以上。到 2025 年的豆包 1.6,综合成本压到 2.6 元,比同期 DeepSeek R1 的 7 元再砍 63%。
为什么能这么降?六个力一起往下压:GPU 更快、模型量化(16 位精度压到 4 位)、推理软件优化、小模型追平大模型、训练方法进步、开源把利润空间挤干。
💡 一句话理解 LLMflation:同样聪明的 AI,今年的“每万字对话费”只有去年的十分之一。跟手机流量、跟当年长途电话费一个剧本——技术成熟,单价就往地板砸。
可被烧掉的 Token 总量,在指数爆炸
看谷歌一家每月处理的 Token 总量,这是 2026 年 I/O 大会上 CEO 皮查伊亲口给的数据:
两年 330 倍,光最近一年就 7 倍
2024.04 → 2026.05 两年,谷歌一家的月处理量涨了约 330 倍;光最近一年就是 7 倍。配套两个数:每月 850 万开发者在用 Gemini 建应用;过去 12 个月,375 个谷歌云客户每家年消耗超 1 万亿 Token。
🔑 把两条线摆一起:单价一年降约 10 倍,用量一年涨约 7 倍甚至更多。下面三节,回答用量凭什么涨这么猛。
为什么越便宜越费?杰文斯悖论
这事一百六十年前就被说透了。1865 年,英国经济学家杰文斯发现:蒸汽机越省煤,全国烧的煤反而越多。
效率越高,总消耗反而越大
一样东西用起来更便宜、更高效,它就会被用到过去根本舍不得用的地方。蒸汽机省煤 → 用蒸汽机变划算 → 工厂、火车、轮船全换上 → 烧的煤不降反升。放到今天:Token 越便宜,AI 就越被塞进每一个角落——搜索、邮件总结、代码补全、客服、文档问答……每个场景单次便宜了,但场景多了几个数量级,总账单照样往上涨。
💡 一句话理解:当年长途电话一分钟几块钱,你只在过年打一个;现在视频通话几乎免费,你一天挂机好几小时。单价归零,总时长却爆了。
但别把悖论当永动机
🛑 杰文斯效应靠“省下来的钱催生新需求”驱动,它有刹车点:当一个场景被 AI 彻底吃透、边际效用饱和,再降价也榨不出多少增量。所以真正该盯的不是“还会不会降价”,而是那把剪刀的口子,还在不在继续张开。
“算力账本”的看法:看趋势,看的是剪刀差,不是单价。
别再说“Token”了,它其实是四种
同样叫 Token,价格能差几十倍。看懂这张价目表,你才明白为什么“推理模型”和“智能体”会把账单撑爆。
输入、输出、缓存、思考,价差从哪来
- 输出比输入贵(约 3–5 倍):输入是“一口气读进去”,输出要“一个字一个字地算出来、还得排队生成”,更吃算力。
- 缓存命中近乎白菜价(约 1 折):同一段提示词、同一份资料反复用,模型缓存起来,第二次不用重算,命中部分通常只收 1 折左右。
- “思考 Token”按输出计费:推理模型答你之前先打一大段你看不见的草稿,这草稿算作输出 Token——价不变,但量能翻几十倍。
🛠 实用结论:想省,别只盯“哪家单价低”。把能复用的提示词做成缓存、让模型少废话、非必要不开思考模式——同一个模型,账单能差好几倍。
“中文税”:你为每个汉字,可能多付了钱
同样一段话,中文消耗的 Token 常常比英文多。但这里有个反转,恰恰是国产模型的机会。
谁的中文更便宜,看分词器在谁的语料上训练
模型怎么把文字切成 Token,是事先训练定死的。英文语料为主训练出来的分词器,会把一个汉字切成一两个甚至更多 Token,于是同样意思的中文比英文多耗——实测在一些主流外语优化模型上,中文比英文多耗 11%–64%,商业新闻这类文本最夸张。
反转在这儿:在 Qwen、DeepSeek 这类中文语料喂得足的国产模型上,一个常用汉字往往能压进一个 Token,中文处理反而比英文更省。这是国产模型在中文场景一个实打实、却很少被点破的优势。
两台“抽水机”,把用量往死里抽
黏土线(用量)凭什么涨这么猛?两台抽水机:一台放大单次问答的 Token,一台放大一个任务问多少次。
(一次性、烧大钱)
几百 Token
想一长串再作答
推理模型,单次问答多烧 5–50 倍
像 o 系列、DeepSeek R1 这类推理模型,回答前会先打一大段你看不见的草稿(列步骤、试错、自检),屏幕上看不到,却实打实按输出 Token 计费。
智能体,把“问多少次”翻几十倍
智能体,把“问多少次”翻几十倍
过去你用 AI 是“一问一答”。智能体是你给它一个目标——“帮我把这份报告查证、整理、做成表格”——它自己拆任务、自己搜资料、自己调工具、自己反复检查,一个任务背后调用模型几十上百次,每次都是一轮完整 Token 收费。一个稍复杂的智能体任务,烧的 Token 可能是当年一次普通聊天的成千上万倍。
💡 一句话理解:普通问答=打车跳一次表;智能体=雇个助理跑一整天,期间打了几十趟车。每趟都便宜了,趟数却多到吓人。
推理让“每次更费”,智能体让“次数暴增”——两台抽水机一叠加,用量就这么爆了。
这对“算力供需”到底意味着什么
| 维度 | 推动力(量在涨) | 另一面(价在降) |
|---|---|---|
| 需求总量 | 推理 + 智能体把总消耗推向指数级 | 取决于 AI 应用是否真用得起来、用得久 |
| 单位价格 | 推理需求结构性上升,优质算力依旧紧俏 | 单个 Token 单价被持续压低,靠规模摊平 |
| 用法变化 | 从“整租给少数大团队”走向“按量供给给海量小用户” | 按量虽便宜,但波动大、不好预测 |
| 本质 | 算力越来越像水电煤:标准化、按量、人人能用 | 越是基础设施,越拼成本与效率,而非稀缺 |
🧭 一句话串起来:Token 降价不是终点,而是把 AI 的使用门槛打到地板,让用量长出来。算力正从“拼一张卡有多稀缺”,转向“拼整体规模与效率”。盯的是用量,不是单价。
别只看爆量,也得看没解决的难题
- 成本反过来咬人:微软内部测算指出,某些场景让 AI 智能体干活,比直接雇人还贵——Token 烧得太狠。
- 连 OpenAI 都喊贵:2026 年 6 月,Sam Altman 公开承认 Token 成本“正在成为一个问题”。
- 成本质疑没散:社区里“AI 算这笔账根本不划算”的长帖冲到上千赞,核心论点之一是算力被英伟达一家卡着。
- 价格战在反转:国内已有多家头部厂商停止降价、部分 API 反而提价。
- 用量是预期,不是合同:爆量建立在“AI 应用持续繁荣”上,应用层一旦挤泡沫,算力需求会跟着回调。
⚠️ 本质提醒:“降价催生爆量”是真的,但它同时把每一单的成本空间压得很薄。真正能把 AI 用好用省的,是把缓存、输出、思考模式都管起来的人。
这一期,六个词记牢
降价、思考 Token、和 EP01,一次说清
会勇禾口王的AI笔记
算力账本 · COMPUTE LEDGER · EP02 · @huiyonghkw