训练烧一次,
推理烧一辈子
商务部 17 项举措要让 AI 进千家万户。真正被点燃的不是再训几个大模型,是调用量爆炸。 训练像盖座脑子、盖完就完,是一次性的钱;推理却要天天烧。一屏一镜,算清这笔正在反转的账。
四个数,看懂这场成本反转
一条消费政策,下游烧的是算力
商务部等八部门发布《加快“人工智能+消费”发展》的 17 项举措,要让 AI 手机、智能家居、人形机器人进千家万户。大多数解读都在写 C 端,但顺产业链往下游看一格——
🧾 AI 进了千家万户,意味着每天被调用的次数爆炸式增长,而每一次调用,烧的都是推理算力。这一端,才是这条政策真正的“耗电口”。
前四期铺垫,这期讲“持续烧”
- EP01:算力 = 电;一张 GPU = 一台发电机;Token = 出租车跳表。
- EP02:Token 单价在塌、用量在飙,“量价剪刀差”撑起总需求。
- EP03:供给端“包租公”的回本账、毛利账,算清算力租赁怎么赚钱。
- EP3.5:能耗账——一度电吐上千万 Token,推理要持续烧电。
- 这一期 EP04:把“持续烧”讲透——训练是一次性 capex,推理是持续 opex,账正在反转。
两条曲线,藏着整场成本反转
蓝线是训练:一次性砸钱造脑,前期陡升、之后走平。橙线是推理:随调用量持续累加。两条线必有一个交点——过了它,推理累计就反超训练。
训练的钱,花完就完了;推理的钱,要天天交。AI 越普及,烧钱的重心就越往“推理”这头滑。
💡 看懂这张图,全文就懂一半了。训练和推理不是“谁更贵”,而是两种完全不同形状的花钱方式:一个是建好就不动的固定资产,一个是随业务量水涨船高的运营开销。
训练像盖楼:砸一笔大的,盖完就完
训练 = 一次性把“脑子”造出来
训练成本“前重后轻”:开工时投入巨大(万卡集群、海量电力、数月工期),一旦模型练好、权重固定,这笔成本就不再增长。同一个模型给 100 人用还是 1 亿人用,训练花费是同一笔。
💡 一句话理解:训练像盖一座桥。修桥时砸钱如流水,可桥一旦通车,再多车过桥也不用重修——建桥的钱,是一次性的。
🏗 所以“训练很贵”是有上限的:贵在一时,不贵在长久。真正没有上限、会随用户规模一起长大的,是下一段的推理。
推理像水电:每开一次龙头,都在跳表
每一次提问、每一个智能体任务,都要让模型重新算一遍——这叫推理。它是持续、随用量累加的 opex,永远不会结清;而现在 AI 越来越爱“思考”,一次任务背后是几十上百次调用。
推理的账单,乘了一个用户系数
推理“永远烧不完”的根源:它和业务量直接挂钩。训练的钱投一次见效一年,推理的钱每天都在重新发生。一条消费政策把上亿用户推到 AI 面前,训练侧基本没变,推理侧的账单却被乘上了一个巨大的用户系数。
而且推理是动态成本,没法“包月”兜死:并发一上来,算力、电力、带宽立刻顶上去——这正是算力计费越来越按 Token、按用量,而不是固定买断的原因。
算力的天平,正从训练倒向推理
这不是预测,是正在发生的事。业内普遍认为推理需求已是训练的 5–10 倍;2026 年 3 月,中国日均 Token 调用量约 140 万亿次,较 2024 年初涨千倍,同年 2 月周调用量首次超过美国。
这条政策,正好踩在拐点上
📈 “AI 进千家万户”翻译成算力语言,就是把推理需求再往上抬一截。供给侧不缺训练能力,缺的是能稳定、低价、长期供应推理算力的产能。这也是下一段“宁租不买”的根。
成本反转,把算力从“买断”逼向“租用”
当烧钱重心倒向推理,“先砸几个亿买断一批卡”越来越不划算——卡会贬值、用量会波动。于是越来越多人按需租、按用量付费、用长约锁价。需求传导很直接:推理顶上来,连 H100 一年期现货租金近半年都涨了约 40%。
两门生意,一目了然
| 看哪一头 | 训练侧 | 推理侧(今天的主战场) |
|---|---|---|
| 花钱方式 | 一次性 capex(盖脑子) | 持续 opex(天天干活) |
| 成本随谁涨 | 和模型大小挂钩,练完封顶 | 和用户量 / 调用量挂钩,无上限 |
| 怎么算钱 | 大额买断、整集群包断 | 按 Token、按用量、按需弹性 |
| 合约形态 | 阶段性采购 | 长协锁价(多锁 3–5 年)锁产能 |
| 谁更卷 | 少数大厂的军备竞赛 | 全行业按需消费,盘子持续做大 |
买断赌的是“用得满”,租用买的是“不踩空”。当账单跟着用量天天变,把固定大额换成弹性按需,反而是更稳的选择。
这也解释了为什么 2026 年算力租赁市场被机构看到约 2600 亿元规模、十亿/百亿级长协频现:买方要的不是“买一批卡”,而是“锁一段时间的、稳定可预测的推理产能”。当推理是持续开销,能用长约把单价和供给提前锁住的一方,才睡得着觉。
推理单价一直在跌,为什么总账还在涨
- 杰文斯悖论(接 EP02):单价越降,越多人用得起 AI,用量涨得比价格跌得更快——总开销不降反升。降价是放量的起点,不是省钱的终点。
- 推理也在拼命降本:低精度、KV 缓存、投机解码、蒸馏、国产卡(推理占比超 60%、定价低 20%–30%)……“推理烧钱”不等于“推理一定亏钱”,要看降本能否追上放量。
- 利用率黑洞:企业 GPU 集群实际平均利用率只有 5%–14%。很多“成本高”其实是卡在空转——账单贵,未必真在干活。
- 预测要打折:“5–10 倍”“2600 亿”“+40%”都是机构口径,会随口径、时点变化。看方向,别把某个数当铁板钉钉。
⚠️ 本质提醒:“反转”是结构性的(烧钱重心从训练挪向推理,很确定);但“推理一定是门好生意”并不确定,因为它同时被放量(往上推)和降价(往下压)两股力拉扯。别被单边叙事带走。
这一期,六个点记牢
训练推理谁更烧、政策啥关系、为什么租,一次说清
会勇禾口王的AI笔记
算力账本 · COMPUTE LEDGER · EP04 · @huiyonghkw