算力账本 / COMPUTE LEDGER
能耗账 · ENERGYEP 3.501 / 22
纯技术科普 · 不喊单 · 不荐股 · 只算账

一度电,
能吐多少Token

AI 这门生意,正从“烧钱造脑”转向“烧电干活”——训练只烧一次,推理却要天天烧电。 一度电到底能换多少 Token?电费占几成?为什么省电越来越难?一屏一镜,把“插座到 Token”这条能量账摊开。

▸ 方向键 / 空格 / 点击翻页 · 右下角可“自动播放”
本期速览 · OVERVIEW

四个数,看懂这笔电费账

一度电产出
>1000万
个 Token(最优工况)
单 Token 能耗
0.3–1.5
焦耳 / Token
电费占成本
10–20%
大头是卡的折旧
行业 PUE
1.5–1.6
十年没怎么动
先接上一期

租金账算完了,这期算电费账

很多人以为 AI 最费的是钱,其实越往后,最绕不开的是。训练只烧一次,推理要持续烧——这正是“能耗账”今天才变重要的原因。

🔁 三十秒回顾前几期

  • EP01:算力 = 电;一张 GPU = 一台发电机;Token = 出租车跳表。
  • EP02:Token 单价在塌、用量在飙,“量价剪刀差”撑起总需求。
  • EP03:供给端“包租公”的回本账、毛利账,电费是其中一块成本。
  • 这一期 EP3.5:把“电费”这块放大——一度电吐多少 Token、电费占几成、为什么省电越来越难。
这一期的核心问题

从插座到 Token,这条能量账怎么算

🧾 把“每度电的产出”“电费占比”“能效天花板”摊开,你就能判断 AI 烧电到底烧在哪、还有多少省的空间——而不是被“AI 耗电吓人”“AI 其实不费电”两种极端各带一波节奏。

一图看懂全文

先给你一个数:一度电,能吐上千万 Token

左边是1 度电(1 kWh),经过 GPU + 模型这台“绞肉机”,右边吐出来的是 token。最优条件下,一度电能产出超过 1000 万个 Token

FIG.01插座 → Token · 能量放大器
1 kWh 一度电 GPU + 模型 把电变成"算" 芯片代际 · 精度 · 模型大小 > 10,000,000 个 Token(最优条件下)
一度电的产出(最优工况,示意)· 同样一度电,跑老卡还是新卡、大模型还是小模型,差出好几倍
本期核心论点 · 01

一度电能吐多少 Token,其实跟电关系不大——关键看这度电,喂给了什么芯片、跑的是什么模型。

COMPUTE LEDGER · EP3.5

💡 看懂这张图,全文就懂一半了。“一度电吐多少 Token”不是固定数,而是一台“能效机器”的产出——机器越先进(新卡、低精度、合适的模型),同样一度电吐的 Token 越多。下面三步拆开:先看每个 Token 的能量底价,再看电费在成本里占几成,最后看能效天花板在哪。

单个 Token 的能量底价

一个 Token,大概值0.3 到 1.5 焦耳

在 H100 这类主流卡上,生成一个 Token 约消耗 0.3–1.5 焦耳;换算到一次完整对话,中位数约 0.31 瓦时(Wh)——不到点亮一盏 LED 灯泡几十秒的电。

FIG.02每 Token 能耗区间
0.3 — 1.5 焦耳 / Token 0.3J · 新卡/低精度 1.5J · 大模型/高负载 一次对话 ≈ 0.31 Wh (中位数) 单个 Token 的耗电区间(H100 系统,示意)
每个 Token 约 0.3–1.5 焦耳,取决于模型大小、精度与负载 · 越大的模型、越高的精度,单 Token 越费电
一个必须标注的坑

那些“吓人能耗数字”,往往高估了几倍

⚠️ 网上流传的“AI 一次提问耗一瓶水 / 一度电”之类的数字,很多是非生产环境的估算,往往把真实能耗高估了 4–20 倍。真按生产部署算,效率比大众印象好得多。科普的本分是给区间、标来源,而不是挑最吓人的那个数。

一个反直觉的事实

电费,其实只占一成到两成

在一台 H100 服务器的算力成本里,电费只占 10%–20%,真正的大头是卡本身的采购与折旧,剩下水冷、网络、运维加起来也不多。

FIG.031 元算力成本的去向
把"1 元算力成本"拆开(示意结构) 卡采购 + 折旧 ~63% 电费 ~15% 卡采购 + 折旧 ~63%(大头) 电费 10%–20% 水冷 + 网络 ~12% 运维 + 其他 ~9%(含服务商利润)
算力成本结构(示意,非某一家精确数)· 电费占一到两成,卡的采购与折旧才是真正的大头
那为什么还拼命压电费

电费不是命门,折旧才是

为什么大家拼命压电费、找便宜电,却很少有人因为电价高就不建机房——因为电费不是这门生意的命门,卡的折旧才是(这正是 EP03 那条“折旧赛跑”)。电费是持续的、躲不掉的运营成本,省一点是一点;但决定回本的,仍是那张会快速贬值的卡。

不过电费有个特点:它是动态成本,没法“包月”兜住。海量并发一上来,电力和带宽开销直接顶上去——这也是为什么算力越来越倾向按 Token、按用量计费:因为底层的电,本来就是按用量烧的。

能效天花板

省电的便宜招式,快用光了

衡量“有多少电真的用在算上”的指标叫 PUE。全球平均卡在 1.5–1.6 已经差不多十年——每 1 度电用于计算,还要额外搭进去约 0.5–0.6 度散热、供电损耗。便宜的省电招式基本用完了。

FIG.04冷却方式 → PUE 阶梯
行业平均 PUE 1.5–1.6 风冷 1.3–1.5 液冷 1.1–1.2 浸没式 1.03–1.05 PUE 越接近 1.0 越好(条越短越省)· 德国 2026 起强制新建机房 ≤ 1.2
不同冷却方式的 PUE(示意)· 从风冷到浸没,省电空间一路收窄;行业正用“每瓦多少 Token”取代 PUE 当新标尺
新的能效标尺

不看省了多少电,看一瓦电产出多少智能

W
Tokens per Watt · 每瓦 Token

每瓦 Token:比 PUE 更贴近生意本质

PUE 只管“机房有没有浪费电”,不管“这些电算出了多少东西”。所以 2026 年行业越来越用 “每瓦 Token(tokens per watt)”——同样一瓦电,谁吐的 Token 多谁就赢。它把芯片能效 + 机房能效 + 模型效率合成一个数。

💡 一句话理解:PUE 像“这栋楼的空调费占电费几成”,每瓦 Token 像“每一度电做出了多少件产品”。省电只是手段,用同样的电做出更多东西,才是真本事。

为什么能耗账今天才重要

AI 正从“烧钱造脑”,转向“烧电干活”

训练一个大模型是一次性投入——像盖一座脑子,盖完就完了。但模型上线后,每一次提问都在持续烧电。用户量起来,推理这笔“持续的电费”会慢慢盖过训练那笔“一次性的钱”。

FIG.05训练(一次性) vs 推理(持续) · 累计能耗
累计能耗 训练:一次性烧钱造脑 推理:持续烧电干活 推理累计能耗反超训练 使用时间 / 调用量 →
训练 vs 推理的累计能耗(示意趋势)· 用户量越大、用得越久,推理这笔持续电费越占主导
本期核心论点 · 02

训练的钱,花完就完了;推理的电,要天天交。谁能让每瓦电吐更多 Token,谁就能在这场持续的电费战里活得更久。

COMPUTE LEDGER · EP3.5

这不是空谈:2026 年 3 月,中国日均 Token 调用量已达约 140 万亿次,比 2024 年初涨了一千多倍。每一次调用都在烧电,推理的电力压力已经超出云厂商的补贴上限——海外甚至出现“企业开始按预算限量用 AI”的报道,因为账单涨得太快。

一张算力地图,就是一张电价地图

机房往哪建?哪儿电便宜往哪儿建

既然电是持续成本,省电费最直接的办法就是把机房建到电便宜的地方。风电、光伏最便宜,天然气次之,核电单看建设成本最贵。

FIG.06电源度电成本对比
陆上风电 $25 / MWh 光伏 $26 / MWh 天然气 $37 / MWh 核电 建设成本 5–10× 天然气 度电成本越低越好;核电度电费用低但前期投资极高,适合长期绑定
不同电源的成本对比(示意)· 谷歌、微软等都在长约绑定风/光/核电,把“便宜且稳定的电”提前锁住
算力的尽头是电力

巨头抢电、建电、锁电

电的需求有多猛?数据中心 + AI + 加密,2022 年约占全球用电的 2%,2026 年可能翻倍;像爱尔兰这样的小国,数据中心一项就可能吃掉全国 约三分之一的电。于是巨头一边把机房往电便宜、电网还有余量的地区迁,一边直接投资风电、光伏、甚至核电厂来锁电。

到 2030 年,数据中心相关资本开支可能高达数万亿美元,其中很大一块不是买卡,而是抢电、建电、锁电。算力的尽头,是电力。

选址的终极一跳

顺到极致:把机房搬上太空

🛰
Orbital Data Center · 太空数据中心

地面拼命压的电费和水冷,在太空近乎“白送”

合适轨道上,太阳能板效率可达地面的约 8 倍、还能近乎不间断发电;散热直接向冰冷的太空辐射,不靠水冷。这不是科幻:2025 年 11 月一周内,英伟达把 H100 首次送上太空并在轨跑通大模型;SpaceX 目标 4–5 年内每年部署 100GW 算力;谷歌启动“捕日者计划”;中国规划 700–800 公里晨昏轨道超千兆瓦数据中心。

≈ 8×
合适轨道上
太阳能板效率
对比地面
100 GW
SpaceX 目标
每年太空算力
部署规模
700–800km
中国规划的
晨昏轨道
超千兆瓦数据中心
趋势要看,时间表要冷静

🛰 但别急着上头:太空算力还在最早期——发射成本、在轨散热的工程难度、辐射对芯片的损伤、维护与数据回传,都是没解完的难题。它指明的是“电与散热”这道题的终极方向,不代表明天就能商用。

算力的尽头是电力;而电力的尽头,可能在地球之外

本期延伸 · 太空算力
冷静一下

缺电之外,还有一个更尴尬的浪费

  • 利用率黑洞:企业 GPU 集群实际平均利用率只有 5%–14%——卡买来了、电也在烧,但大部分时间在空转。比“缺电”更隐蔽。
  • 从缺卡到缺电:过去瓶颈是“买不到卡”,现在变成“供不上电、散不掉热”——GPU 功率密度成了新约束。
  • 吓人数字要打折:“一次提问耗一瓶水”这类传播,很多把能耗高估了 4–20 倍。科普别帮着放大焦虑。
  • 能效进步会被用量吃掉:就算每个 Token 越来越省电,只要总调用量涨得更快,总耗电还是往上走——这就是“杰文斯悖论”。

⚠️ 本质提醒:既不是“耗电怪兽要毁灭地球”,也不是“其实根本不费电”。真相是:单个 Token 在变省,总用量在猛涨,浪费主要发生在空转和散热上。

一页速查

这一期,六个数记牢

🔌
一度电 > 1000 万 Token
最优工况下的产出,取决于芯片与模型,不取决于“电”。
0.3–1.5 焦耳 / Token
单个 Token 的能量底价,一次对话中位约 0.31 Wh。
🧾
电费占 10%–20%
算力成本大头是卡的采购与折旧,不是电费。
🌡️
PUE 1.5–1.6
十年没怎么动;液冷 1.1、浸没 1.03 才更省。
📈
每瓦 Token
取代 PUE 的新能效标尺:一瓦电产出多少智能。
🕳️
利用率 5%–14%
很多卡在空转——比缺电更隐蔽的浪费。
三个最容易想拧的问题

一度电、费不费电、跟前几期,一次说清

一度电到底能吐多少 Token,有没有准数?
没有唯一准数。最优工况下能超过 1000 万个,但它高度依赖三件事:用什么卡(新卡更省)、跑多大的模型(小模型更省)、什么精度(低精度更省)。本质是在问“这台能效机器有多先进”,而不是在问电。
AI 是不是特别费电,会不会把电网烧穿?
要分两头看。单 Token 能耗在持续下降,很多“一次提问耗一瓶水”的数字被高估了 4–20 倍;但总调用量涨得更快(中国日均约 140 万亿次),所以总耗电仍在上升。主要矛盾是局部电网供给、散热,以及大量卡空转的浪费。
这期讲的电,跟前几期的算力、租金什么关系?
是同一笔账的不同层。EP01 算力像电;EP02 Token 量价;EP03 包租公回本,电费是一块成本;EP3.5 把电费单独放大——它是推理时代躲不掉的持续运营成本。一句话:电变算力,算力吐 Token,Token 换收入,电费是最底层、最持续的那笔开销。
📘 本文为 AI 技术与产业科普,文中图表多为示意,数字会随芯片、模型、工况不同而变化,仅作通俗解释之用,可能存在简化或偏差,欢迎指正。本内容不构成任何投资建议。
— END OF LEDGER · EP 3.5 —

会勇禾口王的AI笔记

算力账本 · COMPUTE LEDGER · EP3.5 · @huiyonghkw

🎁 微信搜 会勇禾口王的AI笔记,回复 工厂 领 AI 内容流水线手册