算力账本 / COMPUTE LEDGER
入门 · BASICSEP 0101 / 18
纯技术科普 · 把概念讲明白 · 零基础友好

算力、Token
到底是什么

算力、算力租赁、Token——这几个 AI 天天刷屏的词,听着玄,其实把它们当成“电”和“电表”就全通了。 一屏一镜,把算力、训练 / 推理卡、Token 从头讲清。

▸ 方向键 / 空格 / 点击翻页 · 右下角可“自动播放”
本期速览 · OVERVIEW

四个词,一条主链

核心概念
0 个
算力 / 租赁 / 卡 / Token
一条主链
电→算→字
算力 → 模型 → Token
计价单位
Token
像电表的度数
阅读难度
零基础
不需要任何前置
第一块积木

先搞懂一个字:算力,其实就是“电”

所有 AI 的故事,根子上都是一个词——算力。它听起来很玄,但你只要把它想成“电”,剩下的全都通了。

Computing Power / FLOPS

算力 · 计算能力

一台机器“每秒能做多少次数学运算”的能力。AI 大模型本质是在做天文数字级别的乘加,谁快谁就能更快训练、更快回答。常用单位是 P(PFLOPS),“6 万 P”就是机房里所有卡加起来的总运算能力。

💡 一句话理解:算力 = 电力。一张 GPU = 一台发电机,一座机房 = 一座发电厂。AI 公司缺的从来不是创意,是“电”不够用。

承上启下

算力为什么这么金贵

⚡ 训练一个 GPT 级大模型,要把成千上万张顶级显卡连在一起、不间断跑上几个月,电费和卡钱都是天文数字。于是就有了一种服务:专门买卡、建机房,把“电”租给那些需要算力却买不起卡的人——这就是算力租赁

一种服务

算力租赁:像“包租公”一样出租算力

搞懂了算力是“电”,算力租赁就一秒能懂——它就像“二房东 / 包租公”,只不过出租的不是房子,是显卡的运算时间。

Compute Leasing / GPU Cloud

算力租赁 · 出租运算时间

先花大钱买入大量高端 GPU,建好机房、配好电网散热,组成一个巨大的“算力池”,再按“卡 × 小时”租给需要算力的人。用的人不必买卡、不必操心运维,像交电费一样,用多少算力付多少钱。

💡 一句话理解:你不会为充一次电去买座发电站。算力同理——按需租用,需要算力的团队就是“租客”。

为什么是“租”

为什么不直接买卡

  • 买卡太贵:顶级 GPU 一张几万到十几万,凑一个能训练的集群动辄上千万,多数团队扛不住。
  • 还要资质:高端卡受出口管制,不是有钱就能买到,合规拿货本身就是门槛。
  • 用完即走:训练往往是阶段性的,租用用多少付多少,不必为一时需求养一座机房。

🧱 关键认知:算力租赁,本质是“把一台超贵的机器,拆成小时,给很多人轮流用”。门槛从“先建一座发电厂”降成了“按月交电费”。

硬件常识

为什么高端卡这么稀缺?训练卡 vs 推理卡

教模型变聪明的卡,和让模型干活回答的卡,根本不是一回事。

FIG.01训练卡 vs 推理卡 · 三项硬指标
同样是 GPU,要求差在哪(示意,越长要求越高) 训练卡 推理卡 浮点算力 极高 够用 显存容量 卡间互联 高速 一般 训练要上万张卡连成一个整体一起算,三项都顶满;推理只要单卡答得快、够便宜
训练卡 vs 推理卡的要求(示意)· 训练像重型卡车,推理像满街跑的电动车
两类卡,两个世界

稀缺从哪来?人为管制

训练(Training)是把“什么都不懂”的模型喂海量数据、反复纠错、教成聪明大模型,要上万张卡连成整体一起算,对显存、互联带宽、浮点算力三项都极苛刻——只有 H100/H200/B200 这类塔尖卡能干。

推理(Inference)是模型训练好后拿来回答、生成,要求低得多,国产卡、消费级卡都能干。

🚧 稀缺不全是市场造的。 美国对华高端 GPU 出口管制,让“能合规拿到训练级高端卡”本身变成稀缺配额——不是“有钱就能买卡”,而是“有资质才有卡”。

第二块积木

Token 又是什么?AI 的“跳表计价单位”

注意:这里的 Token 不是区块链代币,也不是登录令牌。在大模型里,它是模型处理文字的“计价最小单位”。

Tk
Token · LLM Billing Unit

Token · 词元 / 文字计价单位

模型会先把文字切成一小块一小块,每块就是一个 Token——可能是一个词、半个词、一个汉字或一个标点。每读进、每吐出一个 Token 都要消耗算力,所以全世界大模型几乎都按 Token 数量计量

💡 一句话理解:Token = 出租车的“跳表”。聊得越长,表跳得越多。算力是“油”,Token 是“公里数”。

分词器怎么切

一句话,怎么被切成 Token

FIG.02一句话怎么被切成 Token
同样一句话,怎么被切成一个个 Token(示意) 英文 I love AI ≈ 3 个 Token 中文 ≈ 6 个 Token 英文 1 Token ≈ 0.75 个单词;中文常常 1 个汉字就占 1–2 个 Token,同样意思往往更“费 Token”
分词器怎么切 Token(示意)· 同样一句话,中文常被切得更碎

💰 为什么用 Token 计量?它把“看不见摸不着的算力”,变成“可以按量计数的标准单位”——就像把电变成“度”、水变成“吨”,装个表、按用量、数得清清楚楚。

核心链条

把两块积木拼起来:从算力Token

电变成算力,算力带动模型,模型吐出 Token,Token 数清用量。

FIG.03算力 → 模型 → Token · 一条流水线
算力 / GPU 机房里的卡 · 提供运算 🧠 跑大模型 读字 · 思考 · 写字 🎟️ 吐出 Token 每个字 = 一次跳表 📊 按量计 用多少一目了然 = 发电厂 = 用电的机器 = 电表跳的度数 = 抄电表
从算力到 Token 的一条链(示意)· 显卡是发电机,模型是用电的机器,Token 是电表上跳动的度数
本期核心论点 · 01

翻译成大白话:显卡是发电机,模型是用电的机器,Token 是电表上跳动的度数。常听到的“Token 算力工厂”,意思就是把同一批卡,除了整批租给大客户,还拆成 Token,按量供给给更小的客户——同一份算力,两种用法。

没有算力,就吐不出 Token;没有 Token,算力用了多少就数不清。这三个词不是并列的,是一条流水线上的三个工位。

COMPUTE LEDGER · EP01
两种用法

同一批卡:整租 vs 按量

对比项整租(按卡 × 小时)按量(按 Token)
谁在用要训练大模型的团队,整批包用做 AI 应用的中小开发者、个人
怎么计按“卡 × 小时”,包一段时间按 Token 用量,用多少算多少
生活类比整层楼租下来自己用家里装个电表,按度数算
适合场景算力需求大、且持续需求零散、随用随走

📊 一句话区分:整租像“把整桶水搬回家”,按量像“在便利店买瓶装水”。同样的算力,整租适合“用得多、用得稳”,按量适合“随用随走、不想囤”。

串起来

把三个词,串成一句话

算力
机房里的卡
= 电 / 发电厂
提供运算能力
模型
用算力读字、思考、写字
= 用电的机器
Token
模型处理文字的单位
= 电表的度数
用量数得清

算力是,模型是用电的机器,Token 是电表上跳动的度数。先有算力,模型才能跑;有了 Token,用了多少才数得清。

本期核心论点 · 02
冷静一下

关于算力,几个容易被夸大的点

  • 稀缺是阶段性的:高端卡今天稀缺,很大程度是出口管制造成的,管制变化或国产卡追上,稀缺度都会变。
  • 硬件会折旧:GPU 会贬值、被新一代淘汰,它是消耗品,不是永久不变的东西。
  • Token 在持续降价:模型变高效、竞争激烈,全行业 Token 单价一直在猛降(这正是 EP02 要聊的)。
  • “算力多”≠“模型好”:卡多只是基础,数据、算法、工程同样关键。

⚠️ 一句话提醒:算力是 AI 的底座,但它只是“电”。把算力理解清楚,但别神化它。

一页速查

六个词,一次记牢

算力
机器每秒能算多少。= 电。单位 P。
🏢
算力租赁
按卡×小时租用算力。= 像租充电宝。
🚚
训练卡
教模型变聪明的顶级卡。稀缺、要资质。
🛵
推理卡
让模型干活回答。走量、要求低。
🎟️
Token
模型处理文字的计量单位。= 跳表度数。
🔤
分词器
把文字切成 Token 的规则。中文常更费。
三个最容易搞混的问题

Token、租赁、整租,一次说清

这个 Token,和区块链里的“代币”是一回事吗?
完全不是,和区块链、虚拟货币没任何关系。AI 里的 Token 只是“把文字切成的小块”,是个技术计量单位。
算力租赁和“云计算”是一回事吗?
是亲戚,不完全相同。传统云计算租通用服务器;算力租赁专门租 AI 训练用的高端 GPU——是云计算里最贵、最稀缺、最吃资质的细分。
既然能按 Token 零散供给,为什么还要“整租”?
零散需求不稳定,很难让大机房一直满负荷。大客户整租是“地基”,按量供给是“补充”,两者搭配,算力才能既跑得稳又用得开。
📘 本文为 AI 技术概念科普。文中图表多为示意,数字会随模型、分词器、工况不同而变化,仅作通俗解释之用,可能存在简化或偏差,欢迎指正
— END OF LEDGER · EP 01 —

会勇禾口王的AI笔记

算力账本 · COMPUTE LEDGER · EP01 · @huiyonghkw

🎁 微信搜 会勇禾口王的AI笔记,回复 工厂 领 AI 内容流水线手册