纯技术科普 · 把概念讲明白 · 零基础友好

算力、Token，
到底是什么？

算力、算力租赁、Token——这几个 AI 天天刷屏的词，听着玄，其实把它们当成“电”和“电表”就全通了。一屏一镜，把算力、训练 / 推理卡、Token 从头讲清。

▸ 方向键 / 空格 / 点击翻页　·　右下角可“自动播放”

本期速览 · OVERVIEW

四个词，一条主链

核心概念

0 个

算力 / 租赁 / 卡 / Token

一条主链

电→算→字

算力 → 模型 → Token

计价单位

Token

像电表的度数

阅读难度

零基础

不需要任何前置

第一块积木

先搞懂一个字：算力，其实就是“电”

所有 AI 的故事，根子上都是一个词——算力。它听起来很玄，但你只要把它想成“电”，剩下的全都通了。

算

Computing Power / FLOPS

算力 · 计算能力

一台机器“每秒能做多少次数学运算”的能力。AI 大模型本质是在做天文数字级别的乘加，谁快谁就能更快训练、更快回答。常用单位是 P（PFLOPS），“6 万 P”就是机房里所有卡加起来的总运算能力。

💡 一句话理解：算力 = 电力。一张 GPU = 一台发电机，一座机房 = 一座发电厂。AI 公司缺的从来不是创意，是“电”不够用。

承上启下

算力为什么这么金贵？

⚡ 训练一个 GPT 级大模型，要把成千上万张顶级显卡连在一起、不间断跑上几个月，电费和卡钱都是天文数字。于是就有了一种服务：专门买卡、建机房，把“电”租给那些需要算力却买不起卡的人——这就是算力租赁。

一种服务

算力租赁：像“包租公”一样出租算力

搞懂了算力是“电”，算力租赁就一秒能懂——它就像“二房东 / 包租公”，只不过出租的不是房子，是显卡的运算时间。

租

Compute Leasing / GPU Cloud

算力租赁 · 出租运算时间

先花大钱买入大量高端 GPU，建好机房、配好电网散热，组成一个巨大的“算力池”，再按“卡 × 小时”租给需要算力的人。用的人不必买卡、不必操心运维，像交电费一样，用多少算力付多少钱。

💡 一句话理解：你不会为充一次电去买座发电站。算力同理——按需租用，需要算力的团队就是“租客”。

为什么是“租”

为什么不直接买卡？

买卡太贵：顶级 GPU 一张几万到十几万，凑一个能训练的集群动辄上千万，多数团队扛不住。
还要资质：高端卡受出口管制，不是有钱就能买到，合规拿货本身就是门槛。
用完即走：训练往往是阶段性的，租用用多少付多少，不必为一时需求养一座机房。

🧱 关键认知：算力租赁，本质是“把一台超贵的机器，拆成小时，给很多人轮流用”。门槛从“先建一座发电厂”降成了“按月交电费”。

硬件常识

为什么高端卡这么稀缺？训练卡 vs 推理卡

教模型变聪明的卡，和让模型干活回答的卡，根本不是一回事。

FIG.01训练卡 vs 推理卡 · 三项硬指标

训练卡 vs 推理卡的要求（示意）· 训练像重型卡车，推理像满街跑的电动车

两类卡，两个世界

稀缺从哪来？人为管制

训练（Training）是把“什么都不懂”的模型喂海量数据、反复纠错、教成聪明大模型，要上万张卡连成整体一起算，对显存、互联带宽、浮点算力三项都极苛刻——只有 H100/H200/B200 这类塔尖卡能干。

推理（Inference）是模型训练好后拿来回答、生成，要求低得多，国产卡、消费级卡都能干。

🚧 稀缺不全是市场造的。 美国对华高端 GPU 出口管制，让“能合规拿到训练级高端卡”本身变成稀缺配额——不是“有钱就能买卡”，而是“有资质才有卡”。

第二块积木

那 Token 又是什么？AI 的“跳表计价单位”

注意：这里的 Token 不是区块链代币，也不是登录令牌。在大模型里，它是模型处理文字的“计价最小单位”。

Tk

Token · LLM Billing Unit

Token · 词元 / 文字计价单位

模型会先把文字切成一小块一小块，每块就是一个 Token——可能是一个词、半个词、一个汉字或一个标点。每读进、每吐出一个 Token 都要消耗算力，所以全世界大模型几乎都按 Token 数量计量。

💡 一句话理解：Token = 出租车的“跳表”。聊得越长，表跳得越多。算力是“油”，Token 是“公里数”。

分词器怎么切

一句话，怎么被切成 Token

FIG.02一句话怎么被切成 Token

分词器怎么切 Token（示意）· 同样一句话，中文常被切得更碎

💰 为什么用 Token 计量？它把“看不见摸不着的算力”，变成“可以按量计数的标准单位”——就像把电变成“度”、水变成“吨”，装个表、按用量、数得清清楚楚。

核心链条

把两块积木拼起来：从算力到Token

电变成算力，算力带动模型，模型吐出 Token，Token 数清用量。

FIG.03算力 → 模型 → Token · 一条流水线

从算力到 Token 的一条链（示意）· 显卡是发电机，模型是用电的机器，Token 是电表上跳动的度数

本期核心论点 · 01

翻译成大白话：显卡是发电机，模型是用电的机器，Token 是电表上跳动的度数。常听到的“Token 算力工厂”，意思就是把同一批卡，除了整批租给大客户，还拆成 Token，按量供给给更小的客户——同一份算力，两种用法。

没有算力，就吐不出 Token；没有 Token，算力用了多少就数不清。这三个词不是并列的，是一条流水线上的三个工位。

COMPUTE LEDGER · EP01

两种用法

同一批卡：整租 vs 按量

对比项	整租（按卡 × 小时）	按量（按 Token）
谁在用	要训练大模型的团队，整批包用	做 AI 应用的中小开发者、个人
怎么计	按“卡 × 小时”，包一段时间	按 Token 用量，用多少算多少
生活类比	整层楼租下来自己用	家里装个电表，按度数算
适合场景	算力需求大、且持续	需求零散、随用随走

📊 一句话区分：整租像“把整桶水搬回家”，按量像“在便利店买瓶装水”。同样的算力，整租适合“用得多、用得稳”，按量适合“随用随走、不想囤”。

串起来

把三个词，串成一句话

算力

机房里的卡
= 电 / 发电厂
提供运算能力

模型

用算力读字、思考、写字
= 用电的机器

Token

模型处理文字的单位
= 电表的度数
用量数得清

算力是电，模型是用电的机器，Token 是电表上跳动的度数。先有算力，模型才能跑；有了 Token，用了多少才数得清。

本期核心论点 · 02

冷静一下

关于算力，几个容易被夸大的点

稀缺是阶段性的：高端卡今天稀缺，很大程度是出口管制造成的，管制变化或国产卡追上，稀缺度都会变。
硬件会折旧：GPU 会贬值、被新一代淘汰，它是消耗品，不是永久不变的东西。
Token 在持续降价：模型变高效、竞争激烈，全行业 Token 单价一直在猛降（这正是 EP02 要聊的）。
“算力多”≠“模型好”：卡多只是基础，数据、算法、工程同样关键。

⚠️ 一句话提醒：算力是 AI 的底座，但它只是“电”。把算力理解清楚，但别神化它。

一页速查

六个词，一次记牢

⚡

算力

机器每秒能算多少。= 电。单位 P。

🏢

算力租赁

按卡×小时租用算力。= 像租充电宝。

🚚

训练卡

教模型变聪明的顶级卡。稀缺、要资质。

🛵

推理卡

让模型干活回答。走量、要求低。

🎟️

Token

模型处理文字的计量单位。= 跳表度数。

🔤

分词器

把文字切成 Token 的规则。中文常更费。

三个最容易搞混的问题

Token、租赁、整租，一次说清

这个 Token，和区块链里的“代币”是一回事吗？

完全不是，和区块链、虚拟货币没任何关系。AI 里的 Token 只是“把文字切成的小块”，是个技术计量单位。

算力租赁和“云计算”是一回事吗？

是亲戚，不完全相同。传统云计算租通用服务器；算力租赁专门租 AI 训练用的高端 GPU——是云计算里最贵、最稀缺、最吃资质的细分。

既然能按 Token 零散供给，为什么还要“整租”？

零散需求不稳定，很难让大机房一直满负荷。大客户整租是“地基”，按量供给是“补充”，两者搭配，算力才能既跑得稳又用得开。

📘 本文为 AI 技术概念科普。文中图表多为示意，数字会随模型、分词器、工况不同而变化，仅作通俗解释之用，可能存在简化或偏差，欢迎指正。

— END OF LEDGER · EP 01 —

会勇禾口王的AI笔记

算力账本 · COMPUTE LEDGER · EP01 · @huiyonghkw

下期预告 · EP02 Token 越便宜，AI 为什么反而越费钱？

🎁 微信搜 会勇禾口王的AI笔记，回复工厂领 AI 内容流水线手册

算力、Token，到底是什么？

四个词，一条主链

先搞懂一个字：算力，其实就是“电”

算力 · 计算能力

算力为什么这么金贵？

算力租赁：像“包租公”一样出租算力

算力租赁 · 出租运算时间

为什么不直接买卡？

为什么高端卡这么稀缺？训练卡 vs 推理卡

稀缺从哪来？人为管制

那 Token 又是什么？AI 的“跳表计价单位”

Token · 词元 / 文字计价单位

一句话，怎么被切成 Token

把两块积木拼起来：从算力到Token

同一批卡：整租 vs 按量

把三个词，串成一句话

关于算力，几个容易被夸大的点

六个词，一次记牢

Token、租赁、整租，一次说清

算力、Token，
到底是什么？