找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 40|回复: 3

[科技新闻] Token,这个藏在 AI 背后的计价单位,终于有人说清了

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 15:31 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
今日金价,一克 1000.06 元;
95 号汽油,每升 8 块 5 毛 7;
电费是阶梯计价,家庭用电最多每千瓦时 8 毛 9;
……


克、升、千瓦时——单位一旦确定,便可以被标注价格,而价格决定了消费,也潜移默化地塑造着每个人的生活。大多数时候,我们并不关心这些单位本身,只要它们足够稳定,稳定到可以比较、可以结算,它们就会默默隐藏自己,退回到缴费单和购物小票背后。


但现在,一种全新的、陌生的计量单位,正浮出水面,走入更多人的生活。


它叫 Token。


如果你最近玩过、听说过,甚至自己试着调用过各种 AI 助手或“智能体”(比如近期流行起来的 Openclaw “小龙虾”),那么你应该已经和它打过照面了。你与 AI 的每一次对话,无论是让它回答一个问题、写一封邮件,还是总结一篇论文,后台那个默默跳动的计价数字,单位就是 Token。


Token,就是 AI 世界的“克”“升”和“千瓦时”。


 该图片属于AI生成
1.webp



Token 到底在计量什么?


在 OpenAI 的官方页面上,用一句话简单地概括了 Token:Token 是自然语言的数学表示。


在中文里,Token 常被翻译为“词元”,你可以将它理解成为大模型用来处理自然语言的基本单位,或大模型处理信息的最小信息单元。一段话、一个问题在进入 AI 模型被计算机处理前,首先要被“分词器(Tokenizer)”拆分成一个个 Token。


一个 Token 可能是一个标点、一个汉字、一个英文单词,或者一个常见的词组——这取决于不同 AI 模型分词器的设计。比如“朋友买了西瓜手机!”可能被拆为“朋友”“买”“了”“西瓜”“手机”“!”,“Transformer”可能被拆成“Trans”“former”。


这些被拆分好的 Token,对于你我来说是有意义的文字,但对于大模型而言,它并不认识,更不理解。为了让 AI “理解”,大模型会先给每个 Token 分配一个数字编号,然后将这个编号转化为一组数字坐标(向量)。这个坐标决定了 AI 如何“理解”这个词。


更重要的是,AI 理解任何一个词,都要看它和其他词的关系。比如“西瓜”这个词,AI 在训练中既见过它和“手机”“汽车”“公司”“发布会”一起出现,也见过它和“吃”“食物”“好吃”一起出现。当 AI 看到“西瓜手机”这个组合时,它会通过“汽车”这个词的坐标,来调整“西瓜”在当前这句话里的含义——让它的坐标更接近“品牌”,远离“食物”。


AI 的整个“思考”过程,就是计算一整句话里所有 Token 坐标之间的复杂关系。它不会死记硬背“西瓜=品牌”或“西瓜=食物”,而是根据上下文动态计算。


2.webp

图源:用 AI 生成的


聊到这里,你还会以为,Token 的消耗就是你输入和输出的字数简单相加吗?接下来,我们通过一次普通对话,看看 Token 到底是如何被消耗掉的。


我们让 AI 写一封信给十年后的自己:


3.webp

图片来源:自己截取的


指令输入十几个字,AI 回复四五百字,看起来不过几百个Token,但事实上消耗的 Token 远不止屏幕上那几行字:


系统预设指令System Prompt):在你开口之前,AI 已经被输入了一段看不见的指令,被用来规定和你聊天的 AI 的身份,语气,回复用词特征和安全边界。很多人会感觉不同公司的 AI 产品有不同的性格特征,秘密就在这里。这段指令不会显示在对话中,但是也参与了模型的计算,会消耗掉一部分 Token。


对话的历史上下文Context):如果你不是第一次提问,模型通常就需要考虑之前的上下文信息,才能知道整个对话在聊什么,保证对话的连续性。所以之前的提问与它之前的回答,都会进入最新这轮对话的计算。也就是说,对话越长,对话的轮次越多,最新的单轮请求消耗的 Token 也就越多。


思考过程Reasoning):这是更隐蔽的消耗,很多具备深度推理模式的模型,在回答之前,它会进行一轮内部计算去比较推演不同的回答,最终将它认为最优的回答呈现出来。这些不展示出来的“思考步骤”,同样消耗资源。


总之,Token 计量的,并不只是你看到 AI 模型给出的答案,而是生成这个答案所需的全部计算资源。而进入以 Openclaw 为代表的 agent 场景,这种 Token 的消耗会被指数级扩大。


比如让一只小龙虾替你干活,把“帮我整理一下文件夹”这句话甩给它之后,它可能需要先读懂这个要求,然后拆解成十几个子任务,每个子任务分别调用一次 AI,每次调用都带着完整的系统指令和上下文,必要的时候还要反复检查有没有做对,是否需要修正。


这背后可能是几十轮对话、几万个 Token 的连锁消耗,这也是它看起来只干了点普通的活,但却格外消耗 Token 的原因。


为什么“输出 Token”
比“输入 Token”贵 6 倍?


关于 Token 的价格,很多人可能没什么感知,毕竟无论和哪个 AI 聊天,对话 Token 的消耗都打包在了免费额度或者订阅制里,很难直接感受到。


我们以 OpenAI 为例,来研究一下它的价格表:


4.webp

美元/百万Token



GPT-5.4
GPT-5.4 mini
GPT-5.4 nano
5.webp

输入Token
2.5
0.75
0.2
缓存的输入Token
0.25
0.075
0.02
输出Token
15
4.5
1.25
6.webp

图源:自己做的



可以看出,模型越强大,Token 越贵,从 Nano 到标准版,每百万 Token 价格差距高达十倍。这很容易理解:参数规模越大、模型能力越强,越能解决越复杂问题的模型,Token 的价格当然越贵。


而对比起不同公司,同为目前顶级的 AI 模型,每百万 TokenGPT-5.4 的报价是 15 美元,Claude Opus 4.6 是 25 美元,Gemini 3.1 Pro 的报价则根据 prompt 长度不同列出了 12 美元和 18 美元两个价格。差距依然存在,这里的定价策略就比较复杂了,公司的定位与商业模式,模型的成本、受众、能力都会有所影响。


这些道理都很容易理解,但真正的谜题还不是这个。仔细看看,同一个模型的“输入 Token”和“输出 Token”竟然也存在 6 倍的定价差距,这是怎么回事?


输入(prefill)的时候,AI 要理解你的全部问题,每个词都要和其他所有词做关联计算(即“自注意力机制”,计算量会随着文本长度的增加急剧增长);而输出(decode)时,模型已经将输入的内容分析计算完毕,只需要把结果一个字一个字“吐”出来即可,似乎应该更轻松才对。


其实,答案并不在计算量,而在计算效率上。


处理输入时,所有的 Token 都是同时送入处理器的,成千上万个计算核心并行运行,这是大规模的矩阵乘矩阵运算,GPU 本来就是为了这种大规模并行计算而设计的。所以在应对这类任务时,计算效率极高,甚至可以说在允许范围内,Token 输入越长,越容易让 GPU 的计算核心接近满载工作状态。


但输出的时候,情况截然相反了。模型必须一个 Token 一个 Token 生成回答,每一个都需要依赖上一个生成的结果,无法并行展开。每次生成,模型都需要从显存中读取一次参数,同时结合已经生成的上下文进行计算,整体更接近矩阵乘向量的运算。


这个过程的瓶颈取决于内存带宽,也就是说,GPU 绝大多数时间没有在计算,而是在等待数据从显存被传过来,真正做计算的时间占比仅有 1%~5%,计算效率骤降。


用更准确的话说,处理输入是计算密集型(compute-intensive)工作,GPU 在做它最擅长的事,生成输出是内存带宽密集型(memory-bound)工作,GPU 的计算核心大部分时间在空转等数据。


所以,输出 Token 的高昂价格,本质上是在为一块每小时租金几美元的芯片,以不到百分之一的效率运转而被迫等待的时长付费。


这也就是为什么即使是同一种模型,输出 Token 的价格会比输入 Token 贵那么多,这是算力和内存带宽之间根深蒂固的不对称不匹配。


7.webp

图源:nvidia

GPU 的计算能力在飞速增长,但是显存的传输速度却跟不上,这种矛盾由来已久。它源于冯·诺依曼架构中计算与存储分离带来的瓶颈问题,而几乎所有现代计算机都没能彻底绕开它。


算力每一代翻倍,内存带宽的进步速度大约只有它的一半,这意味着每一代新芯片出来,处理输入会变得更快更便宜,但生成输出的改善幅度要小得多。


业界当然有在试图缓解这个问题。例如投机采样(Speculative Decoding)让一个小模型先快速猜出几个词,再让大模型一次性验证,把串行计算的一部分变成并行计算。又或者 MoE 架构让每个 Token 只激活一小部分参数,减少每次需要搬运的数据量。


这些技术都在缓解症状,但没有一种能根治病因,只要计算和存储还是物理上分开的两个东西,数据搬运的瓶颈就会一直存在。这也就是为什么 Groq、Cerebras、Etched 这些推理芯片创业公司,本质上都在赌自己能绕开这个七十多年前的设计遗产。


Token 价格到底由什么决定?
为什么近几年一直暴跌?


在聊这个问题之前,我们要先理清楚 Token 的成本由什么决定。


我们可以用一个简单的思路来分析,以目前数据中心主流使用的 Nvidia H100 为例,云租赁的价格大约在每小时 2.5~3.5 美元之间。这笔钱里,电费的花销占 10%~20%,水冷、网络、运维这些加在一起也没有多少,大头还是在芯片本身的采购成本、硬件折旧以及服务商的利润上


一度电能产出多少 Token,和电本身的关系不大,主要取决于这度电供给了什么芯片、跑的是什么架构、优化做到了什么程度。同样一度电,喂给一块在处理输入时满载运行的 GPU,和一块在生成输出时空转百分之九十九的 GPU,处理的 Token 数就可以差出数量级。


所以当我们问“Token 的价格由什么决定”时,最准确的回答是:由一块芯片在单位时间内能处理多少 Token 决定。


问题来了:既然 Token 的价格不是被某一个因素单独决定的,而是由芯片物理结构、能源成本、模型架构甚至是市场竞争共同作用的结果。那它的价格按说应该相对稳定,毕竟电费不会一年跌十倍,芯片也不会每个季度降价一半。


那么,为什么这几年 Token 的价格在暴跌?


2023 年初,要达到 GPT-4 水平的性能,每百万 Token 大约要 20 美元。到 2026 年,同等性能已经降到了 0.4 美元附近,五十倍的差距是怎么来的?


这并非来自某一项技术的突破,而是几个因素在同时影响,其影响结果是以乘法体现的。


首先是硬件在更新换代,GPU 更快更便宜了,H100 的云租赁价格也从 2023 年峰值的接近 8 美元/小时降到了 2.5~3.5 美元。


然后是软件的优化,连续批处理和 PagedAttention 这类改进,提高了 KV cache 的利用率和并发能力,在合适的负载下,吞吐提升可达数倍。


接下来,模型架构也在变聪明,混合专家架构(MoE)让模型不用为处理每个 Token 动用所有参数,这一项又能将推理成本显著降低。


单独每一项看都不算太惊人,乘起来效果就很明显,硬件一层、系统一层、架构一层,再加上开源带来的价格竞争,推理成本就被一层层压了下去。


同时,模型本身在用更少的参数做到更多的事。过去的模型往往依赖不断扩大参数规模来提升能力,但近两年,更多数据、更好的训练方法以及更成熟的架构设计,使得较小规模的模型也能逼近甚至在部分任务上超过上一代更大的模型。


这意味着,同样的能力不再需要同样规模的计算资源。模型变小,带来的不仅是显存占用下降,更重要的是每一步推理所需的数据搬运和计算开销都随之降低了。


所以 Token 便宜了。


便宜了多少?


或许可以拿我们更熟悉的手机流量来对比。从 2014 年到现在,中国的手机流量价格降了几十倍甚至几百倍。虽然大家的话费账单差距不大,但流量便宜后催生的各色使用方式,网络应用、短视频、手机游戏,已经完全改变了我们的生活。


尽管 Token 并不算一个完美的计量单位,价格细节繁复,变化太多,大多数用户对它无比陌生,但它也应该会和流量走上同一条路,可能速度更快,可能带来的变化更大。


克、升、千瓦时,从现在开始,你或许需要多认识一个计量单位——Token。




策划制作
来源 | 临界点Post(id:AIBIooooooooom)
作者丨antares 计算机图形学硕士、游戏行业从业者、科普作家
审核丨曹俊杰 大连理工大学数学科学学院副教授 辽宁省计算数学与数据智能重点实验室秘书
        于乃功 北京工业大学教授 中国人工智能学会理事
        于旸 腾讯玄武实验室负责人
策划丨张林林
责编丨张林林
审校丨徐来
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-3-29 16:18 | 显示全部楼层
去年玩AI写作,看着Token消耗蹭蹭涨,还以为只是字数问题,原来背后这么复杂!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:733
发表于 2026-3-29 19:30 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:466
发表于 2026-3-30 09:33 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-3 16:27 , Processed in 0.211301 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表