在中文里,Token 常被翻译为“词元”,你可以将它理解成为大模型用来处理自然语言的基本单位,或大模型处理信息的最小信息单元。一段话、一个问题在进入 AI 模型被计算机处理前,首先要被“分词器(Tokenizer)”拆分成一个个 Token。
一个 Token 可能是一个标点、一个汉字、一个英文单词,或者一个常见的词组——这取决于不同 AI 模型分词器的设计。比如“朋友买了西瓜手机!”可能被拆为“朋友”“买”“了”“西瓜”“手机”“!”,“Transformer”可能被拆成“Trans”“former”。
这些被拆分好的 Token,对于你我来说是有意义的文字,但对于大模型而言,它并不认识,更不理解。为了让 AI “理解”,大模型会先给每个 Token 分配一个数字编号,然后将这个编号转化为一组数字坐标(向量)。这个坐标决定了 AI 如何“理解”这个词。
更重要的是,AI 理解任何一个词,都要看它和其他词的关系。比如“西瓜”这个词,AI 在训练中既见过它和“手机”“汽车”“公司”“发布会”一起出现,也见过它和“吃”“食物”“好吃”一起出现。当 AI 看到“西瓜手机”这个组合时,它会通过“汽车”这个词的坐标,来调整“西瓜”在当前这句话里的含义——让它的坐标更接近“品牌”,远离“食物”。
AI 的整个“思考”过程,就是计算一整句话里所有 Token 坐标之间的复杂关系。它不会死记硬背“西瓜=品牌”或“西瓜=食物”,而是根据上下文动态计算。
系统预设指令(System Prompt):在你开口之前,AI 已经被输入了一段看不见的指令,被用来规定和你聊天的 AI 的身份,语气,回复用词特征和安全边界。很多人会感觉不同公司的 AI 产品有不同的性格特征,秘密就在这里。这段指令不会显示在对话中,但是也参与了模型的计算,会消耗掉一部分 Token。