在 生成式 AI 中,token(标记) 是一个非常关键的概念。Token 是自然语言处理(NLP)中的一个基本单位,它代表了文本中的一个最小的组成部分,可以是一个词、字符或子词。
在生成式 AI 中,token 可以理解为将文本切分成的基本单元。这些单元通过模型的编码和解码过程被处理和生成。在不同的模型中,token 的定义可能略有不同,但通常是以下几种形式的一个或多个:
单词(Word):一个完整的单词,比如 “hello” 或 “world”。
子词(Subword):一些模型使用子词而不是完整的单词,特别是像 GPT 或 BERT 这样的模型。因为很多语言中的单词是复杂的,不常见的词被分解为常见的部分(子词),例如 “unhappiness” 可能被分为 “un”, “happi”, 和 “ness”。
在生成式 AI 中,模型不会直接处理完整的句子或段落,而是将输入文本分解为 token 序列,然后对这些 token 进行处理。以下是 token 在模型中的主要作用:
生成模型(如 GPT)使用的 token 会直接影响模型的计算成本:
https://platform.openai.com/tokenizer
这个网页可以测试句子里具体有多少个token:
可以看到OpenAI被拆成Open和AI。
大模型支持的Token数量,是评估它非常重要的一个指标:
一般来说,75个单词对应100个token。