人工智能与大模型中的 Token(词元)
基本定义:Token 是人工智能(AI)世界里最小的语义单元,也是模型处理和生成信息的基本单位 。它可以是一个词、一段代码,甚至是图像或视频中的一个像素区块 。
作用与影响
计费与限制:Token 数量直接决定了 AI 服务的使用成本和长度限制,每个 AI 模型都有最大 Token 限制,超出会导致内容截断或“失忆” 。
分词粒度:在自然语言处理中,Tokenization(分词)是将文本分割成 Token 的过程,分为单词级、子词级和字符级三种粒度 。
官方定名:2026 年中国发展高层论坛年会上,中国国家数据局局长明确将 Token 称为”词元”,并将其定义为”结算单位”,标志着我国 AI 产业从能力布局迈向能力结算 。