La tokenización es el proceso mediante el cual un texto continuo se descompone en sus unidades mínimas de significado: los tokens. En el contexto de la recuperación de información, un token es generalmente una palabra, aunque también pueden considerarse números, siglas o secuencias de caracteres con valor semántico.
Este proceso es el segundo paso de la cadena de tratamiento documental, tras la supresión del código fuente (Ejercicio 1). Cada token se identifica por su posición en el texto, su longitud en caracteres, su peso en bytes y su representación en hexadecimal, que es la forma en que el ordenador almacena internamente cada carácter. La representación hexadecimal permite detectar codificaciones especiales, caracteres no ASCII y diferencias entre caracteres visualmente similares.