Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Ejercicio 2: Tokenización de texto
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
02
Fundamento teórico

La tokenización es el proceso mediante el cual un texto continuo se descompone en sus unidades mínimas de significado: los tokens. En el contexto de la recuperación de información, un token es generalmente una palabra, aunque también pueden considerarse números, siglas o secuencias de caracteres con valor semántico.

Este proceso es el segundo paso de la cadena de tratamiento documental, tras la supresión del código fuente (Ejercicio 1). Cada token se identifica por su posición en el texto, su longitud en caracteres, su peso en bytes y su representación en hexadecimal, que es la forma en que el ordenador almacena internamente cada carácter. La representación hexadecimal permite detectar codificaciones especiales, caracteres no ASCII y diferencias entre caracteres visualmente similares.

📥
Texto de entrada para tokenizar
APLIR
📂 Cargar ejemplo:
0 caracteres · 0 palabras
⚙ Pasos del proceso de tokenización
1
Leer texto de entrada
2
Dividir por espacios en blanco
3
Asignar posición a cada token
4
Calcular longitud en caracteres
5
Codificar a hexadecimal
6
Construir lista de tokens