Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Ejercicio 3: Normalización de caracteres
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
03
Fundamento teórico

La normalización de caracteres es el proceso que transforma cada token en una forma canónica y homogénea, eliminando variaciones que no aportan valor semántico pero que impedirían la correcta recuperación. Sin normalización, un sistema trataría «García», «garcia» y «garcia,» como tres términos diferentes, fragmentando el índice y reduciendo la exhaustividad.

El proceso opera en varias capas: primero sustituye entidades HTML ( , ©…), luego reemplaza caracteres con diacríticos (tildes, diéresis, cedillas…) por su equivalente ASCII, después elimina signos de puntuación y finalmente convierte todo a minúsculas. El resultado es un token limpio, indexable y comparable de forma universal.

ACENTO Sustitución de diacrítico
PUNT. Eliminación de puntuación
MAY. Conversión a minúsculas
ENTIDAD Decodificación de entidad HTML
SIN CAMBIO Token ya normalizado
📥
Texto de entrada para normalizar
APLIR
📂 Cargar ejemplo:
0 caracteres · 0 palabras
⚙ Fases del proceso de normalización
1
Sustituir entidades HTML
2
Sustituir diacríticos
3
Eliminar puntuación
4
Convertir a minúsculas
5
Eliminar caracteres no ASCII
6
Normalizar espacios