La normalización de caracteres es el proceso que transforma cada token en una forma canónica y homogénea, eliminando variaciones que no aportan valor semántico pero que impedirían la correcta recuperación. Sin normalización, un sistema trataría «García», «garcia» y «garcia,» como tres términos diferentes, fragmentando el índice y reduciendo la exhaustividad.
El proceso opera en varias capas: primero sustituye entidades HTML
( , ©…), luego reemplaza caracteres con diacríticos
(tildes, diéresis, cedillas…) por su equivalente ASCII, después elimina signos de puntuación
y finalmente convierte todo a minúsculas. El resultado es un token limpio, indexable y
comparable de forma universal.