Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Ejercicio 4: Eliminación de palabras vacías
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
04
Fundamento teórico

Las palabras vacías (stopwords) son términos que, por su altísima frecuencia y escaso valor semántico, no contribuyen a distinguir unos documentos de otros. Artículos, preposiciones, conjunciones, pronombres y verbos auxiliares son los candidatos más habituales. Eliminarlos del índice reduce drásticamente su tamaño sin mermar la calidad de la recuperación. La lista de stopwords es dependiente del idioma: cada lengua tiene sus propias palabras funcionales. Este ejercicio incluye listas para español, inglés, alemán, francés, italiano y portugués, así como una lista combinada para textos multilingües.

Ley de Zipf y principio de Luhn — relación y diferencia
Muy frecuentes stopwords «de», «la», «que», «en», «el», «y» Frecuencia media términos significativos «indexación», «documento», «recuperación», «término» Muy raras hapax legomena términos únicos, erratas, propios raros curva de Zipf umbral superior umbral inferior rango del término (orden decreciente de frecuencia) frecuencia de aparición Luhn: zona de máximo valor discriminante Ley de Zipf (1935) — descriptiva Observación matemática sobre el lenguaje natural: unas pocas palabras acaparan casi todas las ocurrencias del texto. → Explica por qué existe la curva → «Esto es así en el lenguaje» aplica a → Principio de Luhn (1958) — operativo Criterio para la indexación: eliminar los extremos de la curva de Zipf. Solo los términos de frecuencia media discriminan. → Dice qué hacer con la curva → «Por tanto, haz esto al indexar»
Nota importante: La lista de stopwords es la implementación práctica del umbral superior de Luhn, no la teoría en sí. Luhn establece dos umbrales (frecuentes y raros) que idealmente se calculan de forma automática a partir de la distribución real del corpus. En la práctica, se usan listas predefinidas por idioma como aproximación al umbral superior.
📥
Texto de entrada y configuración
APLIR
📂 Cargar ejemplo:
Seleccionar lista de palabras vacías:
Lista activa: Español — 272 palabras vacías indexadas
0 caracteres · 0 palabras
⚙ Fases del proceso de eliminación de stopwords
1
Seleccionar lista por idioma
2
Tokenizar el texto
3
Normalizar cada token
4
Comparar con stoplist
5
Marcar palabras vacías
6
Retener términos significativos