Las palabras vacías (stopwords) son términos que, por su altísima frecuencia y escaso valor semántico, no contribuyen a distinguir unos documentos de otros. Artículos, preposiciones, conjunciones, pronombres y verbos auxiliares son los candidatos más habituales. Eliminarlos del índice reduce drásticamente su tamaño sin mermar la calidad de la recuperación. La lista de stopwords es dependiente del idioma: cada lengua tiene sus propias palabras funcionales. Este ejercicio incluye listas para español, inglés, alemán, francés, italiano y portugués, así como una lista combinada para textos multilingües.