El modelo vectorial (Salton, 1975) supera la limitación del modelo booleano al representar documentos y consultas como vectores en un espacio multidimensional donde cada dimensión corresponde a un término del vocabulario. La relevancia ya no es binaria: se calcula como la similitud del coseno entre el vector de la consulta y el vector de cada documento, produciendo un ranking continuo entre 0 (ninguna similitud) y 1 (identidad perfecta).
El peso de cada término en el vector se calcula mediante TF-IDF: la frecuencia del término en el documento (TF) ponderada por su rareza en la colección (IDF). Términos muy frecuentes en pocos documentos reciben peso alto; términos omnipresentes reciben peso bajo.
Añada archivos doc0001.txt, doc0002.txt… en el directorio del proyecto siguiendo el formato APLIR_DOC_v1.