Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Simulador del Modelo Vectorial
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
MV
0.1
Fundamento teórico

El modelo vectorial (Salton, 1975) supera la limitación del modelo booleano al representar documentos y consultas como vectores en un espacio multidimensional donde cada dimensión corresponde a un término del vocabulario. La relevancia ya no es binaria: se calcula como la similitud del coseno entre el vector de la consulta y el vector de cada documento, produciendo un ranking continuo entre 0 (ninguna similitud) y 1 (identidad perfecta).

El peso de cada término en el vector se calcula mediante TF-IDF: la frecuencia del término en el documento (TF) ponderada por su rareza en la colección (IDF). Términos muy frecuentes en pocos documentos reciben peso alto; términos omnipresentes reciben peso bajo.

Fórmula de la similitud del coseno
sim(q, d) = (q · d) / (|q| × |d|)
donde q · d es el producto escalar de los vectores, |q| es el módulo del vector consulta y |d| es el módulo del vector documento. El resultado es el coseno del ángulo entre ambos vectores: 0 = ortogonales (sin relación) · 1 = idénticos.
🔍
Consulta vectorial
Corpus: 0 docs
APLIR
📂

No se encontraron documentos en el corpus

Añada archivos doc0001.txt, doc0002.txt… en el directorio del proyecto siguiendo el formato APLIR_DOC_v1.