El modelo probabilístico (Robertson & Sparck Jones, 1976) estima la probabilidad de que un documento sea relevante dada una consulta, en lugar de calcular una similitud geométrica. Aplica el Probability Ranking Principle: ordenar los documentos por probabilidad decreciente de relevancia maximiza la efectividad del sistema.
El peso de cada término combina dos estimaciones: P(t|R), la probabilidad de que el término aparezca en un documento relevante, y P(t|NR), la probabilidad de que aparezca en uno no relevante. El sistema arranca con máxima incertidumbre (P(t|R) = 0.5) y refina los pesos cada vez que el alumno marca documentos como relevantes, proceso denominado retroalimentación por relevancia.
Añada archivos doc0001.txt… siguiendo el formato APLIR_DOC_v1.