Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Simulador del Modelo Probabilístico
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
MP
0.1
Fundamento teórico

El modelo probabilístico (Robertson & Sparck Jones, 1976) estima la probabilidad de que un documento sea relevante dada una consulta, en lugar de calcular una similitud geométrica. Aplica el Probability Ranking Principle: ordenar los documentos por probabilidad decreciente de relevancia maximiza la efectividad del sistema.

El peso de cada término combina dos estimaciones: P(t|R), la probabilidad de que el término aparezca en un documento relevante, y P(t|NR), la probabilidad de que aparezca en uno no relevante. El sistema arranca con máxima incertidumbre (P(t|R) = 0.5) y refina los pesos cada vez que el alumno marca documentos como relevantes, proceso denominado retroalimentación por relevancia.

Fórmula del peso de un término
w(t) = log[P(t|R) / (1−P(t|R))] + log[(1−P(t|NR)) / P(t|NR)]
Iteración 0 (incertidumbre máxima): P(t|R) = 0.5 → primer sumando = 0  ·  P(t|NR) = df/N
Iteraciones siguientes: P(t|R) = (rt + K) / (R + 2K) con suavizado de Laplace K=0.5, donde R = docs relevantes marcados, rt = relevantes que contienen t.
🔍
Consulta probabilística
Corpus: 0 docs
APLIR
📂

No se encontraron documentos en el corpus

Añada archivos doc0001.txt… siguiendo el formato APLIR_DOC_v1.