Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Ejercicio 5: Calculadora de pesos TF‑IDF
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
05
Fundamento teórico

El modelo de ponderación TF-IDF (Term Frequency — Inverse Document Frequency) asigna a cada término de un documento un peso que refleja su importancia relativa dentro de la colección. Combina dos factores complementarios: la frecuencia del término en el documento (TF) y la rareza del término en la colección (IDF). Un término que aparece mucho en un documento concreto pero poco en el resto de la colección recibe un peso alto, y viceversa.

Existen varias variantes de la fórmula según la base logarítmica y los ajustes aplicados. Esta calculadora ofrece las cuatro más habituales en la literatura:

A — Fórmula estándar (Salton & McGill)
TF·IDF = TF × (log₁₀(N/DF) + 1)
Logaritmo en base 10 con corrección aditiva (+1) para evitar que el IDF sea 0 cuando DF = N. Es la más habitual en la literatura clásica.
B — Logaritmo base 2 (sin corrección)
TF·IDF = TF × log₂(N/DF)
Preferida en entornos de recuperación probabilística. Cuando DF = N el IDF vale 0 (el término no discrimina).
C — IDF suavizado (Robertson / BM25)
TF·IDF = TF × log₁₀((N−DF+0.5) / (DF+0.5))
Suaviza el efecto de los valores extremos. Base del modelo probabilístico BM25. Puede dar valores negativos si DF > N/2.
D — TF normalizado (variante A)
TF·IDF = (TF/(TF+1)) × (log₁₀(N/DF) + 1)
Normaliza el TF para atenuar el efecto de documentos muy largos. El factor TF/(TF+1) acota el TF entre 0 y 1.
tTérmino buscado
NNº total de documentos en la colección
DFNº de documentos que contienen el término
TFFrecuencia del término en el documento d
IDFInverse Document Frequency
🔢
Introducir datos del cálculo
APLIR
📂 Cargar ejemplo:
Palabra o término para el que se calcula el peso
Número total de documentos en la colección
Docs. que contienen el término (≤ N)
Veces que aparece en el documento d