El modelo de ponderación TF-IDF (Term Frequency — Inverse Document Frequency) asigna a cada término de un documento un peso que refleja su importancia relativa dentro de la colección. Combina dos factores complementarios: la frecuencia del término en el documento (TF) y la rareza del término en la colección (IDF). Un término que aparece mucho en un documento concreto pero poco en el resto de la colección recibe un peso alto, y viceversa.
Existen varias variantes de la fórmula según la base logarítmica y los ajustes aplicados. Esta calculadora ofrece las cuatro más habituales en la literatura: