Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Ejercicio 1: Supresión del código fuente HTML
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
01
Fundamento teórico

Cuando un webcrawler descarga una página web, obtiene su código fuente HTML completo, que incluye etiquetas de marcado, estilos, scripts y otros elementos no textuales. Antes de poder indexar su contenido, es imprescindible eliminar todo ese código para quedarse únicamente con el texto legible. Este proceso se denomina depuración o limpieza del código fuente y es el primer paso de la cadena de tratamiento documental en recuperación de información.

La supresión no es trivial: requiere eliminar no solo las etiquetas <tag>, sino también los bloques <script> y <style> con todo su contenido, los comentarios HTML y las entidades (&nbsp;, &copy;, etc.). El resultado es el texto limpio listo para las fases de normalización, tokenización e indexación.

📥
Código fuente HTML de entrada
APLIR
📂 Cargar ejemplo:
0 caracteres
⚙ Pasos del proceso de depuración
1
Eliminar <script>
2
Eliminar <style>
3
Eliminar comentarios HTML
4
Eliminar todas las etiquetas
5
Decodificar entidades
6
Normalizar espacios