Cuando un webcrawler descarga una página web, obtiene su código fuente HTML completo, que incluye etiquetas de marcado, estilos, scripts y otros elementos no textuales. Antes de poder indexar su contenido, es imprescindible eliminar todo ese código para quedarse únicamente con el texto legible. Este proceso se denomina depuración o limpieza del código fuente y es el primer paso de la cadena de tratamiento documental en recuperación de información.
La supresión no es trivial: requiere eliminar no solo las etiquetas <tag>,
sino también los bloques <script>
y <style>
con todo su contenido, los comentarios HTML y las entidades ( ,
©, etc.).
El resultado es el texto limpio listo para las fases de normalización, tokenización e indexación.