Uno de los métodos indicados para generar big data en medios de comunicación digital se basa en el desarrollo de técnicas de web scraping, que sean capaces de reconocer la estructura de las noticias en los portales de contenidos. Si bien la técnica preferida para realizar el seguimiento informativo son los canales de sindicación, la información disponible a través de ellos es en muchas ocasiones muy limitada por el editor. Esta situación obliga a los investigadores a crear nuevos métodos que permitan la recopilación masiva de informaciones para su posterior estudio y correlación en forma de big data. En este experimento se aborda la recuperación de todas las noticias de portada en tiempo real de la prensa digital de El Mundo, El País, ABC y la radiotelevisión española RTVE.
Adicionalmente, el programa de scraping es capaz de analizar cada noticia de portada y extraer en la mayoría de los casos el texto completo para su posterior tratamiento y clasificación.
▶ Prueba de recolección de noticias en medios de comunicación