Pulsa "Enter" para saltar al contenido

Web scraping en medios de comunicación

Uno de los métodos indicados para generar big data en medios de comunicación digital se basa en el desarrollo de técnicas de web scraping, que sean capaces de reconocer la estructura de las noticias en los portales de contenidos. Si bien la técnica preferida para realizar el seguimiento informativo son los canales de sindicación, la información disponible a través de ellos es en muchas ocasiones muy limitada por el editor. Esta situación obliga a los investigadores a crear nuevos métodos que permitan la recopilación masiva de informaciones para su posterior estudio y correlación en forma de big data. En este experimento se aborda la recuperación de todas las noticias de portada en tiempo real de la prensa digital de El Mundo, El País, ABC y la radiotelevisión española RTVE.

Fig.4. Web scraping de la portada de radiotelevisión española RTVE
Fig.1. Web scraping de la portada de radiotelevisión española «RTVE»

Adicionalmente, el programa de scraping es capaz de analizar cada noticia de portada y extraer en la mayoría de los casos el texto completo para su posterior tratamiento y clasificación.

Detalle de una noticia en RTVE
Fig.2. Detalle de una noticia en RTVE

 

▶ Prueba de recolección de noticias en medios de comunicación

http://www.mblazquez.es/newsmedia

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *