Pulsa "Enter" para saltar al contenido

Google scraping

La creación de bases de conocimiento expertas, depende en gran medida del conocimiento de los recursos de información. Sin embargo el documentalista puede ignorar fuentes de información claves, debido a la amplitud del espectro documental de la red. Las utilidades y técnicas disponibles para descubrir nuevos contenidos (tales como los programas web crawler y la minería de datos) no siempre proporcionan una visión de conjunto. Este motivo hace que la Comunidad Científica preste su atención, con mayor frecuencia, a los principales buscadores. El caso que nos ocupa se refiere a Google y Google Scholar, por su interés para desarrollar investigaciones webmétricas y cienciométricas, pero también para generar colecciones de datos y documentos que desemboquen en la creación de big data especializado.

Si fuera posible rastrear el buscador Google e indexar sus contenidos, ello implicaría que los investigadores podrían crear bases de conocimiento automáticamente, descargando sólo aquellos recursos y contenidos estratégicos que respondieran a sus necesidades de información, usando el potencial de consulta del buscador. También sería posible la elaboración de compilaciones documentales de patentes, bases de datos, documentos ofimáticos, textos y recursos multimedia especializados. En gran medida la clasificación de la información recuperada, vendría dada por las consultas remitidas al buscador, proporcionando un punto de partida muy adecuado para organizar el conocimiento. Por otra parte, el investigador podría añadir en sus estudios, sectores de la web que le son del todo desconocidos. En el terreno productivo tendría importantes implicaciones en el desarrollo de nuevos buscadores especializados cuyo coste de desarrollo sería realmente bajo al no estar soportados por una infraestructura de servidores propia, sino basada en el buscador de cabecera. Todo ello sin mencionar, que las empresas de comparación de productos y servicios (por ejemplo de seguros, vuelos, hoteles, etc.) podrían ampliar su cobertura a la comparación de los contenidos del propio buscador y no de una serie de sitios web escogidos. Y sin embargo es probable que las aplicaciones del scraping en buscadores aún estén por inventar.

Por todos estos motivos, parece evidente que la técnica de «scraping» o raspado de la web tenga una gran relevancia para el futuro de la Documentación, por cuanto se refiere a que los profesionales de la información pueden gestionar el contenido de la red directamente y también debido a su dimensión socio-económica que interviene en el desarrollo y creación de nuevas empresas.

Con el objetivo de demostrar que es posible rastrear los contenidos y páginas de resultados de Google y aprovechar su información, se ha desarrollado un experimento de web scraping que tiene por objeto recuperar los contenidos de una o varias páginas de resultados. Además se ha conectado el programa de web scraping a un sistema de web crawler propio, basado en Mbot, que permite re-rastrear e indexar los contenidos de los resultados que determine el usuario. De esta forma el programa de web scraping aplicado al buscador Google se convierte a su vez en otro buscador que amplía la información que le proporciona, completando más si cabe, los contenidos originales de cada página y sitio web. Podría equipararse a un rastreo selectivo de la web basado en los resultados pertinentes del usuario.

El experimento fue presentado en el XIII Seminario Hispano-Mexicano de Biblioteconomía y Documentación celebrado en el Instituto de Investigaciones Bibliotecológicas de la UNAM en Ciudad de México, del que también se ha hecho eco el blog especializado BIBLIORed 3.0.

 

▶ Experimento de Google scraping

http://www.mblazquez.es/google2down/

 

scraping001
Fig.1. Los contenidos SERP (Search Engine Results Page) son recuperados por el programa de web scraping que se ha diseñado específicamente para Google y Google Scholar
scraping002
Fig.2. Los resultados pueden ser analizados mediante un web crawler derivado de Mbot que reconoce titulares, párrafos, enlaces, textos y demás elementos en cada página web seleccionada por el usuario
 scraping003
Fig.3. El programa ha sido diseñado para trabajar con Google Scholar, dado el potencial que presenta para la elaboración de estudios cienciométricos

Un Comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *