Pulsa "Enter" para saltar al contenido

Google Web Spoofing

¿Es posible suplantar el sitio web de Google? ¿Está comprometida la información en los buscadores? ¿Es posible la minería de datos en Google? ¿Cuál es el límite de éstas prácticas? Éstas son algunas de las preguntas que podría sugerir el título del artículo. Web spoofing es la técnica utilizada para suplantar una página web con el objetivo de obtener información de los usuarios o del sitio web suplantado. Generalmente el uso de este tipo de técnicas implica la descarga del código fuente de la página web, su modificación y reemplazo para crear una página web fantasma que suplanta a la original. Al margen de los peligros que puede representar el uso malicioso de la suplantación, también puede emplearse para propósitos científicos, que es el caso que nos ocupa. Imaginemos la posibilidad de consultar Google de forma masiva para generar nuestro propio mapa de la web. Contemplemos la idea de que los Documentalistas puedan crear sus propios bancos de datos con la información que consultan en fuentes y recursos especializados. Probablemente, llevar a cabo estos planes requeriría de muchos años de esfuerzo, si pretendemos enfrentarnos sin la ayuda de las herramientas adecuadas. Sin embargo, las técnicas utilizadas en el “Web Spoofing” podrían ayudar a los profesionales de la información a trabajar definitivamente con el big-data. ¿Sería posible suplantar Google para consultar sus contenidos y obtener la información que necesitamos de forma masiva y filtrada? El experimento que se ha desarrollado en torno a Google, demuestra que es posible.

Web Scraping y Web Crawlers

Antes de explicar el experimento de “Google Web Spoofing” es necesario comprender el papel que ocupa el “Web Scraping” y los “Web Crawlers”. El “Web Scraping” es la técnica utilizada para descargar información de un sitio web. La naturaleza y tipo de información descargada es variable, ya que puede comprender los enlaces, el texto, los titulares del sitio web, hasta la extracción completa del código fuente. El proceso es equivalente al que podría hacerse de forma manual por un usuario plenamente consciente, salvo por el hecho de que se ejecuta de forma automática y preprogramada. Los programas de rastreo de la web o “Web Crawlers” emplean la técnica de “Web Scraping” para obtener los enlaces con los que tejer el mapa de la Web de cara a su indexación y posterior recuperación. Por este motivo, el conocimiento de éstas técnicas y sistemas, no sólo son estratégicas para suplantar un sitio web, al poder modificar los sitios web descargados, sino también para conformar bases de conocimiento, en las manos de los profesionales de la Documentación.

El experimento de Google Web Spoofing

Para demostrar que es posible operar con la información de Google, se ha concebido un experimento de suplantación. Consiste en obtener la portada del buscador y al menos la primera página de resultados del mismo, cuando un usuario efectúe una consulta cualquiera. El resultado, en términos de apariencia, puede ser observado y contrastado en la figura 1.

Google vs Google ¿Quién es quién?
Fig.1. Google vs Google ¿Quién es quién?

Aunque con mínimas diferencias, las portadas del buscador Google son muy similares. Es difícil determinar cuál es el sitio web original. De hecho, ambos diseños son reales y genuinos. En la pantalla de la derecha se muestra la “Google Toolbar”, la barra negra de atajos a las principales aplicaciones y servicios. También figura el mensaje de descarga del navegador Google Chrome, las opciones de búsqueda avanzada y herramientas de idioma. El diseño de la izquierda, muestra una pantalla sin algunos de los elementos mencionados, pero manteniendo un aspecto similar. Corresponde a la vista actual del buscador en la mayoría de los navegadores web. Por tanto, cabe la pregunta ¿Cuál es la versión original de Google?

Versión original de Google

La última actualización del diseño de Google elimina la barra de atajos y simplifica el acceso a las aplicaciones y servicios, tal como se puede apreciar en la figura 2. También se observa el icono de micrófono en la caja de búsqueda para dictar las consultas. Todo ello permite diferenciar la versión original de Google de cualquier otra. Puede comprobarse accediendo al sitio web http://www.google.es [Consultado en 2016-01-10]

Sitio web de Google original
Fig.2. Sitio web de Google original

Versión suplantada de Google

La figura 3 muestra el diseño alternativo de Google. Éste aspecto se observa cuando el buscador se abre por primera vez en un navegador web, o bien cuando se activa la variable “noj=1” que puede comprobarse en la dirección “https://www.google.es/?noj=1“. Al margen de estos casos, el diseño alternativo de Google también se activa cuando se descarga su código fuente y se ejecuta en un dominio o alojamiento diferente. Esto se debe a que no todos los estilos y funciones están enlazadas correctamente, bajo direcciones URL diferentes. Por este motivo Google se representa con otra apariencia, activando el diseño secundario. Éste caso se reproduce en Internet Archive, con su iniciativa “Wayback Machine” encargada de recopilar copias de las páginas más importantes de la Web. Si se comprueba una de las copias más recientes de Google, se confirma también la siguiente impresión de pantalla.

Sitio web de Google suplantado
Fig.3. Sitio web de Google suplantado

Internet Archive utiliza el webcrawler Heritrix para rastrear a diario, entre otros, el sitio web de Google y descargar su código fuente para preservar la memoria digital de su portada, pero no de su contenido. Ello explica que su representación sea diferente a la de la versión original, tal como sucede en el experimento de suplantación de Google que puede ser probado en la siguiente dirección web http://www.google.es [Creado en 2015-12-22].

La técnica de suplantación funciona con las consultas y los resultados originales de Google, sólo el logotipo de la Universidad Complutense desvela que el sitio web de Google no es original
Fig.4. La técnica de suplantación funciona con las consultas y los resultados originales de Google, sólo el logotipo de la Universidad Complutense desvela que el sitio web de Google no es original

Si se lleva a cabo una consulta, se observará que aparece la página de resultados del buscador, cuyos contenidos son idénticos a los proporcionados por la página original de Google, tal como se puede observar en el siguiente vídeo

Experimento de Google Web Spoofing

Se puede concluir que es posible suplantar el sitio web de Google y por consiguiente acceder a sus contenidos en las páginas de resultados. Ello demuestra que incluso sistemas de información avanzados pueden ser vulnerables a este tipo de amenaza, pero también pone de relieve una oportunidad única para desarrollar la tarea documental, usando la principal base de conocimiento referencial para organizar la información de la Web, crear nuevos servicios de información basados en la recopilación de contenidos y mucho más que aún debe ser descubierto e investigado.

Sé el Primero en Comentar

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *