mblazquez.es
Portfolio de documentación e investigación

Secciones

  • Presentación
  • Publicaciones
  • Investigación
  • Proyectos
  • Manuales
  • Software Libre
  • Recursos
  • Webring
  • Sindicación

    Preparación de Nutch1.0: Guía básica de instalación en Ubuntu 9.10
    Manuel Blázquez
    2010-01-17T17:06:21+01:00
    Sección: Manuales ;
    Temática: Tecnologías Documentales Sistemas de Recuperación de información Webcrawlers
    Veces leído: 56

    Resumen:

    El presente manual trata de ayudar en la instalación de programa Nutch. Se trata de un webcrawler de código abierto, de gran relevancia por ser desarrollado por el Apache Software Foundation y utilizado ampliamente en investigaciones de la web. A la par que su reputación, se encuentra su manejo, que puede resultar complejo si no se dominan sus comandos esenciales. Con el objetivo de facilitar su uso e instalación se propone la presente guía de iniciación.

    Palabras clave:

    nutch, webcrawler, spiders, apache, tomcat, recuperación de información, information retrieval

    Contenido:

    A lo largo del manual se explica el proceso de instalación y configuración necesario para ejecutar Nutch. Algunos de los cambios necesarios para su correcto funcionamiento son las expresiones regulares que actúan como filtros durante el proceso de crawling, la configuración de las propiedades del agente o la creación de un archivo de urls de explotación. Otros aspectos tratados son las funciones y sentencias más comunes para efectuar consultas en modo terminal y en interfaz web basada en Apache Tomcat. Finalmente se proponen algunas sentencias para efectuar consultas estadísticas de los resultados del proceso de crawling.

    Imágenes:

    Archivos: