Investigación en Documentación: Aplicaciones académicas, cie

La investigación tecnológica del Prof. Dr. Manuel Blázquez-Ochando arranca de una convicción central: la Ciencia de la Documentación necesita construir sus propias herramientas para avanzar, y no limitarse a adoptar las que provienen de otros campos. A lo largo de más de quince años, este principio ha dado lugar a una trayectoria continua de desarrollo de software, algoritmos y sistemas documentales que se ha ido adaptando a cada nuevo reto tecnológico, desde la sindicación de contenidos hasta la inteligencia artificial generativa.

Los orígenes: sindicación y catálogos bibliográficos (2010)

El punto de partida fue la tesis doctoral Aplicaciones de la sindicación para la gestión de catálogos bibliográficos (UCM, 2010), Premio Extraordinario de Doctorado. En ella se demostró que la tecnología RSS podía configurarse como un método alternativo al protocolo Z39.50 para la distribución y recuperación de colecciones bibliográficas. El resultado práctico fue la plataforma Sync + Syncore, que incluía la primera implementación de MARC-XML como servicio web según las especificaciones de la Library of Congress. Este trabajo sentó las bases de una línea de investigación que ha acompañado toda la trayectoria posterior: la redifusión de contenidos como vector de gestión documental.

Rastreo web, Webmetría y Análisis de Medios (2011–2014)

La segunda etapa se orientó hacia el análisis cuantitativo de la web y de los medios de comunicación digitales. El webcrawler Mbot permitió abordar estudios webmétricos a gran escala, detectar recursos, realizar minería de datos y extraer masivamente fuentes de información. En paralelo, la plataforma experimental ReSync abrió una línea de clasificación automática de contenidos: partiendo del tesauro multilingüe Eurovoc transformado en ontología funcional, se diseñaron cinco algoritmos de clasificación temática que se aplicaron sobre 400.000 noticias publicadas por medios españoles y mexicanos durante un mes. Los resultados, presentados en el Seminario Hispano-Mexicano de Biblioteconomía y Documentación, mostraron porcentajes de clasificación que variaban entre el 1,8% y el 99% según el algoritmo empleado, estableciendo una referencia cuantitativa de primer orden en el campo.

En ese mismo periodo se desarrolló APLIR, un entorno de herramientas para la enseñanza de los modelos clásicos de recuperación de información, y Ocelote, un gestor enciclopédico para la creación de diccionarios y vocabularios controlados en entornos documentales.

Buscadores especializados y agregación de Big-data (2013–2017)

La tercera etapa exploró los límites de los motores de búsqueda generalistas y las posibilidades de la agregación masiva de información. WauSearch fue un buscador experimental diseñado para superar a los grandes motores en exhaustividad y especialización: incorporaba un sistema propio de ordenación por coeficiente de similaridad, asistencias avanzadas a la consulta, 180 búsquedas preparadas para administraciones públicas de 180 países y exportación de resultados en múltiples formatos. Aunque actualmente discontinuado, representó un banco de pruebas fundamental para el estudio de la interacción usuario-sistema en recuperación de información.

Portudois trasladó ese enfoque a un dominio específico: el patrimonio cultural portugués. Fue el primer buscador integrado para bibliotecas, archivos y museos de Portugal, con búsqueda semántica para la obtención de resultados enriquecidos. Su desarrollo estuvo vinculado a la estancia de investigación en la Universidade Nova de Lisboa (2017).

El agregador AXYZ representó el escalón más ambicioso en el tratamiento de Big-data informativo: diseñado para procesar miles de canales RSS simultáneamente mediante cinco parsers colaborativos, incorporaba clasificación automática con filtros booleanos, cálculo del factor de impacto de noticias, análisis de correlación entre fuentes y mapas relacionales interactivos. Su arquitectura se describió en el artículo Diseño de un agregador para la gestión de los Big-data informativos, publicado en El Profesional de la Información (2016).

Humanidades digitales y patrimonio epigráfico (2016–2021)

En el marco de los proyectos de investigación financiados HAR2015-63637-P y AVIPES-CM, la actividad investigadora se extendió hacia las Humanidades Digitales. Epibase fue el sistema de gestión y catalogación de documentos epigráficos resultante, basado en el estándar EpiDoc y compatible con las principales bases de datos de epigrafía clásica. En colaboración con el Prof. Dr. Manuel Ramírez-Sánchez (ULPGC), se desarrolló asimismo EPIHUM, base de datos para la catalogación en línea de la epigrafía renacentista de España y Portugal, publicada en Epigraphy in the Digital Age (Archaeopress, Oxford, 2021). Ambos proyectos demostraron la transferibilidad de las metodologías documentales a dominios humanísticos de alta especialización.

Inteligencia artificial aplicada a la Documentación (2023–presente)

La etapa más reciente marca un giro hacia la inteligencia artificial como objeto y herramienta de investigación documental. LaIAbot es un agente conversacional basado en arquitectura RAG (Retrieval-Augmented Generation) especializado en recomendación bibliográfica y asistencia lectora personalizada. Combina modelos de lenguaje de gran escala con una comprensión profunda de colecciones documentales, y representa la primera aplicación del paradigma RAG desarrollada específicamente para el campo de la Biblioteconomía y Documentación en lengua española.

El Document Singularity Indicator (IS_d) aborda un problema nuevo y crítico en el contexto de la IA: la selección de corpus de entrenamiento. El índice mide el grado de singularidad de un documento respecto a una colección, proporcionando un criterio cuantitativo para determinar qué documentos aportan conocimiento genuinamente nuevo a un sistema de inteligencia artificial especializada. Este trabajo, junto con técnicas de prompt engineering para scraping bibliográfico, abre una línea de investigación inédita en la intersección entre cienciometría y sistemas de IA.

En paralelo, herramientas como ScholarDown —sistema de extracción masiva de publicaciones desde Google Scholar con técnicas avanzadas de anti-detección— y phpScrapingPARES —orientado al análisis de autoridades del Portal de Archivos Españoles— consolidan la vertiente de recuperación masiva de información como soporte a la investigación bibliométrica y a la construcción de grafos de conocimiento.

La dimensión formativa de esta línea se completa con el repositorio promptAI, que pone a disposición de la comunidad investigadora los prompts diseñados y documentados en el marco de las publicaciones científicas del autor, y con la participación en el seminario ConocimIA, espacio de debate sobre el impacto de la IA en las Ciencias de la Documentación, cuya actividad fue publicada en MÉI: Métodos de Información (2024).

Proyectos en curso

La investigación en curso continúa en varias direcciones simultáneas: el refinamiento del índice IS_d para su aplicación en colecciones documentales de mayor escala; el desarrollo de nuevas capacidades de LaIAbot orientadas a la recuperación de información en archivos y museos; y la ampliación de las técnicas de análisis de sentimientos y clasificación automática al contexto de la información científica en español. El repositorio GitHub del autor se actualiza de forma continua y recoge el estado actual de estos desarrollos.

Repositorio GitHub: https://github.com/manublaz
Portal de investigación: https://mblazquez.es
ORCID: https://orcid.org/0000-0002-4108-7531