Primera IA de Documentación: ConocimIA 2024

Es un placer compartir nuestro próximo evento ConocimIA, sobre Inteligencia Artificial y Documentación. Es un gran honor presentar un logro significativo en el campo de la inteligencia artificial en la rama de Documentación: la presentación de la primera IA de Biblioteconomía y Documentación, desarrollada desde sus fundamentos más elementales, hasta configurar un servicio de consulta adaptado al investigador, sin necesidad de ChatGPT, ni de otras tecnologías propietarias. Otras iniciativas no han logrado culminar en un servicio 100% operativo, o bien son dependientes de servicios de terceros, que escapan al control del Documentalista. En este caso se trata de la primera vez que se tiene un control completo de todo el proceso, de toda la cadena de procesamiento y su administración, hasta el usuario.

Fecha: 26 de abril de 2024 / 17:00-19:00h
Lugar: Sala de conferencias, Facultad de Ciencias de la Documentación. UCM
Entrada: Libre hasta completar aforo. Certificado de asistencia disponible (rellenar formulario)

Contexto y motivación

El desarrollo de esta IA ha sido el resultado de varios meses de trabajo en los que se ha logrado adaptar un modelo Llama y Mistral a los propósitos de las Ciencias de la Documentación. Para ello ha sido necesario destinar considerables recursos que permitieran la investigación y la implementación de este sistema, desarrollando un modelo de aprendizaje y una selección de contenidos exhaustiva y especializada. Lo que hace que esta IA sea verdaderamente excepcional es su capacidad para comprender y reconocer los documentos, y responder a preguntas complejas de nuestra disciplina científica. La iniciativa surge de la constatación de varios problemas estructurales en el uso de las IA generativas comerciales:

Privacidad y fuga de datos: las comunicaciones con modelos como ChatGPT implican ceder información a servidores externos, con riesgos para datos sensibles o investigaciones en curso.
Dependencia de proveedores: el acceso a estos servicios está sujeto a políticas corporativas, cambios en las condiciones de uso y posibles interrupciones.
Sesgo algorítmico y opacidad: los modelos comerciales se entrenan con corpus de datos no siempre transparentes, lo que puede introducir sesgos no deseados.
Desconocimiento de las fuentes: ChatGPT y otros modelos similares no proporcionan referencias explícitas de los documentos en los que basan sus respuestas, lo que limita su utilidad para tareas de investigación académica.
Falta de especialización: los modelos generalistas no están optimizados para las necesidades específicas de las Ciencias de la Documentación, con su terminología, métodos y corpus documental propio.

Ante estas limitaciones, el proyecto se propuso una alternativa radical: construir una IA propia, instalada en servidores locales, alimentada con una base de conocimiento seleccionada por especialistas, y completamente controlada por el equipo investigador.

Primera parte: El problema de las fuentes en la IA

Prof. Pedro Lázaro Rodríguez

La primera parte del evento aborda uno de los desafíos más complejos en los sistemas de inteligencia artificial: la identificación, citación y representación correcta de las fuentes de información. El profesor Lázaro presenta un análisis comparativo basado en su experiencia con diferentes herramientas generativas y su evolución en el tratamiento de las referencias documentales.

Experiencia previa con ChatGPT 3.5

En las primeras sesiones de ConocimIA, el profesor Lázaro había presentado el desarrollo de PyDataBibPub, un script en Python para la extracción de datos de bibliotecas públicas españolas, creado con la ayuda de ChatGPT 3.5. En aquel momento, la herramienta demostró ser eficaz para la programación, pero reveló una limitación fundamental: cuando se le preguntaba por las fuentes de información utilizadas, ChatGPT ofrecía respuestas evasivas.

Ante la pregunta "¿Qué fuentes has utilizado para esta información?", la respuesta era sistemática:

"Mi respuesta se basa en conocimientos generales sobre el tema, así como en el entendimiento de la importancia de estos conceptos. No he consultado fuentes específicas para proporcionar esta información, ya que se deriva de mi conocimiento y comprensión del tema como una inteligencia artificial entrenada por OpenAI."

Esta opacidad, justificada por el diseño del modelo, representa un obstáculo significativo para la investigación académica, donde la trazabilidad de la información es un requisito esencial.

Alternativas con citas explícitas

Ante esta limitación, el ponente explora alternativas que incorporan la citación de fuentes como parte de su funcionalidad. Herramientas como Perplexity, Phind, Komo AI, You.com, Microsoft Copilot, Elicit, Scispace, Scite o Scopus AI ofrecen aproximaciones diferentes al problema:

Perplexity y Phind: incorporan secciones específicas de "Sources" o "References" que enumeran los documentos consultados para generar la respuesta, con enlaces a las fuentes originales.
Scite y Scispace: especializadas en literatura científica, proporcionan información sobre el contexto de las citas (si un artículo ha sido respaldado, cuestionado o contrastado).
Elicit: orientada a la revisión bibliográfica, permite extraer información estructurada de artículos científicos con sus correspondientes referencias.

Estudio comparativo: tres casos concretos

Para evaluar las diferencias entre herramientas, el ponente presenta tres casos de prueba:

Caso 1: Generación de un script en Python para códigos QR. ChatGPT 3.5 proporcionó el código sin citar fuentes. Perplexity y Phind ofrecieron soluciones similares, pero acompañadas de una lista de fuentes —páginas de documentación de Python, tutoriales, repositorios GitHub— que permiten verificar y ampliar la información.
Caso 2: Indicador de "potencia del sistema" en evaluación de bibliotecas. ChatGPT 3.5 ofreció una definición genérica basada en su "conocimiento general". Perplexity, en cambio, proporcionó una lista de artículos académicos, incluyendo el trabajo de Lázaro-Rodríguez y López-Gijón (2020) sobre la adaptación del indicador de potencia del sistema de la metodología Secaba-Rank. La herramienta fue capaz de identificar el propio trabajo del ponente como fuente relevante.
Caso 3: Software AMPdoc. Ante la pregunta sobre AMPdoc —un paquete de software libre desarrollado en la Facultad que empaqueta Apache, MySQL, PHP y herramientas como PMB, Koha, Greenstone, Omeka o ArchiMatica—, ChatGPT 3.5 ofreció una respuesta genérica sobre "sistemas integrados de gestión bibliotecaria", sin identificar correctamente las herramientas específicas. Perplexity y Phind, en cambio, proporcionaron la lista exacta de componentes, con sus correspondientes fuentes.

Conclusiones de la primera parte

La comparativa revela una evolución significativa en la capacidad de las herramientas de IA para manejar referencias documentales:

Los modelos más recientes incorporan la citación de fuentes como parte de su diseño, respondiendo a una demanda creciente de transparencia y verificabilidad.
La especialización por dominios mejora la precisión de las referencias: herramientas como Scite o Scispace, entrenadas con corpus científicos, ofrecen resultados más fiables para la investigación académica.
El problema de las fuentes no es meramente técnico: tiene implicaciones epistemológicas, éticas y legales, especialmente en contextos de investigación y publicación científica.

La reflexión final del ponente conecta con las noticias recientes sobre la toma de atajos por parte de los gigantes tecnológicos para obtener datos para entrenar sus modelos, alterando sus propias normas y, en algunos casos, saltándose la ley de derechos de autor. Frente a esta lógica extractiva, se propone una alternativa basada en el control local, la transparencia y la selección consciente de las fuentes: "la IA en tus manos".

Segunda parte: La primera IA de Documentación

Prof. Manuel Blázquez Ochando

La segunda parte del evento presenta en primicia la primera IA de Documentación plenamente funcional, desarrollada como servicio para la investigación. El ponente expone su experiencia de desarrollo, dificultades, problemas, ventajas y futuros desarrollos, con una demostración práctica de su funcionamiento.

La idea: una IA propia para Documentación

El proyecto se inspira en iniciativas previas como PrivateGPT, un software libre creado en mayo de 2023 que permitía ejecutar modelos de lenguaje localmente, sin conexión a internet, con capacidad para cargar documentos y mantener conversaciones privadas. La idea era llevar esta tecnología más lejos: no solo ejecutar un modelo local, sino especializarlo en las Ciencias de la Documentación, alimentarlo con un corpus seleccionado de literatura académica y convertirlo en un servicio accesible para investigadores.

Las motivaciones fueron tanto prácticas como éticas:

Privacidad: garantizar que los datos de investigación no salen de los servidores controlados.
Libertad: no depender de las políticas de proveedores externos.
Especialización: entrenar la IA con la literatura específica de la disciplina.
Transparencia: poder rastrear las fuentes de cada respuesta.
Soberanía tecnológica: demostrar que es posible desarrollar IA propia desde las universidades.

Los medios: hardware y software

El desarrollo requirió una inversión considerable en recursos computacionales. La infraestructura final se compone de:

Servidor principal: con capacidad para ejecutar modelos de lenguaje de gran tamaño.
Software base: PrivateGPT como núcleo del sistema, con modelos de embedding y LLM.
Modelos de lenguaje: adaptaciones de Llama y Mistral, configuradas para responder en español y optimizadas para el dominio de Documentación.
Entorno de desarrollo: Visual Studio Community, Python con Anaconda, Chocolatey para gestión de paquetes, CMake para compilación.

La instalación: un proceso complejo

La puesta en marcha del sistema requirió múltiples pasos:

Instalación de Visual Studio Community con entornos para Python, C++ y C#.
Instalación de Chocolatey como administrador de paquetes para Windows.
Instalación de CMake como requisito para PrivateGPT.
Descarga y ubicación del código fuente de PrivateGPT desde GitHub.
Instalación de Anaconda/Miniconda3 para gestionar el entorno Python.
Configuración de variables de entorno para Python y CMake.
Creación y activación de un entorno virtual específico para PrivateGPT.
Instalación de Poetry y Pipx para gestión de dependencias.
Ejecución del script de instalación que descarga automáticamente los modelos de embedding, tokenización, lenguaje, vectorización y procesamiento.
Configuración del perfil de usuario y lanzamiento del servidor en el puerto 8001.

Configuración y personalización

Una vez instalado, el sistema permite una amplia personalización:

Puerto de conexión
Valores de ranking de resultados
Acceso con autorización
Número de fuentes y contenidos que analiza
Directorio de almacenamiento de documentos
Coeficiente para el cálculo de resultados
Instrucciones para el comportamiento de la IA
Modelo de embedding
Modelo de LLM
Modo de ingesta de documentos
Ventana de contexto
Conexión a bases de datos PostgreSQL
Número máximo de tokens
Datos de configuración para APIs
Modelo de tokenización
Nivel de creatividad de la IA (temperatura)

Dos modos de funcionamiento

Modo búsqueda en documentos. Actúa como un buscador de todos los documentos cargados en el sistema. Resulta especialmente útil para encontrar quién citó o comentó determinada afirmación en los artículos científicos. Proporciona un ranking de resultados con mayor similitud, aplicando técnicas de procesamiento de lenguaje natural y recuperación de información.
Modo LLM Chat. Permite mantener una conversación similar a la de ChatGPT. Por defecto, no tiene en cuenta el contexto de los archivos cargados, pero puede configurarse para que sí utilice la información de los documentos.

Preparación de la base de conocimiento

Uno de los aspectos críticos del proyecto fue la selección de los documentos que alimentarían la IA. La estrategia seguida incluyó:

Identificación de fuentes fiables: artículos de revistas académicas con alto factor de impacto, documentación de editoriales reconocidas, contenidos pertinentes para las temáticas del área.
Estructuración coherente: organización de la documentación en un menú temático de dos niveles jerárquicos, con diseño de facetas transversales para el entrelazamiento cognitivo.
Formatos compatibles: preferentemente HTML, XML, TXT, PDF, DOCX, CSV, PPTX.
Inclusión de ejemplos y casos resueltos: ejemplos de catalogación, análisis documental, clasificación, tesauros, codificación, programación.
Glosarios, diccionarios y enciclopedias especializadas: para aumentar la capacidad relacional y mejorar la clasificación.
Referencias cruzadas: aprovechando las citas bibliográficas de los papers científicos para mejorar el ranking y el cálculo de embeddings.
Documentos secundarios y terciarios: inclusión de listas de referencias bibliográficas para reforzar el efecto de referencia cruzada.
Revisión por pares: validación de la selección documental por parte de académicos del área.

La base de conocimiento resultante cubre materias como Recuperación de Información, Deep Learning, Procesamiento de Lenguaje Natural, Web Semántica, Programación (PHP, Python, Java, JavaScript), Archivística, Análisis Documental, Catalogación, Lenguajes Documentales, Tesauros, Bibliometría, Cienciometría, y otras áreas de las Ciencias de la Documentación.

Creación de un servicio abierto: el programa Mayordomo

Uno de los mayores desafíos fue convertir PrivateGPT —una herramienta local y privada— en un servicio accesible para múltiples usuarios. La solución adoptada fue desarrollar una capa intermedia, denominada "Mayordomo", que actúa como interfaz entre el usuario y la IA.

La arquitectura resultante es un paradigma cliente-servidor doble:

PrivateGPT gestiona las peticiones y devuelve las respuestas mediante JSON a través de su API.
Mayordomo (desarrollado en XAMPP) se encarga de la interacción con los usuarios, procesando las peticiones, estableciendo el orden de respuesta, registrando consultas de forma anonimizada, permitiendo la exportación de comunicaciones, recopilando experiencia de usuario para autoaprendizaje y monitorizando errores.

Este desarrollo abre nuevas posibilidades para las Ciencias de la Documentación: la capacidad de desarrollar servicios de IA especializados, aunque con la necesidad de infraestructura adecuada para garantizar rapidez y eficiencia.

El problema de las fuentes y las referencias

Una de las ventajas fundamentales de Mayordomo/PrivateGPT es el uso de fuentes seleccionadas por el propio administrador. El sistema indica los archivos empleados para preparar cada respuesta, y al no conectarse a internet para recopilar nuevas fuentes, su localización es sencilla.

Sin embargo, cuando se le pide que referencie fuentes en una explicación, puede cometer errores. Para mitigar este problema, se han implementado soluciones como el uso de expresiones regulares (REGEXP) para reconocer referencias y citas en los documentos, entrenando a la IA para que identifique patrones de citación (por ejemplo, formato Harvard) y pueda relacionar el texto de las referencias con los temas, papers, documentos y contextos.

Futuros desarrollos

El proyecto no está concluido. Entre los desarrollos previstos se encuentran:

Autoaprendizaje: Mayordomo podrá gestionar el autoaprendizaje de la IA, con autoalimentación de contenidos a partir de la interacción del usuario.
Webcrawler: incorporación de un rastreador que autoalimente la IA con nuevos contenidos seleccionados.
Incremento de fuentes: ampliación drástica de la selección de fuentes y recursos de Documentación.
Mejoras de interfaz: respuesta en tiempo real en streaming.
Submódulos de IA: para la personalización del trato con el usuario.
Nuevos métodos de entrenamiento: para enseñar a la IA PrivateGPT de forma más efectiva.

Conclusiones de la segunda parte

La IA se convertirá en una extensión de las capacidades del ser humano, proporcionando originalidad e intención humanas con la rapidez y precisión de la IA.
La comunicación en lenguaje natural y su correcta articulación es la clave para un buen funcionamiento.
El documentalista se especializará en la desambiguación, identificación de contextos, definición de procesos y ordenación.
No todo será inmediatamente automatizado, pero es cuestión de tiempo que se consiga y perfeccione.
Es previsible que la IA termine elaborando gran cantidad de procesos complejos, encadenando GPTs especializadas.
El límite con la IA no es tanto qué no puede hacer, sino cómo debemos preguntar.

Reflexión final

El evento concluye con una reflexión sobre el significado de este logro. En un contexto donde los grandes gigantes tecnológicos compiten por dominar el mercado de la inteligencia artificial, la iniciativa de desarrollar una IA propia desde la universidad representa una alternativa basada en el control local, la transparencia y la especialización disciplinar.

La "primera IA de Documentación" no es solo un hito técnico; es una demostración de que es posible construir sistemas de inteligencia artificial que respeten la privacidad, citen sus fuentes y estén al servicio de la investigación académica. Es, en definitiva, un paso hacia una IA que está, literalmente, "en tus manos".

La conferencia forma parte de las actividades del Seminario ConocimIA, un espacio dedicado al seguimiento y análisis de la inteligencia artificial en el ámbito de las Ciencias de la Documentación.

Materiales de la conferencia

Los materiales empleados en esta sesión están disponibles para su descarga en formato DOCX, PPTX y PDF. La presentación recoge las ideas, referencias y preguntas abiertas que se han planteado a lo largo de la conferencia, y puede servir como punto de partida para profundizar en los temas tratados o para su uso en contextos formativos, siempre con la debida atribución.

Lázaro-Rodríguez, P. (2024). El problema de la IA y las fuentes. conocimIA_plazaro_2024-04-26_problema-ia-fuentes.pdf
Blázquez-Ochando, M. (2024). La IA en tus manos: Primera IA en Documentación. conocimIA_mblazquez_2024-04-26_primera-ia-documentacion.pptx