IA en Documentación: Desafíos y Oportunidades del Seminario

Referencia

Blázquez-Ochando, M.; Lázaro-Rodríguez, P. (2024). Debates, desafíos y oportunidades de la inteligencia artificial en Documentación: El seminario ConocimIA. Métodos de información, 15(28), 52-83. https://doi.org/10.5557/IIMEI15-N28-052083

Comentario

La irrupción de los grandes modelos de lenguaje (LLM) y la inteligencia artificial generativa, ejemplificada por ChatGPT, ha supuesto un cambio radical en múltiples ámbitos, incluido el de las Ciencias de la Documentación. Como señalan Sardana, Fagan y Wright (2023), ChatGPT es una innovación disruptiva porque altera las normas académicas y sociales relativas al trabajo original, el desarrollo de investigaciones y la publicación científica. En un sentido similar, González-Alcaide (2024) plantea que la IA generativa constituye una disrupción en el acceso a la información por su carácter interactivo, contextual y generativo, con un fuerte impacto en el ámbito educativo y académico.

En este contexto, la comunidad científica ha comenzado a explorar las implicaciones de estas tecnologías. Torres-Salinas y Arroyo-Machado (2023) publicaron un manual con ejemplos de aplicaciones de ChatGPT en investigación y educación universitaria, abarcando desde la escritura científica hasta la programación en diversos lenguajes. De manera más específica, Torres-Salinas, Thelwall y Arroyo-Machado (2024) han desarrollado un corpus de aplicaciones de ChatGPT centradas en bibliometría.

En el ámbito bibliotecario, autores como Adetayo (2023) han comparado las búsquedas realizadas con ChatGPT frente a las consultas tradicionales al personal bibliotecario, concluyendo que los estudiantes seguirán demandando servicios de referencia humanos. Yang (2024) coincide en que, aunque ChatGPT es excelente en la recuperación de información en algunas áreas, su trabajo no es comparable al del personal bibliotecario en otras. Más allá de estas comparaciones, autores como Franganillo (2023) entienden los LLM como una oportunidad para la profesión bibliotecaria. En esta línea, Chen (2023) y Cox y Tzoc (2023) analizan las implicaciones de la IA en la profesión, mientras que Lappalainen y Narayanan (2023) y Torres (2024) presentan chatbots para la interacción con usuarios. Brzustowicz (2023) se centra en las posibilidades de la IA en catalogación, aunque Yang y Mason (2024) reconocen sus limitaciones frente a la competencia humana en tareas como la respuesta a preguntas o la catalogación en MARC21.

En el ámbito archivístico, trabajos como los de González-Gallardo et al. (2023) exploran la identificación de entidades en documentos históricos, y Spina (2023) concluye que, pese a las imprecisiones detectadas, la digitalización y la IA pueden mejorar significativamente la investigación archivística. En documentación multimedia, los large vision models (Maaz et al., 2024) y herramientas como DALL-E y Sora (Liu et al., 2024) están transformando la generación de imágenes y vídeos a partir de texto.

En bibliometría, Bornmann y Lepori (2024) analizan si ChatGPT puede servir para detectar instituciones comparables en procesos de benchmarking, concluyendo que es necesaria la intervención de un experto que inspeccione los resultados. De Winter (2024) explora el potencial de ChatGPT para predecir citas, lectores de Mendeley y participación en redes sociales, mientras que Sandnes (2024) examina si es posible identificar académicos más citados, con resultados poco exitosos para ChatGPT 3.5.

El debate sobre el uso de IA en revisión por pares y escritura científica es especialmente controvertido. Lopezosa (2023b) analiza su aplicación en procesos editoriales, mientras que Carabantes y González-Geraldo (2023) señalan serias limitaciones de ChatGPT en la revisión por pares. Kousha y Thelwall (2024) y Thelwall (2024) llegan a conclusiones similares. Mollaki (2024) plantea si el uso de ChatGPT supone la "muerte del revisor" o de la integridad de la revisión por pares, señalando la falta de directrices y políticas al respecto. Flanagin, Bibbins-Domingo (2023) mencionan el caso de la editorial JAMA, que prohíbe a los revisores introducir partes del manuscrito en chatbots por violación del acuerdo de confidencialidad.

En cuanto a la autoría de trabajos científicos, Tang (2023) identifica dos tipos de políticas editoriales: las que prohíben completamente el uso de ChatGPT y las que lo permiten bajo ciertas condiciones. Kendall y Teixeira-da-Silva (2024) se centran en los riesgos de uso abusivo de LLM en publicación científica: autoría, publicación depredadora y fábricas de artículos (paper mills). Otros autores reflexionan sobre el uso ético de ChatGPT en la escritura científica (Lund et al., 2023; Schlagwein & Willcocks, 2023; Cotton, Cotton & Shipway, 2024), mientras que Thorp (2023) defiende que ChatGPT no puede ser autor. Alkaissi et al. (2023) recurren al concepto de "alucinaciones" para cuestionar la integridad de lo que ofrece ChatGPT.

En el ámbito de la programación, Torres-Salinas y Arroyo-Machado (2023) destacan las posibilidades de ChatGPT en diferentes lenguajes. Hajj y Sah (2023) y Tóth, Bisztray y Erdodi (2024) analizan el impacto de ChatGPT en programación PHP, mientras que Wuisang et al. (2023) y Diehl et al. (2024) evalúan el código generado en Python y R.

ConocimIA: origen, metodología y objetivos

El seminario ConocimIA nace en este contexto de disrupción con el propósito de crear un espacio de divulgación, aprendizaje y reflexión para la comunidad académica en torno al debate que genera la IA en el sector de la Documentación. La iniciativa se articula en torno a siete metas principales, cada una con sus correspondientes objetivos:

Análisis del impacto: examinar cómo la IA está transformando el campo de las Ciencias de la Documentación.
Exploración de usos y aplicaciones: identificar las herramientas y técnicas más relevantes.
Evaluación de ventajas y desafíos: valorar las oportunidades y amenazas en los ámbitos profesional, científico, académico y productivo.
Actividades prácticas: realizar talleres y sesiones enfocadas en la enseñanza de herramientas de IA específicas para Documentación.
Formación y actualización: fomentar la integración de programas de formación docente que incorporen la IA.
Innovación y desarrollo: identificar tareas documentales optimizables mediante IA y colaborar en el desarrollo de nuevos servicios.
Colaboración y redes internacionales: establecer nexos con instituciones nacionales e internacionales para el intercambio de conocimientos.

Para su difusión, se creó el sitio web ~~http://www.conocimia.digital~~, estructurado en tres secciones fundamentales: Portada (últimas novedades), Eventos (sesiones programadas) y Recursos (materiales de las actividades pasadas, incluyendo vídeos).

Actividades desarrolladas

El artículo repasa las principales actividades del seminario hasta la fecha:

Conferencia inaugural: "La irrupción disruptiva de la IA" (17 de noviembre de 2023). Esta sesión ofreció una introducción exhaustiva al concepto de IA en Documentación, explorando su evolución desde la perspectiva de la Recuperación de Información y su influencia en el desarrollo de algoritmos para redes neuronales y aprendizaje automático. Se discutieron los efectos observables en el comportamiento de los usuarios —la disminución del uso de buscadores en favor de las IAs, el cambio de buscar fuentes a buscar respuestas directas— y los problemas relacionados con la dependencia y delegación del pensamiento. También se abordaron las cuestiones de privacidad y control asociadas a las IAs comerciales, el papel del software libre como contrapeso, y los riesgos para el desarrollo del juicio crítico.
Taller de ChatGPT: Data-mining de PARES y Bibliotecas Públicas (15 de diciembre de 2023). Este taller práctico demostró cómo ChatGPT puede asistir en la creación de programas de web-scraping para extraer datos de catálogos bibliográficos y archivos. Se mostró la interacción con el modelo para generar código en Python y PHP, y se abordaron conceptos avanzados de programación como bucles, estructuras condicionales y arrays.
Conferencia: "Entendiendo el funcionamiento de ChatGPT" (15 de diciembre de 2023). Se explicó de manera accesible el funcionamiento interno del modelo: la arquitectura Transformer, el mecanismo de atención, el proceso de tokenización, la vectorización y los embeddings, y el método probabilístico de generación de respuestas. También se comparó con los sistemas tradicionales de Recuperación de Información, destacando sus diferencias y complementariedades.
Conferencia: "Inteligencia Artificial en la Documentación Multimedia" (23 de febrero de 2024). Con la participación del Dr. Alfonso López Yepes, se abordó la evolución de la automatización de la Documentación Multimedia y el impacto de la IA en áreas como el minutado, la generación de vídeo, la transcripción y traducción automáticas, la restauración y mejora de imágenes, la síntesis de voz y música, el reconocimiento de objetos y personas, y la realidad aumentada y virtual. Se analizaron riesgos como el sesgo, la censura automatizada en procesos de conversión de voz a texto, y la hiper-personalización de contenidos.
Conferencia: "Lo que no hace ChatGPT" (23 de febrero de 2024).
Esta sesión exploró los límites de la IA en Documentación: el problema de la citación y referenciación fiable de fuentes, el uso de formatos propietarios, la invención de datos (alucinaciones) cuando se le pide completar estructuras de metadatos, y las dificultades con formatos de marcado sin etiquetas de cierre. También se analizaron críticamente posibles soluciones y se revisaron los GPTs especializados disponibles en la GPT Store de OpenAI.
Conferencia: "El problema de la IA y las fuentes" (26 de abril de 2024). En continuidad con la sesión anterior, se analizaron tres IAs generativas —Perplexity, Phind y ChatGPT— en su capacidad para proporcionar fuentes, citas y referencias bibliográficas en estilos HARVARD y APA. Se observó un comportamiento variado en la fidelidad de las referencias y en la transparencia, destacando Phind como la que mejor trataba este problema.
Conferencia: "La primera IA de Documentación" (26 de abril de 2024). Se presentó "Mayordomo", el primer modelo de IA en Documentación basado en software libre (PrivateGPT, Llama, Qdrant, Mistral), instalado en servidores locales y entrenado con una colección especializada de documentos y artículos del área. Este sistema aborda problemas de privacidad y control asociados a las IAs comerciales, ofreciendo una solución privada y local. Incluye una capa intermedia de software que gestiona las peticiones de los usuarios, las registra y las procesa en cola, proporcionando una interfaz personalizada para servicios bibliotecarios.

Futuras líneas de trabajo

El artículo también traza las líneas de trabajo que ConocimIA pretende desarrollar en el futuro:

Ética y plagio. La IA Generativa ha desbordado las herramientas tradicionales de detección de plagio, permitiendo elaborar trabajos de fin de carrera y resolver ejercicios con escaso esfuerzo. En este sentido, el proyecto liderado por la Dra. Michela Montesi, "Desarrollo y validación de actividades docentes con IA en el área de la Información y Documentación", supone un importante aporte para alfabetizar, formar y enseñar el correcto uso de la IA en la comunidad universitaria.
Transversalidad curricular. La IA tiene múltiples aplicaciones en todas las áreas de la Biblioteconomía y Documentación. Es necesario abordar eventos específicos para asignaturas como Recuperación de Información, Lenguajes Documentales, Metadatos, Catalogación, Extracción y procesamiento avanzado de información, o Edición Digital, con la participación activa de los profesores implicados.
Formación de bibliotecarios. La rápida asimilación de la IA en la automatización de tareas bibliográficas y documentales exige una formación intensiva del personal de bibliotecas universitarias y académicas, para que sean capaces de explotar las posibilidades de la IA y reinventar los servicios y productos existentes.
Propiedad intelectual y derechos de autor. Preguntas como ¿Quién es el titular de los derechos sobre un documento derivado de la IA? ¿Cuál es el límite que determina que una obra de IA pueda ser apropiada por un autor de un prompt? requieren una profunda reflexión por parte de la comunidad científica.
Desarrollo de software asistido con IA. Los talleres de web-scraping han sido el principio de una corriente que debe continuar con el desarrollo de sistemas de gestión de archivos, bibliotecas, museos, metadatos, catalogación, recuperación y Big-data, así como talleres sobre desarrollo automatizado de metadatos, creación de programas de gestión de contenidos, diseño de sistemas de análisis de sentimiento, etc.
Web semántica. La IA tiene capacidad para generar estructuras de datos enlazados conforme a modelos relacionales proporcionados en los prompts. Dada la lentitud en los cambios de los planes de estudio universitarios, resulta importante transmitir estos conocimientos a profesionales, estudiantes y profesores.

Colaboraciones

El artículo identifica diversas líneas de colaboración que el seminario pretende desarrollar:

Proyectos de IA especializados: colaboración en el diseño de criterios de selección de documentos para corpus documentales de IA, ayudando a reducir el riesgo de sesgo.
Proyecto "Mayordomo": la primera IA en Documentación está abierta a nuevos patrocinadores, investigadores y colaboradores que puedan fomentar su desarrollo, alimentación y entrenamiento.
Innovación docente: desarrollo de programas de formación que integren la IA en las asignaturas de Ciencias de la Documentación.
Reinvención de la carrera: colaboración en el diseño de nuevas titulaciones como un Máster en Big-Data e IA en Documentación.
Identificación y optimización de tareas: investigación para determinar qué tareas documentales pueden ser mejoradas o sustituidas por IA.
Desarrollo de nuevos servicios: colaboración entre universidades y empresas para la creación de servicios innovadores basados en IA.
Evolución del perfil profesional: investigación sobre cómo la IA está transformando las competencias requeridas para los documentalistas.
Colaboración internacional: establecimiento de nexos con instituciones hispano-mexicanas, hispano-brasileñas y europeas para el intercambio de conocimientos.
Estudios de usuarios: diseño y ejecución de estudios que ayuden a comprender mejor las necesidades y comportamientos de los usuarios en el uso de aplicaciones y servicios de IA.

Conclusiones

La IA ha emergido como una herramienta disruptiva en las Ciencias de la Documentación, transformando la manera en que se llevan a cabo diversas tareas académicas y científicas. Facilita la automatización de procesos complejos, mejora la eficiencia en la recuperación y organización de información, y abre nuevas oportunidades para la investigación y el desarrollo de servicios. Sin embargo, también plantea desafíos significativos: la necesidad de actualizar los planes de estudio para incorporar competencias en IA, el manejo ético de la información, y la adaptación de los profesionales a un entorno tecnológico en constante evolución.

ConocimIA ha desarrollado una metodología innovadora que combina una plataforma digital con seminarios presenciales bimensuales. La plataforma actúa como un observatorio de noticias y recursos, ofreciendo acceso a materiales educativos y conferencias grabadas. Los seminarios permiten una interacción directa y práctica, donde se discuten temas de actualidad, se presentan casos de estudio y se realizan actividades prácticas que facilitan la comprensión y aplicación de herramientas de IA en contextos reales.

Uno de los pilares de ConocimIA es la organización de talleres prácticos que permiten a los participantes experimentar de primera mano con tecnologías de IA. Estos talleres no solo proporcionan habilidades técnicas, sino que también fomentan una comprensión crítica de las capacidades y limitaciones de la IA en la práctica profesional.

Entre los proyectos innovadores presentados, destaca el desarrollo del primer modelo de IA en Documentación, "Mayordomo", basado en tecnologías de código abierto. Este sistema no solo demuestra el potencial de la IA para transformar la gestión documental, sino que también subraya la importancia de desarrollar herramientas adaptadas a las necesidades específicas del campo. Mirando hacia el futuro, ConocimIA planea expandir sus actividades para incluir una mayor integración de la IA en el currículo académico, colaborar más estrechamente con el sector privado y la Sociedad Española de Información y Documentación Científica (SEDIC), y explorar nuevas formas de utilizar la IA para desarrollar servicios innovadores y mejorar la eficiencia de los existentes.