Lo que ChatGPT no hace y Documentación Multimed-IA

Es un placer compartir nuestro próximo evento ConocimIA, sobre Inteligencia Artificial y Documentación. En esta ocasión, presentamos una jornada única, destinada a explorar las fronteras de la inteligencia artificial.

Fecha: 23 de febrero de 2024 / 17:00-19:00h
Lugar: Sala de conferencias, Facultad de Ciencias de la Documentación. UCM
Entrada: Libre hasta completar aforo

Primera parte: Lo que no hace ChatGPT

Intervienen: Prof.ª María Antonia Ovalle Perandones y Prof. Manuel Blázquez Ochando

La sesión inaugural aborda una cuestión que, paradójicamente, ha recibido menos atención que las celebradas capacidades de los modelos generativos: ¿Qué es lo que ChatGPT no puede hacer? Más allá de los usos ampliamente difundidos —redacción de textos, resolución de problemas, generación de código—, resulta igualmente relevante identificar los límites de estas herramientas, tanto para un uso profesional responsable como para comprender mejor su naturaleza técnica.

La profesora María Antonia Ovalle, directora del Departamento de Biblioteconomía y Documentación de la Universidad Complutense, presenta un análisis empírico basado en casos concretos. Su intervención parte de una constatación: aunque ChatGPT y otras inteligencias artificiales se presentan como aliados casi perfectos, la experiencia de uso revela limitaciones significativas que conviene sistematizar.

Límites identificados en la práctica

1. Incapacidad para trabajar con formatos propietarios o entornos específicos.

En una prueba con Greenstone —un sistema de código abierto para bibliotecas digitales—, el modelo se limitó a ofrecer orientación general sobre los pasos a seguir, pero no pudo interactuar directamente con el software ni convertir objetos digitales al formato requerido. Ante la solicitud de convertir un texto a PDF, la respuesta fue similar: proporcionó instrucciones para realizarlo manualmente, reconociendo su incapacidad para generar archivos fuera del entorno conversacional.

2. Limitaciones en la corrección de tareas académicas.

En un caso de evaluación de tareas con marcado Markdown, ChatGPT identificó parcialmente los errores —falta de espacios tras los encabezados, formato incorrecto de listas, problemas en la tabla— pero pasó por alto otros, como el uso inadecuado de cursivas, tachados o citas. La calificación propuesta (8/10) resultó excesivamente indulgente respecto a los errores detectados. La moraleja apunta a que el modelo tiende a "disimular" su desconocimiento antes que reconocer abiertamente sus limitaciones.

3. Confusión entre generación y recuperación de información.

En un ejercicio de obtención de URIs para autoridades desde fuentes como VIAF, Wikidata o ISNI, ChatGPT proporcionó identificadores que mezclaban correctos con otros erróneos. El caso más significativo fue el de "José López", para el que ofreció datos correspondientes a José López Portillo (político mexicano) sin advertir la ambigüedad del nombre. Como señaló una de las asistentes, el modelo actúa como "una persona en la niñez: en lugar de señalar que no puede o no sabe, disimula".

4. Imposibilidad de generar contenidos que vulneren normas éticas.

Cuando se le solicitó redactar un mensaje que desacreditara las opiniones de investigadores de otro género, ChatGPT rechazó explícitamente la petición, recordando la importancia de una comunicación respetuosa y la diversidad de perspectivas en la investigación. Este comportamiento refleja las capas de seguridad incorporadas durante el entrenamiento con refuerzo a partir de retroalimentación humana (RLHF).

5. Base de conocimiento limitada en el tiempo.

Ante una solicitud de resumen sobre la guerra de Ucrania en 2023-2024, ChatGPT informó de que su conocimiento alcanzaba hasta enero de 2022, sin posibilidad de prever eventos posteriores. Esta limitación, inherente a los modelos entrenados con un corpus congelado, subraya la necesidad de complementar la IA con fuentes actualizadas cuando el contexto temporal es relevante.

6. Restricciones en asesoramiento financiero.

En una consulta sobre inversión de ahorros, ChatGPT se negó sistemáticamente a ofrecer recomendaciones concretas, insistiendo en la necesidad de asesoramiento financiero personalizado. Aunque finalmente sugirió dos fondos de inversión genéricos y mencionó la existencia de robo-advisors, mantuvo un tono cauteloso que revela tanto limitaciones normativas como la conciencia del modelo sobre sus propias restricciones en dominios sensibles.

Reflexiones sobre los límites

El análisis conjunto de estos casos permite extraer varias conclusiones:

No todo puede ser resuelto con ChatGPT. Existen tareas que requieren interacción con entornos externos, formatos propietarios o acciones fuera del ámbito conversacional.
La claridad del prompt es determinante. Si la idea expresada es vaga, se obtienen malos resultados; si es clara, exhaustiva y ordenada, los resultados mejoran.
Existen factores ajenos a la voluntad del usuario. El contexto de la IA, su base de conocimiento, el modelo, su entrenamiento y la ventana de tokens condicionan las respuestas.
La vaguedad, ambigüedad y falta de guía procedimental son los peores enemigos de la IA. Los procesos complejos requieren un orden secuencial en las instrucciones.
El documentalista debe aprender a diseñar prompts. Conversar, interrogar, plantear preguntas pertinentes y comunicarse con la IA se convierten en competencias esenciales.

La importancia de registrar los prompts

Conforme se adquiere experiencia en el uso de la IA, surgen "micro-automatizaciones" que deben ser guardadas para su reutilización. Los prompts con mejores resultados son clasificados y vinculados a contextos, objetivos y problemas específicos, contribuyendo a que la IA se convierta en un software más inteligente. Registrar los propios prompts es, en este sentido, una práctica que "vale oro".

Los GPTs especializados

La plataforma de GPTs de OpenAI funciona como una "APPstore de la Inteligencia Artificial", donde cualquier usuario registrado puede crear una IA especializada para casos y situaciones concretas. Esta evolución hacia la especialización representa una de las tendencias más relevantes para los profesionales de la información, que pueden diseñar asistentes adaptados a sus necesidades específicas sin requerir conocimientos avanzados de programación.

Segunda parte: La Documentación Multimed-IA

Intervienen: Prof. Alfonso López Yepes, Víctor Villapalos Pardiñas y Prof. Manuel Blázquez Ochando

La segunda parte de la jornada aborda el impacto de la inteligencia artificial en la documentación multimedia, un ámbito que abarca la creación, gestión y recuperación de contenidos audiovisuales.

Perspectiva del profesor Alfonso López Yepes

El catedrático Alfonso López Yepes, referente en documentación audiovisual, ofrece una visión panorámica de la intersección entre IA y multimedia. Su intervención se articula en torno a varias ideas clave:

El contexto actual. La IA generativa está transformando radicalmente la producción de contenidos audiovisuales, con herramientas que permiten crear imágenes, vídeos y audio con una calidad que comienza a ser indistinguible de la realidad.
El papel de los profesionales. La documentación multimedia tradicional, centrada en la catalogación, clasificación y recuperación de materiales audiovisuales, se ve desafiada por sistemas que pueden generar contenidos bajo demanda, pero también enriquecida por nuevas capacidades de análisis y extracción de información.
Recursos relevantes. López Yepes comparte referencias a proyectos como REDAUVI (Red de Patrimonio Audiovisual Universitario), el Servicio de Documentación Multimedia de la UCM y diversas iniciativas de preservación del patrimonio fílmico iberoamericano que pueden beneficiarse de las tecnologías de IA.

Herramientas y aplicaciones prácticas

Víctor Villapalos, director-gerente de SEDIC, presenta un recorrido por las principales plataformas de IA aplicadas a la creación multimedia, clasificadas por ámbitos:

Plataformas de recopilación. Sitios como Futurepedia, AI Findy o Toolify recogen y categorizan proyectos basados en IA, facilitando la exploración y descubrimiento de nuevas herramientas.
Edición y creación de vídeo. RunwayML permite generar vídeos a partir de prompts textuales o imágenes, con edición de parámetros y efectos. Visla, enfocada a empresas, facilita la creación de diálogos, voces en off y resúmenes. Fliki.ai genera vídeos con imágenes, música y textos automáticos adaptados a redes sociales. La reciente presentación de SORA por OpenAI marca un hito en la generación de vídeo realista a partir de instrucciones textuales.
Avatares y síntesis de voz. Plataformas como HeyGen, Synthesia o Bhuman permiten crear avatares que hablan con voces sintetizadas, abriendo posibilidades para la comunicación institucional, la formación y la difusión de contenidos.
Edición y creación de imágenes. DALL-E 3, Midjourney y Leonardo.ai son las herramientas más conocidas para generar imágenes a partir de descripciones textuales. Microsoft Designer y Canva han integrado capacidades de IA en sus plataformas de diseño gráfico. Herramientas complementarias como Remove.bg (eliminación de fondos), Mokker.ai (fotomontajes publicitarios) o Krea.ai (aumento de resolución) amplían las posibilidades de edición.
Creación de logos e identidad visual. Namelix genera nombres comerciales y logos, mientras que Brandmark se especializa en diseño de identidad visual.
Audio y música. ElevenLabs permite sintetizar voces con alta fidelidad, incluso clonando voces existentes. Suno.ai genera canciones completas a partir de un solo prompt. Summarize.tech extrae transcripciones y resúmenes de contenidos audiovisuales.
Chats e IA conversacional. Además de ChatGPT, existen alternativas como Gemini (Google), Poe (para bots personales) y LM Studio, que permite instalar modelos de IA localmente sin necesidad de conexión a internet.
Usos diversos. TinyWow ofrece herramientas genéricas de edición y conversión entre formatos. AgentGPT actúa como un agente autónomo que planifica y ejecuta pasos para alcanzar un objetivo final.

Aportación del profesor Manuel Blázquez Ochando

El cierre de la jornada a cargo del profesor Blázquez sintetiza las principales reflexiones sobre el impacto de la IA en la documentación multimedia:

Multimedia con IA. La convergencia entre la inteligencia artificial y los contenidos multimedia permite automatizar procesos de creación, edición y postproducción que antes requerían equipos especializados y largos tiempos de ejecución.
Algunos datos. La generación de imágenes con IA ha pasado de resultados experimentales a producciones de calidad comercial en menos de dos años. La demanda de estas herramientas crece exponencialmente, con plataformas que acumulan millones de usuarios en sus primeros meses de operación.
Impacto en Documentación Multimedia. La disciplina se enfrenta a una transformación sin precedentes. Las tareas tradicionales de catalogación y clasificación pueden ser automatizadas, liberando al profesional para funciones de mayor valor añadido. Al mismo tiempo, surgen nuevas necesidades: la curación de contenidos generados por IA, la evaluación de su calidad y veracidad, y la integración de estos materiales en flujos de trabajo documentales.
Hasta dónde se puede llegar. La evolución técnica sugiere que la generación de contenidos multimedia será cada vez más realista, más rápida y más personalizable. Herramientas como SORA apuntan hacia un futuro en el que cualquier usuario podrá generar vídeos de alta calidad con instrucciones en lenguaje natural.

Conclusiones del bloque.

Los avances en IA y multimedia son muy prometedores. Es posible automatizar casi todas las creaciones de imagen, audio y vídeo.
La calidad de las creaciones se acerca a un realismo difícil de distinguir de la realidad.
Nunca antes la Documentación Multimedia había tenido a su disposición tantas herramientas para crear y producir contenidos.
Se democratiza la producción de contenidos multimedia.
La IA supone una revolución que va a cambiar la forma en que concebimos la Documentación y la labor del profesional de la información.
Alta automatización a base de prompts y procesos con IA.
Impacto en el empleo: es posible hacer más con menos.
Consecuencias predecibles e impredecibles.

Preguntas abiertas

La jornada concluye con un espacio de debate en torno a cuestiones que no admiten respuestas unívocas:

Oportunidad o amenaza. ¿Predominan las ventajas o los inconvenientes?
Herramienta o sustitución. ¿La IA es una extensión de nuestras capacidades o su sustituta?
Avance o regresión. ¿Nos dirigimos hacia el futuro o hacia el final de la intervención humana?
Factor humano o factor algorítmico. ¿Qué relevancia tendrá cada uno en el futuro?
Generación automatizada o creatividad. ¿Qué valores aporta cada una?
Futuro, predicción, previsibilidad, originalidad, novedad, competencia. ¿Cómo se reconfigurarán estos conceptos en un ecosistema dominado por la IA?

La conferencia forma parte de las actividades del Seminario ConocimIA, un espacio dedicado al seguimiento y análisis de la inteligencia artificial en el ámbito de las Ciencias de la Documentación.

Materiales de la conferencia

Los materiales empleados en esta sesión están disponibles para su descarga en formato DOCX, PPTX y PDF. La presentación recoge las ideas, referencias y preguntas abiertas que se han planteado a lo largo de la conferencia, y puede servir como punto de partida para profundizar en los temas tratados o para su uso en contextos formativos, siempre con la debida atribución.

Ovalle-Perandones, M.A. (2024). Lo que no hace ChatGPT. conocimIA_maovalle_2024-02-23_lo-que-no-hace-ChatGPT.docx
Blázquez-Ochando, M.A. (2024). Lo que no hace ChatGPT. conocimIA_mblazquez_2024-02-23_lo-que-no-hace-ChatGPT.pptx
López-Yepes, A. (2024). Documentación multimedia e Inteligencia Artificial. conocimIA_alopezyepes_2024-02-23_documentacion-multimedia-inteligencia-artificial.ppt
Villapalos-Pardiñas, V. (2024). Usos de la Inteligencia Artificial. conocimIA_vvillapalos_2024-02-23_usos-inteligencia-artificial.pptx
Blázquez-Ochando, M. (2024). Multimed-IA. conocimIA_mblazquez_2024-02-23_multimedia-IA.pptx | Pruebas demostrativas. conocimIA_mblazquez_2024-02-23_multimedia-IA_pruebas.zip