Análisis Documental con IA: Conferencia UCM 29 nov

Nos complace anunciar nuestro próximo evento sobre el "Análisis Documental asistido con Inteligencia Artificial", un encuentro clave para explorar cómo la IA está transformando la manera en que analizamos y organizamos la información documental. En esta ocasión, contaremos con la participación del profesor Blázquez, quien compartirá sus experiencias en el desarrollo de herramientas y métodos de análisis impulsados por IA, diseñados específicamente en el contexto de Ciencias de la Documentación.

Fecha y Hora: 29 de noviembre de 2024 / 16:00-18:00h
Lugar: Sala de Conferencias, Facultad de Ciencias de la Documentación. UCM
Entrada: Libre hasta completar aforo

Contexto y fundamentos del análisis documental

La conferencia comienza con una revisión de los conceptos fundamentales que sustentan el tratamiento documental en los centros de información. El análisis documental —conjunto de operaciones y técnicas aplicadas a los documentos para facilitar su organización, conservación, recuperación y uso— ha sido tradicionalmente el pilar sobre el que se sostiene la gestión eficiente de la información en bibliotecas, archivos y centros de documentación.

El análisis documental como fundamento.

El proceso de extracción y representación de la información contenida en los documentos se divide en dos vertientes complementarias: el análisis formal, que atiende a las características físicas de los documentos, y el análisis de contenido, centrado en su temática y significado. Su finalidad última es facilitar la identificación, recuperación y difusión de la información mediante herramientas como resúmenes, palabras clave y descriptores.

Los puntos de acceso.

La identificación de los elementos que permiten localizar y recuperar un documento dentro de un sistema de información —autor, título, materia, fecha, lugar— constituye uno de los aspectos más críticos del tratamiento documental. Estos puntos de acceso actúan como puentes entre las necesidades de información del usuario y los documentos que se pretenden recuperar, por lo que su normalización mediante criterios estandarizados resulta esencial para garantizar la consistencia.

Organización sistemática.

La catalogación, la clasificación mediante lenguajes documentales, la gestión de autoridades, la indización y la descripción de las características físicas y de contenido conforman el entramado de operaciones que permiten organizar sistemáticamente los documentos según su temática o características.

La recuperación de información.

En el contexto del tratamiento documental, la recuperación de información se define como el proceso de identificar y localizar documentos relevantes para una necesidad de información. Los sistemas que la hacen posible —bases de datos, catálogos en línea OPAC, motores de búsqueda especializados— han evolucionado incorporando estrategias como el uso de operadores booleanos, búsqueda por campos, filtros avanzados, facetas y vocabularios controlados. La evaluación de su eficacia se mide en términos de relevancia, pertinencia, exhaustividad y precisión.

Difusión y reutilización.

El ciclo documental culmina con la salida, difusión y retransmisión de los contenidos a través de diversos canales —sitios web, redes sociales, correo electrónico, servicios de diseminación selectiva, aplicaciones móviles, podcasts, plataformas de vídeo— y su almacenamiento en sistemas de gestión documental, repositorios digitales, bases de datos o servidores en la nube. La reutilización, entendida como la adaptación y reempaquetado de la información para diferentes usos y usuarios, se complementa con la medición y análisis mediante métricas, evaluación de tráfico y análisis de la experiencia del usuario.

Evolución del profesional de la información.

Antes de la llegada de la inteligencia artificial, el profesional de la información ya había experimentado una transformación significativa: de custodio a facilitador, con un cambio de enfoque hacia el servicio al usuario. La automatización mediante sistemas informáticos, la adquisición de nuevas competencias tecnológicas y de gestión de proyectos, la especialización en perfiles como documentalistas audiovisuales o gestores de contenidos digitales, y la adaptación a nuevos entornos como la Web 2.0, 3.0 y 4.0, el acceso abierto, el Big-data y el data mining han configurado una profesión en constante evolución, enfrentada a desafíos como la sobrecarga informativa, la necesidad de formación continua y la valoración social de su función.

Aplicaciones de la IA en el análisis documental de la fotografía

La segunda parte de la conferencia se centra en una de las áreas de mayor innovación: el análisis documental de fotografías mediante inteligencia artificial. Los modelos actuales de IA ofrecen capacidades que transforman radicalmente la manera en que se pueden procesar colecciones visuales.

Reconocimiento de imágenes y etiquetado automático.

La IA permite la detección de objetos y escenas, la generación de etiquetas y metadatos, la normalización de descriptores, la identificación de objetos en áreas y enmarcado, así como la descripción detallada de los elementos visibles: objetos principales, personas, seres vivos, acciones, actividades, ambiente, escenario, colores predominantes, emociones o atmósfera percibida, detalles relevantes en primer y segundo plano, texto visible, estilo artístico y época o contexto histórico. Herramientas como GroundingDINO (IDEA-Research) ejemplifican estas capacidades, permitiendo una identificación precisa de elementos visuales que antes requerían largas horas de trabajo manual.

Reconocimiento facial y de emociones.

La IA puede identificar personas y analizar expresiones faciales, detectando emociones principales —alegría, tristeza, enojo, sorpresa, miedo, disgusto, neutral— y estimando su intensidad en una escala del 1 al 10. El análisis incluye el contexto facial, elementos como ojos, cejas, boca, frente, mejillas, así como factores que pueden influir en la interpretación como la iluminación, el ángulo de la cara o los objetos adjuntos al rostro (gafas, sombrero, postizos).

La demostración incluye casos prácticos de análisis de emociones en rostros individuales y en grupo, con evaluaciones de confianza que consideran factores como la presencia de maquillaje que amplifica expresiones o la falta de contexto situacional que puede limitar la profundidad del análisis. Un ejemplo particularmente revelador es la aplicación de estos sistemas en contextos educativos, como las escuelas en China que utilizan reconocimiento facial en tiempo real para monitorizar el grado de atención de los estudiantes durante las clases.

Restauración y mejora de imágenes.

La IA también ofrece capacidades para la restauración y mejora de imágenes: eliminación de ruido y reparación de daños, aumento de resolución, coloración de imágenes en blanco y negro, mejoras en enfoque, iluminación, contraste, saturación de colores, balances de color y eliminación de aberraciones cromáticas. Herramientas como Bringing Old Photos Back to Life (Microsoft) y GFPGAN (Practical Algorithms for Real-world Face Restoration) demuestran el potencial de estas tecnologías para recuperar y preservar patrimonio visual.

Indexación y búsqueda visual.

La búsqueda por contenido visual permite la agrupación por similitud, la detección de imágenes similares o duplicadas, la búsqueda de fuentes de las imágenes, la traducción de textos presentes en fotografías, la indexación de textos y la gestión de derechos. Google Lens es un ejemplo paradigmático de estas capacidades aplicadas a gran escala.

Generación de descripciones y resúmenes automáticos.

Los sistemas de IA pueden generar descripciones objetivas y detalladas de los elementos principales visibles en una imagen, interpretar el contexto de la escena (ubicación, época, ambiente), identificar objetos y sujetos, analizar la composición (disposición de elementos, color, iluminación), sintetizar la esencia en resúmenes concisos y sugerir posibles interpretaciones o significados que la imagen podría transmitir. Ejemplos concretos analizados en la conferencia incluyen:

Una fotografía de un gato con una rodaja de sandía sobre la cabeza, con descripción de la escena, expresión del animal y análisis de la composición.
La imagen ganadora del World Press Photo 2023 sobre trabajadores construyendo la nueva capital financiera de Egipto, con análisis contextual que sitúa la escena en un país en desarrollo y la interpreta como símbolo del progreso y el esfuerzo humano detrás de los grandes proyectos urbanos.
La fotografía de una mujer peruana con una cría de alpaca en los Andes, analizada como representación de la relación entre las personas y la naturaleza en comunidades rurales, con un mensaje sobre la preservación de tradiciones ancestrales.

Clasificación temática y cronológica.

La IA puede organizar fotografías por temas o eventos históricos, estimar su geolocalización (país, ciudad, región, coordenadas, puntos de referencia), identificar el tema principal y subtemas, realizar análisis cronológico (período histórico, época, elementos que ayudan a datar la imagen) y contextualizar social, política y culturalmente la imagen.

Un ejemplo desarrollado en la conferencia es el análisis de una fotografía de Times Square, donde la IA identifica elementos que ayudan a datar la imagen entre 2009 y principios de la década de 2010: los anuncios de musicales como Billy Elliot (ganador de premios en 2009) y Mamma Mia, junto con la presencia de marcas como Bank of America, McDonald's y Kodak. La contextualización aborda el significado cultural de Times Square como "el cruce del mundo", su papel como centro de consumismo y la influencia global de la cultura estadounidense.

Demostración en directo de análisis de imágenes y fotografías

La tercera parte de la conferencia consiste en una demostración práctica en directo, donde se muestra cómo el sistema de IA puede asistir en el análisis de imágenes y fotografías de manera detallada. La demostración se estructura en varios bloques:

De la imagen a la base de datos.

Se muestra cómo la IA puede identificar especies vegetales a partir de fotografías —gazania, mirabilis jalapa (dondiego de noche), parthenocissus quinquefolia (enamorada del muro), hydrangea macrophylla (hortensia), iresine herbstii (sangre de Cristo)— y generar automáticamente los metadatos necesarios para su inserción en bases de datos, incluyendo el código SQL correspondiente.

Del cine al catálogo.

La demostración incluye el análisis de fotogramas de películas clásicas y contemporáneas, extrayendo información catalográfica completa:

Meet John Doe (Frank Capra, 1941): identificación de la escena en un bar, personajes (John Doe, camarero, clientes), actores (Gary Cooper), ubicación, acciones, temas (discurso radial, impacto social, crítica política) y género.
Colt .45 (Edwin L. Marin, 1950): análisis de una escena en la oficina del sheriff del viejo oeste, con personajes Steve Farrell y el sheriff local, interpretados por Randolph Scott, temas de ley y orden y justicia.
The General (Buster Keaton, 1926): identificación de la locomotora, el personaje Johnny Gray y su expresión de determinación, con temas de coraje, ingenio y superación personal.
Metropolis (Fritz Lang, 1927): análisis de la escena en el laboratorio de Rotwang, con los personajes Rotwang, Joh Fredersen y el robot Maria, temas de industrialización, lucha de clases y ética en la tecnología.
A Place in the Sun (George Stevens, 1951): análisis de la pareja Angela Vickers (Elizabeth Taylor) y George Eastman (Montgomery Clift) en un automóvil, con temas de amor, ambición y conflictos internos.
Mr. Smith Goes to Washington (Frank Capra, 1939): identificación del filibustero de Jefferson Smith (James Stewart) en el Senado, temas de democracia, idealismo y corrupción política.
The Tenant (Roman Polanski, 1976): análisis de la atmósfera inquietante en la habitación del hospital, con temas de alienación, paranoia e identidad.
El Vampiro (Fernando Méndez, 1957): identificación del Conde Lavud (Germán Robles) y Marta (Ariadne Welter) en la hacienda mexicana, temas de vampirismo, misterio y lucha entre el bien y el mal.
The Outlaws (Kang Yoon-sung, 2017): análisis de la escena del detective Ma Seok-do (Ma Dong-seok) en el mercado bullicioso de Seúl, temas de justicia, crimen y tensión urbana.

Pruebas adicionales de reconocimiento.

La demostración incluye casos de identificación de imágenes científicas y contextuales:

Fotografía de Corea del Norte tras la muerte de Kim Jong Il (identificación correcta).
Efecto Rouleaux de los glóbulos rojos (inicialmente no identificado correctamente, pero tras reformulación se logra la identificación completa en contexto médico-hematológico).
Tejido celular de una hoja (identificación correcta con contexto, clasificación y caracterización).
ADN sintético origami (identificación completa del objeto, detalles, técnica y características).

Los resultados se presentan en tablas que muestran el porcentaje de acierto inicial, los errores detectados, la mejora tras reformulación de la consulta y los detalles útiles identificados en cada caso.

Desafíos éticos y perspectivas de futuro

La conferencia concluye con una reflexión sobre los desafíos éticos que plantea la aplicación de la IA en el análisis documental de fotografías:

Precisión y fiabilidad. Los errores en el reconocimiento de personas, entornos, contextos y eventos dependen del nivel de entrenamiento de la IA. La calidad de los resultados está directamente relacionada con la exhaustividad y representatividad de los conjuntos de datos utilizados para entrenar los modelos.
Privacidad y ética. El reconocimiento facial de individuos plantea serios problemas de privacidad. Su empleo para el control de personas puede vulnerar derechos fundamentales. La existencia de tecnologías como las máscaras ultrarrealistas diseñadas para engañar a los sistemas de reconocimiento facial —como las creadas por hackers para saltarse controles en fronteras y aeropuertos— evidencia la tensión entre las capacidades tecnológicas y los derechos ciudadanos. Sistemas de vigilancia como los desarrollados por empresas como Urme Surveillance ilustran el alcance de estas tecnologías y su potencial uso en contextos de control social.
Sesgos. La alimentación de la IA depende de la base de conocimiento fotográfica con la que se entrena. Los derechos sobre las imágenes, la exhaustividad en el entrenamiento de distintos contenidos, la transparencia algorítmica y el tratamiento de tendencias o enfoques ideológicos son cuestiones fundamentales que deben abordarse para evitar la perpetuación de sesgos.
Automatización y oportunidades. La sofisticación de estas tecnologías plantea riesgos para el empleo en el sector, en el contexto de la Cuarta Revolución Industrial y la evolución del trabajo del documentalista fotográfico. Sin embargo, también abre nuevas oportunidades: el desarrollo de tecnología propia, la creación de nuevos productos y servicios, la mayor capacidad de análisis y la adaptación científica y profesional a nuevos paradigmas.

La conferencia forma parte de las actividades del Seminario ConocimIA, un espacio dedicado al seguimiento y análisis de la inteligencia artificial en el ámbito de las Ciencias de la Documentación.

Materiales de la conferencia

Los materiales empleados en esta sesión están disponibles para su descarga en formato PDF. La presentación recoge las ideas, referencias y ejemplos prácticos desarrollados a lo largo de la conferencia, y puede servir como punto de partida para profundizar en los temas tratados o para su uso en contextos formativos, siempre con la debida atribución.

Blázquez-Ochando, M. (2024). FotonimIA: El análisis documental de la fotografía en tiempos de la Inteligencia Artificial. conocimia_mblazquez_2024-11-29_fotonimia-imagenes.pptx