Documentación de la IA: ¿Quién documenta lo que la IA docume

La integración de inteligencia artificial generativa en los procesos de producción, gestión y difusión del conocimiento ha modificado las prácticas documentales tradicionales. Los modelos de lenguaje de gran tamaño (LLM) generan textos, resúmenes bibliográficos y revisiones sistemáticas con alta eficiencia, pero sin rastreo explícito de la procedencia, el contexto o la veracidad de los contenidos producidos. Esta ausencia de trazabilidad epistémica plantea un desafío para la Ciencia de la Documentación: si la IA genera información documental, ¿Qué mecanismos registran su origen?

La adopción de la inteligencia artificial en la gestión del conocimiento implica transformaciones epistemológicas más allá de los aspectos técnicos. Zhang, Zuo y Yang (2025) identifican que el uso de IA generativa en entornos organizacionales amplifica sesgos de datos, genera sobrecarga informativa y fomenta dependencia tecnológica, problemas que no se resuelven con mejoras en interfaces o rendimiento algorítmico, sino mediante marcos de gobernanza del conocimiento que garanticen su autenticidad. Al Halbusi et al. (2025) señalan que la eficacia de los resultados generados por IA en innovación verde depende de la calidad de los datos de entrenamiento y de los mecanismos de validación contextual, lo que vincula directamente la utilidad del conocimiento con su genealogía documental.

La crisis de la trazabilidad en la generación algorítmica

Los modelos de IA funcionan como cajas negras: producen salidas coherentes sin revelar las fuentes, los procesos de inferencia ni los niveles de incertidumbre asociados. Esto contrasta con los principios fundamentales de la documentación científica, donde la cita, la referencia y la verificación son condiciones necesarias para la credibilidad. Los metadatos tradicionales —autor, fecha, fuente, tipo de recurso— no son suficientes para representar la complejidad de los contenidos generados por sistemas algorítmicos.

La revisión sistemática de Alavi y Leidner (2001) sobre gestión del conocimiento establece que la conversión del conocimiento implícito en explícito requiere mecanismos de codificación rigurosos. Cuando este proceso es automatizado mediante IA entrenada con datos no auditables —foros anónimos, textos con licencias ambiguas o colecciones sin metadatos—, la codificación se vuelve opaca. El modelo SECI de Nonaka, diseñado para explicar la creación de conocimiento en organizaciones humanas, pierde aplicabilidad cuando uno de los agentes —la IA— carece de intencionalidad y conciencia contextual, pero influye en la construcción del conocimiento compartido (Nonaka & Takeuchi, 1995; Zhang, Zuo & Yang, 2025).

Propuesta: el metadato de origen algorítmico (MOA)

Se propone la implementación de un metadato denominado Metadato de Origen Algorítmico (MOA), destinado a registrar, en cada fragmento generado por IA, tres componentes esenciales: el modelo utilizado, las fuentes de entrenamiento y el nivel de confianza asociado a la información producida. Este metadato no sustituye los sistemas de citación existentes, sino que los complementa en contextos donde la producción documental es automatizada.

Modelo identificado: Nombre y versión del modelo (por ejemplo, GPT-4o-2024-05-13, Llama-3-70b-Instruct, Claude-3.5-Sonnet), junto con el entorno de ejecución (API local, plataforma cloud, instancia personalizada).
Fuente de entrenamiento: Conjuntos de datos utilizados para su entrenamiento, identificados mediante URI persistentes (DOI, URL de repositorio) y fechas de corte. Ejemplo: Common Crawl 2023-47, arXiv 1990–2023, PubMed Central 2000–2024, Wikipedia es 2024-06-15.
Nivel de confianza: Valor cuantitativo o cualitativo que exprese la certeza del modelo en la veracidad de la información, derivado de métricas internas (probabilidad de predicción, entropía, consenso entre inferencias múltiples) o validación externa (evaluación por expertos, comparación con fuentes confiables).

El MOA puede integrarse en formatos estandarizados como Dublin Core, Schema.org o BIBFRAME, extendiendo elementos existentes con atributos específicos para entidades algorítmicas. En un registro bibliográfico generado por IA, el campo dc:creator podría referenciar un URI que describa el modelo; dc:source incluiría los corpora de entrenamiento; y dc:confidence expresaría un valor numérico entre 0.1 y 1.0, o una categoría cualitativa como “baja”, “media” o “alta”. Para ilustrar su aplicación práctica, a continuación se expone un ejemplo de cómo podría integrarse el MOA en la sintaxis de JSON-LD (comúnmente utilizada por Schema.org):

{

"@context": "https://schema.org/",

"@type": "ScholarlyArticle",

"name": "Resumen de Literatura Generado por IA",

"creator": {

"@type": "SoftwareApplication",

"name": "GPT-4o",

"softwareVersion": "2024-05-13"

"moa:algorithmicOrigin": {

"trainingSource": [

"https://doi.org/10.1016/j.techfore.2024.123897",

"PubMed Central 2000–2024"

"confidenceLevel": 0.88

}

Implicaciones para la gestión del conocimiento y la ética documental

La adopción del MOA redefine los roles en la cadena documental. El bibliotecario debe evaluar no solo la relevancia y calidad de los recursos, sino también la transparencia algorítmica de los contenidos generados por IA. Las bibliotecas digitales, repositorios institucionales y centros de investigación deben establecer políticas que exijan la inclusión del MOA en todos los materiales generados por inteligencia artificial, especialmente aquellos destinados a la docencia, la investigación o la toma de decisiones críticas.

La propuesta responde a la noción de conocimiento mutable y contextual planteada por McInerney (2002): si el conocimiento se transforma con nuevos datos, su origen debe ser documentado de forma dinámica. Un texto generado por IA puede cambiar su significado tras un reentrenamiento; el MOA permite rastrear esa evolución. En ámbitos como la salud pública o la educación superior —donde los errores tienen consecuencias reales—, la capacidad de auditar el origen algorítmico de un diagnóstico, una recomendación o un resumen bibliográfico es una exigencia técnica y ética.

La integración del MOA con sistemas de inteligencia explicativa (XAI) y herramientas de verificación automatizada —como detectores de contenido generado por IA que analizan patrones de entropía léxica o distribuciones de n-gramas— posibilita la construcción de ecosistemas documentales más resilientes. Estos sistemas pueden alertar cuando un fragmento proviene de fuentes no verificadas o cuando el nivel de confianza está por debajo del umbral aceptable para su uso académico.

La implementación del MOA podría impulsar la creación de registros públicos de modelos de IA, análogos a los registros de ensayos clínicos, donde se documenten no solo las arquitecturas, sino también los sesgos detectados, las limitaciones conocidas y los conjuntos de datos excluidos por razones éticas. Esta transparencia sistémica constituye un paso hacia la responsabilidad algorítmica en la producción del conocimiento, y su adopción escalable dependerá de la colaboración entre bibliotecarios, ingenieros de IA y formuladores de políticas científicas.

Bibliografía

Al Halbusi, H., Al-Sulaiti, K. I., Alalwan, A. A., & Al-Busaidi, A. S. (2025). AI capability and green innovation impact on sustainable performance: Moderating role of big data and knowledge management. Technological Forecasting and Social Change, 210, 123897. https://doi.org/10.1016/j.techfore.2024.123897
Alavi, M., & Leidner, D. E. (2001). Review: Knowledge management and knowledge management systems: Conceptual foundations and research issues. MIS Quarterly, 25(1), 107–136. https://doi.org/10.2307/3250961
McInerney, C. (2002). Knowledge management and the dynamic nature of knowledge. Journal of the American Society for Information Science and Technology, 53(12), 1009–1018. https://doi.org/10.1002/asi.10109
Nonaka, I., & Takeuchi, H. (1995). The knowledge-creating company: How Japanese companies create the dynamics of innovation. Oxford University Press.
Zhang, Q., Zuo, J., & Yang, S. (2025). Research on the impact of generative artificial intelligence (GenAI) on enterprise innovation performance: a knowledge management perspective. Journal of Knowledge Management. https://doi.org/10.1108/JKM-07-2025-0995