Manuel Blázquez Ochando

Profesor Titular de la Facultad de Ciencias de la Documentación

Dpto. de Biblioteconomía y Documentación. Universidad Complutense de Madrid


1. Introducción: La percepción mediática y el matiz necesario

El pasado 9 de abril de 2026, el diario ABC publicaba un artículo titulado "Las revistas académicas se llenan de «alucinaciones» de la IA: «Han citado trabajos míos que no existen»", firmado por Beatriz L. Echazarreta. La pieza periodística relata la experiencia del catedrático José Antonio Sanahuja, de la Universidad Complutense de Madrid, quien descubrió con perplejidad cómo un artículo publicado en una revista académica con sello de la Fundación Española para la Ciencia y la Tecnología (FECYT) contenía referencias a trabajos de su autoría que jamás habían sido escritos. El caso, que culminó con la retractación del artículo tras verificarse que veintiséis referencias bibliográficas no podían ser comprobadas, resulta paradigmático de un fenómeno emergente que ha encendido las alarmas en la comunidad académica internacional, y del que se viene debatiendo hace tiempo desde que aparecieron los primeros modelos GPT de dominio público en 2023.

Conviene comenzar este análisis reconociendo, que el artículo del ABC acierta al señalar un síntoma real y preocupante. Efectivamente, existe un segmento de investigadores que, carentes de la formación metodológica adecuada, delegan en sistemas de inteligencia artificial generativa —típicamente accesibles a través de interfaces conversacionales como ChatGPT— la elaboración de secciones completas de sus trabajos académicos, incluyendo la tan delicada tarea de construir el aparato bibliográfico. El resultado de esta praxis, como bien documenta el periódico, es la proliferación de lo que coloquialmente se ha denominado "alucinaciones": referencias bibliográficas verosímiles en su forma pero completamente ficticias en su contenido, que contaminan el ecosistema de la comunicación científica y erosionan la confianza en los mecanismos de validación del conocimiento.

Sin embargo, donde el análisis periodístico se detiene, en la anécdota —legítima y noticiable, por supuesto—, el análisis científico-documental debe necesariamente avanzar hacia la etiología del fenómeno y, más importante aún, hacia la caracterización rigurosa de las metodologías que permiten emplear estas mismas tecnologías de manera, no solo inocua, sino genuinamente productiva para el avance del conocimiento. La noticia del ABC, en su necesaria brevedad divulgativa, incurre en un reduccionismo que merece ser matizado: presenta la herramienta como inherentemente defectuosa, como un "destilador de invenciones que no sabe decir que no", en palabras del profesor Sanahuja recogidas por el medio, en lugar de focalizar la crítica en la ausencia de metodología documental que subyace a los casos de mal uso.

Mi propósito en las páginas que siguen no es, en modo alguno, emprender una cruzada contra un medio de comunicación que, al fin y al cabo, cumple con su función social de alertar sobre un problema emergente. Más bien, aspiro a complementar esa visión necesariamente superficial con una inmersión profunda en la realidad del trabajo científico con inteligencia artificial, una realidad que discurre por cauces metodológicos radicalmente distintos a los que la noticia —y, por extensión, la percepción pública— tiende a imaginar. La pregunta que articula este artículo no es si la IA alucina o no alucina —alucina, ciertamente, cuando se la emplea sin el debido control—, sino esta otra, bastante más sustantiva: ¿Cómo trabaja la inteligencia artificial cuando se le aplica la Ciencia?

Para responder a este interrogante, será preciso desplegar un recorrido que comienza por la anatomía misma del fenómeno alucinatorio, continúa con la exposición detallada de los fundamentos metodológicos que la Ciencia de la Documentación ha desarrollado para dominar la generación textual automatizada —desde los sistemas de generación aumentada por recuperación (RAG) hasta la orquestación de agentes múltiples, cada uno con su propio role prompting—, y culmina con una reflexión sobre el papel del investigador humano en este nuevo ecosistema tecnológico. El lector descubrirá, que entre la imagen mediática del usuario ante una caja negra conversacional y la realidad del laboratorio documental contemporáneo, media un abismo metodológico que conviene explorar con precisión quirúrgica.

2. Anatomía de la alucinación: Cómo la interfaz de usuario y la pregunta ingenua inducen el error

Antes de adentrarnos en los complejos entresijos de la metodología científica aplicada a la IA generativa, resulta imprescindible comprender con precisión el mecanismo que subyace al fenómeno que tan acertadamente describe el artículo del periódico ABC. Porque la alucinación —o, si se prefiere el término más técnicamente preciso acuñado por Ramón Salaverría en la misma pieza periodística, la fabulación— no constituye un fallo aleatorio de "inteligencia" por parte del modelo, sino la consecuencia lógica y hasta cierto punto predecible de un diseño de interacción inadecuado.

Para entenderlo, debemos despojarnos momentáneamente de la metáfora antropomórfica que tan malos servicios presta a la comprensión pública de estas tecnologías. Un modelo de lenguaje de gran escala (LLM, por sus siglas en inglés) como los que subyacen a ChatGPT, Claude o Gemini no "piensa", no "sabe" y, desde luego, no "recuerda" en el sentido humano de estos términos. Es, fundamentalmente, un sofisticadísimo sistema de predicción de secuencias de tokens —fragmentos de palabras— entrenado sobre cantidades ingentes de texto para maximizar la verosimilitud estadística de sus salidas. Dicho de otro modo: el modelo ha aprendido, a fuerza de procesar miles de millones de documentos, qué palabras tienden a aparecer juntas, qué estructuras sintácticas son probables en cada contexto y, crucialmente para nuestro caso, qué patrones textuales conforman una referencia bibliográfica.

Cuando un investigador —pongamos por caso, un doctorando presionado por los plazos de entrega— abre una interfaz conversacional y teclea un prompt del tenor siguiente: "Dame diez referencias bibliográficas clave sobre teorías de Relaciones Internacionales en el siglo XXI", está activando un mecanismo muy concreto. El modelo no accede a base de datos bibliográfica alguna, no consulta Scopus, Open Alex, Dialnet o Google Scholar. Lo que hace, simplemente, es poner en marcha su motor de predicción de tokens para generar una secuencia textual que, estadísticamente, se asemeje a lo que en su corpus de entrenamiento aparecía como respuesta a peticiones similares.

El resultado es una cadena de caracteres que parece una referencia académica: un nombre de autor plausible (combinación de nombre y apellido frecuente en la literatura del campo), seguido de un título que evoca vagamente la temática solicitada, seguido del nombre de una revista reconocible y un año de publicación coherente. El modelo ha tenido éxito en su tarea fundamental: ha producido un texto verosímil. El problema, naturalmente, es que la verosimilitud no equivale a la veracidad, y el sistema carece por completo de cualquier mecanismo que le permita discriminar entre ambas.

El artículo de ABC sobre el fenómeno de la “alucinación” en los modelos de IA, atribuye erróneamente a OpenAI una investigación que, en realidad, pertenece a Linardon (2025). La información difundida, proviene de una publicación en la revista Nature, la cual aborda el fenómeno, pero cita el estudio de Linardon como fuente principal. En dicho trabajo, Linardon emplea ChatGPT 4o de OpenAI para realizar una prueba sintética de generación de referencias, mostrando cómo los procedimientos estándar de entrenamiento y evaluación tienden a “premiar más la elaboración de una conjetura que el reconocimiento de la propia ignorancia”. En términos operativos, el modelo ha sido optimizado para ofrecer una respuesta —cualquiera— antes que admitir que no dispone de información. El silencio o la abstención no son opciones que el proceso de aprendizaje por refuerzo haya incentivado. De modo que, confrontado con una petición de referencias bibliográficas que excede sus capacidades factuales, el modelo opta por la única estrategia que su arquitectura le permite: generar una respuesta formalmente correcta, aunque materialmente falsa.

Es crucial subrayar aquí el error categórico en el que incurre el usuario medio que formula semejante prompt: está utilizando la IA como un buscador, no como un generador controlado. Está demandando del sistema una función —la recuperación precisa de información factual— para la que no ha sido diseñado ni entrenado (al menos no de momento, aunque todo es cuestión de tiempo). El modelo de lenguaje no indexa la web en tiempo real, no mantiene una base de conocimiento actualizada y verificada al minuto, no distingue entre fuentes autorizadas y contenidos espurios (más allá de la selección y acotación del entrenamiento y su sesgo de ingesta). Su dominio es el de la generación textual plausible, no el de la verdad proposicional.

Esta distinción es absolutamente medular para cuanto discurrirá en las siguientes líneas. Porque la metodología científica que desarrollaremos en los apartados subsiguientes no aspira a "corregir" una supuesta deficiencia del modelo —el modelo hace exactamente aquello para lo que fue concebido—, sino a reconfigurar completamente el contexto operativo en el que dicho modelo es desplegado. No se trata de pedirle al sistema que deje de alucinar, sino de construir un andamiaje metodológico que haga la alucinación estructuralmente imposible.

3. El verdadero uso científico (I): La construcción del corpus RAG

3.1. De la web abierta al repositorio de fragmentos validados

Llegamos así al punto de inflexión que separa nítidamente la praxis negligente que tan justificadamente denuncia el ABC de la metodología rigurosa que caracteriza el trabajo en los laboratorios de Ciencia de la Documentación aplicada a la IA generativa. Y el primer pilar sobre el que se asienta esta metodología no es otro que el sistema de Generación Aumentada por RecuperaciónRetrieval-Augmented Generation o RAG, por su acrónimo en inglés—.

El principio que subyace al RAG es conceptualmente sencillo, aunque su implementación técnica revista una complejidad considerable. Se trata, en esencia, de invertir el flujo informacional que caracteriza a la consulta ingenua que describíamos en el apartado anterior. En lugar de permitir que el modelo de lenguaje beba de su vasto, heterogéneo y no verificado corpus de entrenamiento —con toda la carga de imprecisiones, sesgos y obsolescencias que ello comporta—, el sistema RAG restringe deliberadamente el espacio de búsqueda a un repositorio documental curado, validado y controlado por el propio investigador. Conviene detenernos en cada una de las fases que conforman este proceso, porque en ellas reside la diferencia cualitativa que separa el uso instrumental ocasional de la aplicación científica genuina.

3.1.1. Selección previa del investigador: La construcción del corpus especializado

El proceso comienza con una decisión metodológica de primer orden que compete exclusivamente al investigador humano: la selección del corpus documental que servirá como base de conocimiento para el Gemelo Digital. Lejos de la imagen del usuario que formula una pregunta abierta a la inmensidad de Internet, el científico documentalista ejerce aquí una función de curaduría de máxima responsabilidad.

En la práctica, esta fase implica la recopilación sistemática de un conjunto de documentos académicos —típicamente en formato PDF— que el investigador juzga relevantes para el dominio específico en el que se enmarca su trabajo. El volumen de este corpus puede oscilar entre un centenar y varios millares de documentos, dependiendo de la amplitud del campo y de los objetivos de la investigación. Lo crucial no es la cantidad, sino la calidad verificada de las fuentes seleccionadas.

Estos documentos proceden invariablemente de bases de datos académicas de referencia y que por ende, han superado los filtros de calidad que estas plataformas imponen. Con frecuencia, el corpus incluye también la producción previa del propio investigador y de su grupo de trabajo, garantizando así la continuidad epistemológica con las líneas de investigación consolidadas.

El punto esencial que debe quedar meridianamente claro es el siguiente: el científico no pregunta al modelo de IA sobre el mundo; pregunta sobre un subconjunto del mundo que él mismo ha delimitado y validado previamente. Esta operación de clausura del dominio de conocimiento constituye la primera y más fundamental línea de defensa contra la alucinación bibliográfica. Si el sistema solo puede "ver" aquello que el investigador ha introducido en su base de conocimiento, es estructuralmente imposible que genere una referencia a un artículo inexistente, sencillamente porque ese artículo no figura en el espacio informacional al que el sistema tiene acceso.

3.1.2. Chunking y vectorización: La transformación del documento en vectores matemáticos

Una vez recopilado el corpus documental, comienza la fase de procesamiento técnico que hará posible la recuperación semántica de información. Los documentos en PDF, con toda su riqueza tipográfica y estructural, no son directamente legibles por los mecanismos de atención de un modelo de lenguaje LLM (Large Language Model) de una IA. Es preciso someterlos a un doble proceso de transformación: el chunking o troceado, y la vectorización o embedding.

El chunking consiste en segmentar cada documento en fragmentos textuales de tamaño manejable —típicamente entre 500 y 1.500 tokens, dependiendo de la configuración del sistema— preservando en la medida de lo posible las unidades semánticas naturales (párrafos, subsecciones). Esta operación no es meramente mecánica: una segmentación inadecuada puede romper la coherencia argumental y dificultar la recuperación precisa de información. Por ello, los sistemas más avanzados emplean algoritmos de chunking semántico que respetan las fronteras naturales del discurso académico.

Cada uno de estos fragmentos —o chunks— es a continuación sometido a un proceso de embedding o vectorización. Mediante un modelo especializado —distinto del modelo generativo principal—, cada fragmento textual es convertido en una representación matemática: un vector de alta dimensionalidad (típicamente 768, 1.024 o 1.536 dimensiones) que codifica su contenido semántico. La propiedad fundamental de estos vectores es que su proximidad en el espacio vectorial se corresponde con la similitud semántica de los textos que representan. Fragmentos que versan sobre temas análogos, aunque empleen vocabulario distinto, ocuparán posiciones cercanas en este espacio matemático.

Estos vectores, junto con los metadatos asociados a cada fragmento (documento de origen, posición en el texto, autores, año de publicación, DOI), son almacenados en una base de datos vectorial especializada, optimizada para realizar búsquedas de similitud a gran velocidad. Es esta base de datos, y no el modelo generativo, la que asume la responsabilidad de la recuperación de información factual.

3.1.3. La recuperación semántica: Cómo el Gemelo Digital accede al conocimiento

Cuando el investigador formula una consulta a su Gemelo Digital, el sistema no la envía directamente al modelo de lenguaje. En su lugar, se activa una secuencia de operaciones perfectamente definida:

  1. La consulta del usuario es vectorizada utilizando el mismo modelo de embedding que se empleó para procesar el corpus documental.
  2. El vector resultante es comparado con los millones de vectores almacenados en la base de datos vectorial, identificando aquellos fragmentos (chunks) cuya representación matemática presenta mayor similitud semántica con la pregunta formulada.
  3. El sistema recupera los N fragmentos más relevantes —habitualmente entre cinco y veinte, en función de la configuración— y los inyecta, junto con sus metadatos, en el prompt que finalmente se enviará al modelo generativo.

Es únicamente en este momento cuando el modelo de lenguaje entra en acción. Su tarea no es ya imaginar una respuesta plausible basada en patrones estadísticos aprendidos durante el entrenamiento, sino sintetizar, resumir, reformular o expandir el contenido de los fragmentos recuperados. El modelo opera ahora como un sofisticado redactor que trabaja sobre fuentes explícitamente proporcionadas, no como un oráculo que extrae conocimiento de su inescrutable memoria paramétrica. Las implicaciones de este rediseño del flujo de trabajo son profundas y merecen ser subrayadas con total claridad:

  1. Imposibilidad estructural de la alucinación bibliográfica: El sistema solo puede citar aquello que figura en el corpus documental cargado por el investigador. No hay espacio para la invención de referencias inexistentes, sencillamente porque el modelo no está generando referencias ex nihilo, sino reproduciendo —con el formato adecuado— los metadatos asociados a los fragmentos recuperados.
  2. Trazabilidad absoluta: Cada afirmación generada por el sistema puede ser remitida a su chunk de origen y, a través de él, al documento académico que le sirve de fuente. El investigador mantiene en todo momento el control sobre la genealogía del conocimiento producido.
  3. Actualización dinámica: El corpus documental puede ser enriquecido en cualquier momento con nuevas publicaciones, garantizando que el sistema trabaje siempre con el estado del arte más reciente, sin necesidad de costosos procesos de reentrenamiento del modelo.

En suma, la metodología RAG opera una transformación radical del estatuto epistémico de la IA generativa. De ser un generador de texto verosímil pero potencialmente ficticio, el sistema deviene una herramienta de asistencia a la investigación basada en evidencias documentales verificables. El contraste con la praxis descrita en el artículo del ABC no podría ser más acusado.

4. El verdadero uso científico (II): El Comité de Expertos como agentes de IA orquestados en un pipeline complejo

4.1. Más allá del usuario solitario: La orquestación de agentes múltiples

Si el sistema RAG constituye el cimiento sobre el que se edifica el uso científico de la IA generativa, el segundo pilar metodológico atañe a la forma en que el modelo de lenguaje es convocado para realizar su tarea. También aquí la práctica rigurosa se distancia abismalmente de la imagen —tan extendida como errónea— del usuario que, en solitario, teclea preguntas en una interfaz conversacional y acepta acríticamente las respuestas obtenidas.

En el laboratorio de Ciencia de la Documentación aplicada a la IA, el modelo de lenguaje no es tratado como un interlocutor unitario, sino como una plataforma sobre la que se despliegan múltiples agentes especializados, cada uno de ellos configurado mediante role prompting para desempeñar una función específica dentro de un pipeline orquestado de producción textual.

Conviene precisar aquí el concepto de agente, pues su comprensión cabal es requisito para apreciar la sofisticación del enfoque. Un agente de IA, en el contexto que nos ocupa, no es una persona virtual ni una simulación antropomórfica. Es, más prosaicamente, una instancia del modelo de lenguaje a la que se le ha asignado, mediante un prompt de sistema cuidadosamente diseñado, un rol funcional concreto, un conjunto de instrucciones operativas y, en muchos casos, un subconjunto específico del corpus documental sobre el que trabajar.

La diferencia entre interrogar a un modelo "desnudo" y desplegar un comité de agentes orquestados es análoga a la diferencia entre pedirle a un estudiante de primer curso que redacte una tesis doctoral y someter el mismo texto a un tribunal compuesto por especialistas en metodología, redacción académica, revisión bibliográfica y edición. En el primer caso, el resultado será inevitablemente limitado por las capacidades —y los sesgos— del único agente implicado. En el segundo, la interacción estructurada de múltiples perspectivas críticas eleva sustancialmente la calidad del producto final.

4.2. El pipeline orquestado: Secuencia de agentes y funciones

Describiré a continuación la secuencia típica de agentes que conforma un pipeline de producción académica asistida por IA en el contexto de la investigación documental. El lector advertirá que cada agente asume una responsabilidad acotada y que el producto del trabajo de cada fase constituye el insumo de la fase subsiguiente.

4.2.1. Agente "Ideador": Generación de hipótesis y esquemas argumentales

La primera fase del pipeline corresponde al Agente "Ideador", una instancia del modelo configurada mediante role prompting con instrucciones del siguiente tenor:

"Eres un especialista en generación de hipótesis de investigación en el campo de [dominio específico]. Tu tarea consiste en proponer [N] líneas argumentales originales, fundamentadas en el estado de la cuestión reflejado en el corpus documental proporcionado. Debes identificar lagunas en la literatura existente, conexiones no exploradas entre tradiciones teóricas y oportunidades de avance conceptual. Presenta cada propuesta en forma de esquema jerárquico con tesis principal y argumentos subsidiarios."

El Agente Ideador opera exclusivamente sobre el corpus RAG previamente cargado por el investigador. Su función no es inventar hipótesis en el vacío, sino detectar patrones, tensiones y oportunidades en el cuerpo de literatura seleccionado. Para ello, el sistema lanza múltiples consultas en paralelo al agente, variando ligeramente los parámetros de temperatura —que controlan el grado de "creatividad" o variabilidad de las respuestas— para obtener un abanico diverso de propuestas. El resultado de esta fase es un conjunto de N esquemas argumentales —habitualmente entre diez y treinta— que serán sometidos a evaluación en fases posteriores del pipeline.

4.2.2. Agente Redactor: Desarrollo textual iterativo sobre el corpus RAG

Una vez seleccionado el esquema argumental que se desarrollará —selección que puede ser realizada por el investigador humano o, en configuraciones más avanzadas, por un meta-agente evaluador—, entra en acción el Agente Redactor. La configuración mediante role prompting de este agente es particularmente meticulosa, veamos un ejemplo sencillo:

"Eres un redactor académico especializado en [dominio específico] con amplia experiencia en la publicación en revistas de alto impacto [Admite especificar revista]. Tu tarea consiste en desarrollar textualmente el esquema argumental proporcionado, ciñéndote rigurosamente a las fuentes contenidas en el corpus RAG proporcionado. Debes emplear un estilo académico formal, preciso y riguroso. Cada afirmación sustantiva debe estar respaldada por la referencia explícita al documento del corpus que la sustenta. No debes introducir información que no figure en los fragmentos recuperados del RAG."

El trabajo del Agente Redactor no es, ni mucho menos, una operación única. El pipeline está diseñado para ejecutar N iteraciones de mejora progresiva. En cada iteración, el texto generado es reinyectado en el modelo junto con instrucciones de refinamiento que pueden incluir:

  1. Mejora de la cohesión entre párrafos.
  2. Enriquecimiento de la densidad argumental.
  3. Precisión terminológica.
  4. Adecuación al estilo de la revista objetivo.
  5. Verificación de la correspondencia entre afirmaciones y fuentes citadas.

Este proceso iterativo puede extenderse durante decenas de ciclos, supervisados automáticamente por el sistema de orquestación, que monitoriza la evolución de métricas de calidad para determinar cuándo se ha alcanzado un umbral satisfactorio de mejora marginal.

4.2.3. Agente Revisor: Evaluación según estándares de revistas Q1

El texto resultante de la fase de redacción iterativa no es aún considerado un producto final. Debe ser sometido al escrutinio de un Agente Revisor, configurado para emular los criterios de evaluación que aplican los revisores de las revistas científicas de primer cuartil (Q1) en el campo correspondiente. La configuración del role prompting para este agente incorpora explícitamente los formularios de evaluación que revistas como Nature, Science o Scientometrics ponen a disposición de sus revisores:

"Eres un revisor anónimo de [revista Q1 específica]. Debes evaluar el manuscrito proporcionado aplicando los siguientes criterios en una escala de 1 a 10: (a) Originalidad y novedad de la contribución; (b) Solidez metodológica; (c) Adecuación y actualidad de la bibliografía; (d) Claridad expositiva y estructura argumental; (e) Relevancia para el campo. Para cada criterio, debes proporcionar una justificación detallada y, en su caso, sugerencias concretas de mejora."

El Agente Revisor no emite un juicio binario (aprobado/suspendido), sino una evaluación ponderada que se integra en el sistema de ranking automático que describiremos en el apartado siguiente. Además, el agente genera un informe detallado de debilidades y fortalezas que es reintroducido en el pipeline para una nueva ronda de iteraciones correctivas por parte del Agente Redactor. Este ciclo de redacción-evaluación-corrección puede repetirse múltiples veces hasta que las métricas de calidad superan los umbrales preestablecidos por el investigador.

4.2.4. Agente Citador: Extracción de referencias desde los fragmentos RAG

Una de las funciones más críticas —y aquella cuyo mal uso da lugar precisamente a los casos denunciados en el artículo del ABC— es la gestión del aparato bibliográfico. Para esta tarea, el pipeline incorpora un Agente Citador específicamente diseñado. Su configuración es particularmente restrictiva:

*"Eres un especialista en gestión de referencias bibliográficas. Tu tarea consiste en: (1) Identificar todas las afirmaciones del texto que requieren respaldo bibliográfico. (2) Para cada una de ellas, recuperar del corpus RAG el documento fuente del que procede la información. (3) Generar una cita en el formato especificado [APA 7ª edición / Chicago / Vancouver / IEEE] utilizando exclusivamente los metadatos contenidos en el fragmento RAG. (4) Compilar la lista de referencias final, eliminando duplicados y verificando la consistencia formal."*

Es fundamental advertir que el Agente Citador no genera referencias nuevas, sino que extrae y formatea los metadatos de los fragmentos RAG que han sido utilizados como fuente en la fase de redacción. La trazabilidad es absoluta: cada cita en el texto puede ser vinculada inequívocamente al chunk del corpus del que procede y, a través de él, al documento académico original.

4.2.5. Agente Validador de Citas: Verificación cruzada y control de calidad

El pipeline incorpora, finalmente, un Agente Validador de Citas que actúa como instancia de control de calidad específica para el aparato bibliográfico. Su función es verificar, mediante cruce sistemático, que todas las citas que aparecen en el texto se corresponden efectivamente con documentos existentes en el corpus RAG y que los metadatos son completos y correctos.

La configuración de este agente incluye instrucciones del siguiente tipo:

"Debes verificar, una por una, todas las referencias bibliográficas del manuscrito. Para cada cita en el texto: (a) Localiza el fragmento RAG que le sirve de fuente. (b) Comprueba que los metadatos (autor, año, título, publicación) coinciden exactamente. (c) Verifica que el DOI o identificador equivalente es correcto y resuelve a la fuente original. (d) Genera un informe de discrepancias si las hubiere. En caso de detectar alguna referencia que no pueda ser trazada al corpus RAG, debes marcarla como 'NO VERIFICADA' para revisión humana."

Este agente constituye la última barrera automática contra la alucinación bibliográfica. Si por algún error en fases anteriores del pipeline se hubiera deslizado una referencia imprecisa o ficticia, el Agente Validador la detectará y la señalará para intervención humana.

4.3. La orquestación como clave del rigor metodológico

La descripción pormenorizada de los agentes que integran el pipeline no debe oscurecer un aspecto fundamental: el valor del sistema no reside tanto en cada agente individual como en la orquestación estructurada de sus interacciones. Es la secuencia ordenada de generación, evaluación, corrección y validación lo que garantiza la calidad del producto final.

En la práctica, esta orquestación se implementa mediante frameworks especializados —LangChain, LlamaIndex, Semantic Kernel o desarrollos propios— que gestionan el flujo de información entre agentes, la persistencia de los estados intermedios, el registro de métricas de calidad y la trazabilidad completa del proceso.

El resultado es un sistema complejo, ciertamente, pero también transparente y auditable. Cada decisión, cada transformación del texto, cada referencia bibliográfica puede ser rastreada hasta su origen. Nada queda librado a la opacidad de una caja negra inescrutable.

5. El pipeline de generación y evaluación ponderada: Ranking automático

5.1. Más allá de la generación única: El paradigma de la selección entre múltiples candidatos

Un principio fundamental aplicado a la IA generativa establece que no se genera un texto; se generan múltiples textos y se selecciona el óptimo mediante criterios objetivos. Este principio, que puede parecer contraintuitivo para quien está acostumbrado al paradigma de la redacción humana —donde la reescritura es costosa y se tiende a trabajar sobre un único borrador—, constituye uno de los pilares de la metodología científica en este ámbito. La lógica subyacente es diáfana: dado que el coste computacional de generar múltiples versiones de un texto es "relativamente bajo", y dado que pequeñas variaciones en los parámetros de generación (temperatura, top-p, prompt de sistema) pueden producir resultados significativamente distintos, resulta metodológicamente óptimo explorar el espacio de posibles textos y aplicar posteriormente criterios de selección rigurosos.

5.2. Generación en paralelo con variación controlada de parámetros

El pipeline está configurado para lanzar, en cada fase susceptible de variación, múltiples procesos de generación en paralelo. Estos procesos pueden diferir en varios aspectos:

  1. Temperatura del modelo: Valores más bajos (0.1-0.3) producen textos más deterministas y conservadores; valores más altos (0.7-1.0) favorecen la variabilidad y la creatividad léxica.
  2. Configuración del prompt de sistema: Ligeras variaciones en el role prompting pueden enfatizar diferentes aspectos (rigor metodológico versus originalidad conceptual, por ejemplo).
  3. Selección de fragmentos RAG: Pequeñas variaciones en el algoritmo de recuperación semántica pueden devolver conjuntos de chunks ligeramente diferentes, introduciendo matices en la fundamentación documental.

Para cada fase del pipeline —ideación, redacción inicial, refinamiento iterativo— el sistema genera típicamente entre cinco y veinte versiones candidatas. Estas versiones son almacenadas junto con los metadatos de su proceso de generación (parámetros utilizados, fragmentos RAG recuperados, tiempo de procesamiento) para su posterior evaluación.

5.3. Ponderación mediante rúbrica: La evaluación objetiva de la calidad textual y de contenido

El Comité de Expertos —los agentes de IA descritos en el apartado anterior— no se limita a emitir juicios cualitativos, basados en sus impresiones o pareceres. Cada agente aplica una rúbrica de evaluación predefinida que descompone la calidad del texto en dimensiones mensurables y asigna puntuaciones numéricas en números enteros e incluso decimales, pero siempre usando escalas estandarizadas. Una rúbrica típica para la evaluación de un artículo académico podría incluir las siguientes dimensiones, véase la tabla 1.


DIMENSIÓN / SUBDIMENSIÓN

DESCRIPCIÓN OPERATIVA E INDICADORES MEDIBLES

ESCALA / PONDERACIÓN / AGENTE EVALUADOR

DIMENSIÓN 1: FIDELIDAD DOCUMENTAL (Ponderación total: 35%)

Alcance general: Grado en que el contenido generado se ajusta fielmente a la información contenida en los fragmentos RAG recuperados, sin introducir información no respaldada por el corpus.

Evaluación agregada de las tres subdimensiones Agentes: Validador de Citas + Revisor Q1 + Ideador + Orquestación

1.1. Correspondencia fuente-texto

Descripción: Grado en que el contenido generado se ajusta fielmente a la información contenida en los fragmentos RAG recuperados.Indicadores: Porcentaje de afirmaciones trazables a un chunk específico; ausencia de información no respaldada por el corpus.

Escala: 0-10Ponderación: 20%Agente: Validador de Citas + Revisor Q1

1.2. Precisión en la paráfrasis

Descripción: Exactitud con la que se reformula el contenido original sin introducir distorsiones semánticas.Indicadores: Índice de similitud semántica controlada (no literal, pero no divergente).

Escala: 0-10Ponderación: 10%Agente: Revisor (estándar Q1)

1.3. Cobertura del corpus

Descripción: Proporción del corpus RAG relevante que ha sido efectivamente movilizada en la generación del texto. Indicadores: Número de documentos fuente citados / Total de documentos pertinentes en el corpus.

Escala: 0-10Ponderación: 5%Agente: Ideador + Orquestación

DIMENSIÓN 2: RIGOR METODOLÓGICO(Ponderación total: 25%)

Alcance general: Solidez lógica de las inferencias y conclusiones, coherencia con el diseño de investigación declarado y tratamiento adecuado de perspectivas alternativas.

Evaluación agregada de las tres subdimensiones Agentes: Revisor especialista metodológico + Revisor Q1

2.1. Adecuación al diseño de investigación

Descripción: Coherencia entre el texto generado y el diseño metodológico declarado (cualitativo, cuantitativo, mixto, teórico).Indicadores: Presencia explícita de declaración metodológica; consistencia interna del enfoque.

Escala: 0-10Ponderación: 10%Agente: Revisor (especialista metodológico)

2.2. Validez de los argumentos

Descripción: Solidez lógica de las inferencias y conclusiones presentadas. Indicadores: Ausencia de falacias lógicas detectables; estructura argumental explícita.

Escala: 0-10Ponderación: 10%Agente: Revisor (estándar Q1)

2.3. Tratamiento de contraargumentos

Descripción: Inclusión y refutación razonada de perspectivas alternativas presentes en el corpus RAG. Indicadores: Número de contraargumentos identificados y abordados / Total de perspectivas divergentes en el corpus.

Escala: 0-10Ponderación: 5%Agente: Revisor (estándar Q1)

DIMENSIÓN 3: CALIDAD DEL APARATO BIBLIOGRÁFICO (Ponderación total: 25%)

Alcance general: Trazabilidad inequívoca de cada cita al corpus RAG, corrección formal del formato requerido y pertinencia de las fuentes movilizadas.

Evaluación agregada de las tres subdimensiones Agentes: Citador + Validador de Citas + Revisor + RAG

3.1. Trazabilidad de las citas

Descripción: Capacidad de vincular inequívocamente cada cita con un documento del corpus RAG y, a través de él, con la fuente original. Indicadores: Porcentaje de citas con trazabilidad verificada (DOI, handle o ruta al chunk de origen).

Escala: 0-10Ponderación: 15%Agente: Citador + Validador de Citas

3.2. Corrección formal de las referencias

Descripción: Adecuación estricta al estilo de citación requerido (APA 7ª, Chicago, Vancouver, IEEE).Indicadores: Porcentaje de referencias que superan validación automática de formato.

Escala: 0-10Ponderación: 5%Agente: Citador

3.3. Pertinencia de las fuentes citadas

Descripción: Relevancia y autoridad de los documentos del corpus movilizados para respaldar cada afirmación. Indicadores: Índice de impacto promedio de las fuentes citadas (según métricas del corpus); adecuación temática verificada.

Escala: 0-10Ponderación: 5%Agente: Revisor + Sistema RAG

DIMENSIÓN 4: COHERENCIA Y ESTRUCTURA ARGUMENTAL(Ponderación total: 13%)

Alcance general: Claridad de la tesis principal, progresión lógica del discurso con transiciones explícitas y equilibrio proporcional entre secciones.

Evaluación agregada de las tres subdimensiones Agentes: Redactor + Revisor Q1 + Orquestación

4.1. Claridad de la tesis principal

Descripción: Presencia de una declaración de tesis explícita, reconocible y adecuadamente posicionada en la estructura del texto. Indicadores: Identificación automática de la tesis; posición normalizada en la estructura IMRyD o equivalente.

Escala: 0-10Ponderación: 5%Agente: Redactor (iteración final) + Revisor

4.2. Progresión lógica del discurso

Descripción: Secuenciación adecuada de ideas, con transiciones explícitas y jerarquía argumental clara. Indicadores: Índice de cohesión textual (medido mediante análisis de conectores y referencias anafóricas).

Escala: 0-10Ponderación: 5%Agente: Revisor (estándar Q1)

4.3. Equilibrio estructural

Descripción: Proporcionalidad adecuada entre las secciones del texto (introducción, desarrollo, conclusiones).Indicadores: Desviación respecto a ratios estructurales de referencia para el tipo de documento y campo disciplinar.

Escala: 0-10Ponderación: 3%Agente: Redactor + Orquestación

DIMENSIÓN 5: ORIGINALIDAD Y NOVEDAD (Ponderación total: 20%)

Alcance general: Capacidad para identificar lagunas en la literatura, proponer aportaciones conceptuales no presentes en el corpus y establecer conexiones no obvias entre documentos.

Evaluación agregada de las tres subdimensiones Agentes: Ideador + Revisor + Sistema RAG

5.1. Identificación de lagunas en la literatura

Descripción: Capacidad del texto para señalar explícitamente vacíos de conocimiento en el corpus RAG analizado. Indicadores: Número de lagunas identificadas y justificadas; contraste con el estado de la cuestión documentado.

Escala: 0-10Ponderación: 8%Agente: Ideador + Revisor

5.2. Aportación conceptual

Descripción: Grado en que el texto propone constructos, tipologías, modelos o hipótesis no presentes explícitamente en el corpus. Indicadores: Novedad léxica controlada; distancia semántica respecto a los fragmentos RAG (medida con umbrales de creatividad).

Escala: 0-10Ponderación: 7%Agente: Ideador + Revisor

5.3. Síntesis integradora

Descripción: Capacidad para establecer conexiones no obvias entre documentos o tradiciones del corpus RAG. Indicadores: Número de conexiones inter-documentales explícitas; densidad de citas cruzadas entre fuentes dispares.

Escala: 0-10Ponderación: 5%Agente: Ideador + Sistema RAG

DIMENSIÓN 6: CALIDAD EXPOSITIVA Y ESTILO ACADÉMICO (Ponderación total: 11%)

Alcance general: Precisión terminológica, legibilidad académica y adecuación a las convenciones retóricas del género discursivo específico.

Evaluación agregada de las tres subdimensiones Agentes: Redactor + Revisor Q1

6.1. Precisión terminológica

Descripción: Uso correcto y consistente del vocabulario especializado del campo disciplinar. Indicadores: Índice de consistencia terminológica; adecuación al tesauro del dominio.

Escala: 0-10Ponderación: 5%Agente: Redactor + Revisor

6.2. Legibilidad académica

Descripción: Fluidez del discurso sin menoscabo del rigor conceptual. Indicadores: Índice de legibilidad adaptado a textos académicos (ej. Flesch-Szigriszt modificado).

Escala: 0-10Ponderación: 3%Agente: Redactor (iteraciones de refinamiento)

6.3. Adecuación al género discursivo

Descripción: Conformidad con las convenciones retóricas del género académico específico (artículo, revisión, ensayo teórico).Indicadores: Presencia de movimientos retóricos canónicos del género (CARS u otros modelos).

Escala: 0-10Ponderación: 3%Agente: Revisor (estándar Q1)

DIMENSIÓN 7: ROBUSTEZ FRENTE A SESGOS (Ponderación total: 11%)

Alcance general: Detección de sesgos de confirmación, neutralidad valorativa del tono académico y representatividad del corpus empleado.

Evaluación agregada de las tres subdimensiones Agentes: Validador anti-sesgo + Revisor + Investigador humano

7.1. Detección de sesgos de confirmación

Descripción: Verificación de que el texto no ignora selectivamente evidencia contraria presente en el corpus RAG. Indicadores: Proporción de fragmentos RAG que contradicen la tesis y han sido abordados en el texto.

Escala: 0-10Ponderación: 5%Agente: Validador (configuración anti-sesgo)

7.2. Neutralidad valorativa

Descripción: Adecuación del tono a los estándares de objetividad académica, evitando hipérboles o juicios no fundamentados. Indicadores: Análisis de sentimiento y detección de lenguaje valorativo no justificado.

Escala: 0-10Ponderación: 3%Agente: Revisor + Herramientas de análisis lingüístico

7.3. Representatividad del corpus

Descripción: Verificación de que el corpus RAG empleado no introduce sesgos de selección que distorsionen las conclusiones. Indicadores: Diversidad de fuentes (autores, tradiciones teóricas, años de publicación) en los fragmentos efectivamente utilizados.

Escala: 0-10Ponderación: 3%Agente: Investigador humano + Orquestación

DIMENSIÓN 8: TRAZABILIDAD Y REPRODUCIBILIDAD (Ponderación total: 10%)

Alcance general: Documentación automática de todas las fases del pipeline, capacidad de regenerar resultados equivalentes y auditabilidad del proceso.

Evaluación agregada de las tres subdimensiones Agentes: Orquestación + Investigador humano

8.1. Registro del pipeline de generación

Descripción: Documentación automática de todas las fases del proceso: prompts empleados, parámetros de temperatura, iteraciones realizadas. Indicadores: Completitud del log de ejecución; presencia de todos los metadatos requeridos.

Escala: 0-10Ponderación: 5%Agente: Orquestación (automático)

8.2. Reproducibilidad del resultado

Descripción: Capacidad de regenerar un texto sustancialmente equivalente a partir del mismo corpus y configuración. Indicadores: Índice de similitud entre ejecuciones independientes con parámetros idénticos.

Escala: 0-10Ponderación: 3%Agente: Orquestación (pruebas de replicación)

8.3. Auditabilidad del proceso

Descripción: Disponibilidad de la información necesaria para que un tercero pueda verificar la metodología empleada. Indicadores: Presencia de declaración metodológica explícita; acceso al registro del pipeline (con restricciones éticas).

Escala: 0-10Ponderación: 2%Agente: Investigador humano (declaración de transparencia)

RESUMEN DE PONDERACIONES

Dimensión 1: Fidelidad documental (35%) + Dimensión 2: Rigor metodológico (25%) + Dimensión 3: Calidad del aparato bibliográfico (25%) + Dimensión 4: Coherencia y estructura argumental (13%) + Dimensión 5: Originalidad y novedad (20%) + Dimensión 6: Calidad expositiva y estilo académico (11%) + Dimensión 7: Robustez frente a sesgos (11%) + Dimensión 8: Trazabilidad y reproducibilidad (10%)

PUNTUACIÓN GLOBAL MÁXIMA: 150 puntos Normalización: División por 15 para obtener escala 0-10

Tabla 1. Ejemplo de las dimensiones de calidad textual y de contenido que pueden evaluarse

Cada versión candidata es evaluada por múltiples agentes (típicamente, los Agentes Revisores configurados con distintos estándares editoriales), y las puntuaciones son agregadas mediante una media ponderada que refleja la importancia relativa de cada dimensión para el objetivo concreto del proyecto.

5.4. El ranking automático como herramienta de decisión

El resultado de este proceso de evaluación múltiple es un ranking ponderado de las versiones candidatas, que el sistema presenta al investigador humano en forma de informe estructurado. Este informe podría incluir, entre otros aspectos:

  1. La puntuación global de cada versión en la escala 0-10.
  2. El desglose detallado por dimensiones, permitiendo identificar fortalezas y debilidades específicas.
  3. Una síntesis de los comentarios cualitativos generados por los agentes evaluadores.
  4. Una recomendación automática sobre cuál es la versión óptima, acompañada de un nivel de confianza estadístico.

Es en este punto donde se manifiesta con mayor claridad la transformación del papel del investigador. El científico no corrige un borrador mediocre; elige entre varios borradores de alta calidad generados automáticamente. Su tarea ya no es la tediosa corrección de errores formales o la lucha con problemas de expresión, sino el ejercicio del juicio experto para seleccionar la versión que mejor se alinea con su visión de la contribución científica.

6. La supervisión humana como filtro último e imprescindible

6.1. Del "copia y pega" a la "aprobación informada"

Llegados a este punto, alguien podría preguntarse si la sofisticación del pipeline descrito no convierte al investigador humano en un mero espectador de un proceso automatizado. Nada más lejos de la realidad. La complejidad del sistema de agentes y evaluaciones automáticas no disminuye la responsabilidad del científico; la reconfigura y, en cierto sentido, la eleva.

Debe quedar meridianamente claro: el pipeline orquestado no produce artículos listos para su publicación sin intervención humana (aunque poco queda para lograrlo a mi modo ver, y en base a lo que estoy pudiendo comprobar en el laboratorio). Produce candidatos de alta calidad que requieren la validación final de un experto. La metáfora adecuada no es la del piloto automático que sustituye al comandante de la aeronave, sino la del sofisticado sistema de asistencia que permite al piloto concentrarse en las decisiones estratégicas mientras la máquina gestiona las operaciones rutinarias.

6.2. El cuello de botella de calidad: Lectura crítica y validación experta

El pipeline está diseñado para que el flujo de producción converja en un cuello de botella deliberado: el momento en que el investigador humano se enfrenta al texto candidato y ejerce su juicio experto. Esta fase no es un trámite burocrático; es el punto crítico donde la inteligencia artificial cede el testigo a la inteligencia humana.

Las tareas que competen al investigador en esta fase incluyen:

  1. Lectura comprensiva del texto candidato: No se trata de una lectura superficial. El científico debe verificar que el argumento desplegado es sólido, que las conexiones conceptuales son pertinentes y que la contribución propuesta es genuinamente novedosa en el contexto del campo.
  2. Verificación de la lógica interna: El investigador debe asegurarse de que el texto no contiene contradicciones, saltos lógicos injustificados o simplificaciones excesivas que, aunque formalmente correctas, traicionen la complejidad del fenómeno estudiado.
  3. Contraste con el conocimiento tácito: Hay dimensiones del conocimiento científico que no están —ni pueden estar— recogidas en el corpus documental. El investigador aporta su familiaridad con debates informales, matices terminológicos no explicitados en la literatura y tendencias emergentes aún no consolidadas en publicaciones formales.
  4. Validación ética y deontológica: El científico es el responsable último de que el contenido generado cumpla con los estándares éticos de la investigación académica, incluyendo la adecuada atribución de autoría, la ausencia de plagio y el respeto a la propiedad intelectual.
  5. Decisión de aprobación o solicitud de iteraciones adicionales: Si el texto candidato no satisface los criterios del investigador, este puede ordenar nuevas rondas de refinamiento, indicando al sistema los aspectos concretos que requieren mejora.

6.3. Transparencia radical: La declaración del Gemelo Digital como imperativo ético

Un aspecto crucial de la metodología que estoy explicando, es la transparencia radical respecto al uso de herramientas de IA. En cada entrada de mi sitio web mblazquez.es, en cada documento generado con asistencia del Gemelo Digital, incluyo una declaración explícita, indicando en la sección de categorías, dicha naturaleza. Esta práctica no es un mero ejercicio de honestidad intelectual —que también—, sino un imperativo metodológico y deontológico que persigue varios objetivos:

  1. Evitar la confusión: El lector debe saber en todo momento qué parte del proceso ha sido asistida por IA y bajo qué condiciones metodológicas se ha producido el texto.
  2. Garantizar la trazabilidad: La declaración del uso del Gemelo Digital va acompañada, en la medida de lo posible, de información sobre el corpus RAG empleado y la configuración del pipeline, permitiendo la auditoría del proceso.
  3. Diferenciar el uso riguroso del negligente: Al explicitar la metodología empleada, se traza una línea nítida entre la aplicación científica de la IA generativa y el patchwork improvisado que tan justificadamente denuncia el artículo del ABC.
  4. Normalizar la herramienta: La transparencia contribuye a desterrar la percepción de la IA como un "atajo tramposo" y a consolidar su reconocimiento como una herramienta legítima de apoyo a la investigación, análoga —aunque cualitativamente distinta— al software estadístico o a los gestores bibliográficos.

7. Síntesis final: La brecha entre la alucinación del usuario ocasional y el conocimiento científicamente generado

7.1. Dos escenarios, dos universos metodológicos

Ha llegado el momento de recapitular el recorrido realizado y de formular, con la máxima claridad expositiva, el contraste fundamental que vertebra este artículo. Lo expondré a través de dos escenarios netamente diferenciados.

Escenario A: El que describe el artículo del ABC

  1. Usuario: Investigador sin formación metodológica específica en IA.
  2. Herramienta: Interfaz conversacional de propósito general (ChatGPT o similar).
  3. Prompt: "Dame diez referencias sobre [tema]" o "Redacta un artículo sobre [tema]".
  4. Base de conocimiento: El corpus de entrenamiento del modelo, heterogéneo, no verificado y opaco.
  5. Proceso: Generación única, sin iteraciones de control de calidad.
  6. Validación: Inexistente o limitada a una lectura superficial por parte del usuario.
  7. Resultado: Texto formalmente plausible que puede contener alucinaciones bibliográficas, imprecisiones factuales y sesgos inadvertidos.
  8. Consecuencia: Fracaso académico, retractación de artículos, erosión de la confianza en el sistema de comunicación científica.

Este es el escenario que, con toda legitimidad, ha encendido las alarmas mediáticas. Pero no es el único escenario posible. Ni siquiera es el escenario en el que trabajamos quienes aplicamos metodología científica al uso de estas herramientas.

Escenario B: El de las Ciencias de la Documentación

  1. Usuario: Investigador formado en metodología documental aplicada a IA.
  2. Herramienta: Pipeline orquestado de agentes especializados con sistema RAG integrado.
  3. Base de conocimiento: Corpus documental curado por el investigador, compuesto por literatura académica verificada (Scopus, WoS, arXiv) y procesado mediante chunking y vectorización.
  4. Proceso:

- Generación de N hipótesis mediante Agente Ideador.

- Desarrollo textual iterativo (M iteraciones) mediante Agente Redactor.

- Evaluación por Agente Revisor según estándares de revistas Q1.

- Ciclos de corrección automática hasta superar umbrales de calidad.

- Citación mediante Agente Citador con trazabilidad a fragmentos RAG.

- Validación de referencias mediante Agente Validador.

- Ranking ponderado de versiones candidatas.

  1. Validación humana: Lectura crítica, verificación de lógica interna, contraste con conocimiento tácito, aprobación final.
  2. Transparencia: Declaración explícita del uso del Gemelo Digital y de la metodología empleada.
  3. Resultado: Texto académico riguroso, con trazabilidad documental completa, fundamentado en fuentes verificadas y validado por criterios análogos a la revisión por pares.
  4. Consecuencia: Conocimiento científico verificado, aceleración controlada de la producción académica, liberación del investigador para tareas de mayor valor añadido.

7.2. La IA no sustituye al investigador documentalista; exige un investigador documentalista mucho más sofisticado

La conclusión que se desprende de este análisis es tan nítida como desafiante. Contrariamente a cierto discurso apocalíptico que augura la obsolescencia del investigador humano, la aplicación rigurosa de la IA generativa a la producción académica no disminuye la exigencia de competencia científica, sino que la eleva a un nuevo nivel de sofisticación. El investigador que aspira a emplear estas herramientas con rigor metodológico debe adquirir competencias que exceden con mucho las tradicionalmente requeridas en la formación doctoral:

  1. Competencias en Ciencia de la Documentación: Comprensión de los principios de la recuperación de información, gestión de corpus documentales, sistemas de organización del conocimiento.
  2. Competencias en Ingeniería de Prompts: Capacidad para diseñar prompts de sistema que configuren adecuadamente el comportamiento de los agentes de IA, anticipando sesgos y optimizando la calidad de las respuestas.
  3. Competencias en Orquestación de Pipelines: Conocimiento de los frameworks que permiten encadenar agentes, gestionar flujos de información y evaluar automáticamente la calidad de los resultados.
  4. Competencias en Validación y Supervisión: Desarrollo de criterios robustos para la evaluación crítica de textos generados automáticamente, más allá de la mera corrección formal.
  5. Competencias Éticas y Deontológicas: Comprensión de las implicaciones del uso de IA en la producción académica y adopción de prácticas de transparencia radical.

Lejos de la imagen del usuario pasivo que delega su responsabilidad intelectual en una caja negra, el científico documentalista que trabaja con IA generativa se asemeja más al director de orquesta que coordina una compleja maquinaria de producción textual, o al editor jefe que supervisa el trabajo de un equipo de redactores y revisores especializados.

7.3. Más allá de la anécdota mediática

El artículo del ABC con el que iniciamos este periplo narrativo, cumple una función social innegable: alertar sobre los riesgos de un uso acrítico e instrumental de herramientas cuyo funcionamiento se desconoce. En este sentido, el periodismo de divulgación científica presta un servicio valioso a la comunidad académica y a la sociedad en general.

Pero el análisis no puede detenerse en la anécdota. Corresponde a quienes trabajamos en la intersección de la Ciencia de la Documentación y la Inteligencia Artificial, proporcionar el contrapunto metodológico que permita trascender el alarmismo y construir un discurso matizado sobre el papel de estas tecnologías en la producción de conocimiento.

La IA generativa ha llegado para quedarse. Su integración en los flujos de trabajo académico es ya un hecho irreversible, por más que algunas voces reclamen cautelas o incluso moratorias. La cuestión pertinente no es si emplearemos estas herramientas, sino cómo las emplearemos. Y la respuesta a esta cuestión depende enteramente de la solidez metodológica con la que abordemos su implementación.

Entre la alucinación del usuario ocasional y el conocimiento científicamente generado media un abismo metodológico que este artículo ha tratado de cartografiar y aproximar a nuestros lectores. Corresponde ahora a la comunidad académica, y muy especialmente a las facultades de Documentación, permitir la revisión de los planes de estudio y acometer las reformas necesarias, para asumir el liderazgo en la formación de los profesionales de la información del presente y del futuro, de nuestros investigadores, para que sean capaces de transitar con rigor ese territorio. La alternativa —dejar que la praxis negligente se convierta en la norma— no es aceptable ni para la integridad de la Ciencia ni para la credibilidad de nuestras instituciones.

Referencias

  1. Echazarreta, B.L. (2026, 9 de abril). Las revistas académicas se llenan de «alucinaciones» de la IA: «Han citado trabajos míos que no existen». ABC. https://www.abc.es/sociedad/revistas-academicas-llena-20260409025937-nt.html
  2. LangChain. (2026). LangChain. https://www.langchain.com
  3. Linardon, J.; Jarman, H.K.; McClure, Z.; Anderson, C.; Liu, C.; Messer, M. (2025). Influence of topic familiarity and prompt specificity on citation fabrication in mental health research using large language models: experimental study. JMIR Mental Health, 12, e80371. https://doi.org/10.2196/80371
  4. LlamaIndex. (2026). LlamaIndex. https://www.llamaindex.ai
  5. Microsoft. (s.f.). Semantic Kernel (Versión 1.0.1). GitHub. https://github.com/microsoft/semantic-kernel
  6. Naddaf, M., & Quill, E. (2026). Hallucinated citations are polluting the scientific literature. What can be done?. Nature, 652(8108), 26-29. https://doi.org/10.1038/d41586-026-00969-z