AI as a co-pilot in systematic reviews: automation

Las revisiones sistemáticas (RS) constituyen el estándar metodológico para la síntesis de evidencia en disciplinas como la medicina, la psicología, la educación y las ciencias sociales. Su validez depende de la exhaustividad en la búsqueda, la transparencia en la selección de estudios, la evaluación crítica de la calidad y la síntesis integrada de los hallazgos. Sin embargo, el crecimiento exponencial de la producción científica —más de 2 millones de artículos anuales en bases como PubMed, Scopus o Web of Science— ha incrementado la carga operativa, prolongando los tiempos y exponiendo el proceso a errores por fatiga o sesgos cognitivos. La optimización del flujo mediante tecnologías automatizadas debe preservar la rigurosidad epistemológica sin sacrificar la integridad metodológica.

Los modelos de lenguaje de gran tamaño (LLM) y los sistemas de recuperación semántica ofrecen capacidades para asumir tareas repetitivas en el proceso de RS. Sin embargo, su implementación no puede reducirse a la sustitución de agentes humanos por algoritmos. La experiencia en automatización documental muestra que los sistemas opacos —sin trazabilidad ni supervisión humana— generan riesgos epistemológicos: sesgos inherentes a los datos de entrenamiento, falsos positivos en clasificación, extracción errónea de datos y síntesis descontextualizadas. La solución no es la automatización total, sino una arquitectura híbrida en la que la IA actúa como asistente operativo y el investigador conserva la responsabilidad final sobre las decisiones críticas.

Este modelo de colaboración no es novedoso en su principio. Desde los inicios de la informática documental, los sistemas de recuperación por palabras clave o clasificación automática siempre requirieron validación humana. Lo que ha cambiado es la escala y la sofisticación: modelos como GPT, Llama o Claude pueden procesar textos en múltiples idiomas con precisión superior a la media humana en tareas de lectura crítica acotada. Sin embargo, su conocimiento está limitado por la ventana de entrenamiento, su razonamiento es probabilístico y carecen de intencionalidad o conciencia contextual. La validez de una RS no depende del grado de automatización, sino de la ubicación del límite de control humano.

Estudios recientes en ciencias de la computación y documentación indican que, incluso en dominios técnicos donde los modelos superan a los humanos en precisión, la interpretación final requiere validación experta. Asimismo, los modelos de visión por computadora logran detectar imágenes generadas por IA con alta eficacia, pero su generalización depende de la calidad del conjunto de entrenamiento y de la definición humana de umbrales de decisión. En todos los casos, el rendimiento óptimo se alcanza cuando la IA actúa como filtro de alta sensibilidad y el humano como verificador de precisión y significado. Esta dinámica es aplicable al proceso de revisión sistemática.

Se propone un flujo híbrido estructurado en tres fases —búsqueda, criba y síntesis— donde la IA asume la carga operativa bajo supervisión, validación y decisión humana. Cada fase se analiza considerando las capacidades técnicas actuales de los modelos, sus limitaciones epistemológicas y los protocolos necesarios para garantizar reproducibilidad, transparencia e integridad científica. El objetivo no es reemplazar el juicio experto, sino potenciarlo mediante una colaboración asimétrica: la IA maneja lo repetitivo; el humano, lo interpretativo.

La fase de búsqueda: De los operadores booleanos a la recuperación semántica con retroalimentación humana

La búsqueda sistemática es la etapa crítica de una RS, cuyo objetivo es identificar todos los estudios relevantes y excluir los no pertinentes según criterios predefinidos en el protocolo. Tradicionalmente, se basa en estrategias con operadores booleanos (AND, OR, NOT), términos controlados (MeSH, Emtree) y la experiencia del investigador en la formulación de consultas complejas. Estas estrategias son limitadas: dependen de la precisión terminológica, ignoran relaciones semánticas y requieren múltiples iteraciones para equilibrar sensibilidad y especificidad.

Los modelos de representación contextual permiten búsquedas basadas en lenguaje natural (por ejemplo, “¿Cuál es el efecto de la terapia cognitivo-conductual en adolescentes con ansiedad social?”), superando las restricciones de los operadores booleanos. Plataformas como Rayyan, Covidence o DistillerSR integran embeddings semánticos que identifican sinónimos, hipónimos y relaciones conceptuales. Una consulta como “antidepresivos en niños” puede recuperar estudios que usan “tratamiento farmacológico para depresión pediátrica” sin requerir la inclusión explícita de cada variante terminológica.

La ventaja clave radica en la capacidad de aprendizaje por retroalimentación humana (RLHF). En lugar de ejecutar una consulta estática, el investigador inicia con una consulta inicial, revisa los primeros resultados y marca artículos como relevantes o irrelevantes. El modelo ajusta dinámicamente el ranking según estas señales. Estudios muestran que este enfoque iterativo mejora la precisión respecto a las búsquedas estáticas, incluso con modelos menos sofisticados.

No obstante, los modelos pueden confundir términos homónimos, malinterpretar intenciones o priorizar artículos por citación en lugar de relevancia metodológica. Por ejemplo, una consulta sobre “efectos del ejercicio en la depresión” podría favorecer estudios observacionales con muestras grandes, excluyendo ensayos clínicos aleatorizados rigurosos pero menos citados. Además, los modelos pueden reflejar sesgos en la literatura existente: si la mayoría de los estudios provienen de países de ingresos altos, los trabajos del Sur Global pueden ser sistemáticamente subrepresentados. Para mitigar estos riesgos, se recomienda un protocolo de tres niveles de validación:

Nivel 1: Definición del alcance conceptual. Antes de la búsqueda, el equipo debe elaborar un mapa semántico de los conceptos clave, incluyendo sinónimos, abreviaturas y términos en múltiples idiomas. Este mapa guía la generación de consultas por parte del modelo.
Nivel 2: Iteración con retroalimentación controlada. Se ejecutan al menos tres rondas de búsqueda con retroalimentación humana, cada una con un conjunto distinto de artículos marcados como relevantes. Todas las decisiones deben registrarse para auditoría posterior.
Nivel 3: Verificación de exhaustividad. Tras la búsqueda automatizada, se realiza una búsqueda manual complementaria en bases especializadas (LILACS, SciELO, Dialnet) o repositorios de tesis. Si artículos clave son omitidos por el sistema, la estrategia se recalibra.

El sistema no debe operar como caja negra. Cada artículo recuperado debe acompañarse de una explicación de su relevancia: ¿Qué términos coincidieron? ¿Qué relación semántica con la pregunta de investigación se estableció? La trazabilidad es esencial para la transparencia metodológica y la replicabilidad. Plataformas que integran explicaciones interpretables (XAI) en la recuperación de información ofrecen un modelo de referencia.

La documentación del proceso debe ser exhaustiva: cada consulta, iteración y ajuste debe registrarse en formato estandarizado (JSON-LD o BibTeX con metadatos extendidos) y archivarse junto con los resultados. Esto cumple con los estándares PRISMA y permite auditorías futuras o reutilización de la estrategia.

La criba de títulos y resúmenes: De la clasificación binaria a la inferencia contextual

Tras la recuperación de artículos, comienza la criba. Tradicionalmente, esta fase requiere la lectura independiente de títulos y resúmenes por dos revisores, con una concordancia inter-revisores (kappa de Cohen) que oscila entre 0.6 y 0.8, lo que implica discrepancias que requieren resolución por un tercero. La IA puede asumir esta tarea con eficiencia superior, pero solo si se diseña como apoyo, no como reemplazo.

Los modelos de clasificación supervisada (por ejemplo, BERT o SciBERT) entrenados sobre conjuntos etiquetados por humanos alcanzan precisiones superiores al 90% en tareas binarias. Sin embargo, la precisión no es suficiente. La relevancia debe evaluarse con coherencia lógica y consistencia contextual. Un artículo puede mencionar “ensayo clínico” pero ser un estudio de caso sin grupo control; un modelo basado solo en palabras clave lo clasificaría erróneamente como relevante.

La propuesta híbrida implementa una criba en dos niveles. En el primero, la IA clasifica artículos según los criterios del protocolo, emitiendo no solo una etiqueta binaria, sino también una puntuación de confianza y una explicación basada en tokens influyentes (por ejemplo, “se detectó randomized en el resumen”, “población: adultos mayores”). En el segundo nivel, los revisores humanos evalúan únicamente los artículos con puntuaciones de confianza intermedias (0.6–0.85) o aquellos que contradicen expectativas disciplinares. Esta estrategia reduce la carga en hasta un 70% sin comprometer la sensibilidad, según estudios piloto en salud pública.

El modelo debe adaptarse mediante aprendizaje activo: cada corrección humana alimenta al sistema como nuevo dato de entrenamiento, mejorando su discriminación progresivamente sin reentrenamiento completo. La IA evoluciona junto con el equipo. Los riesgos críticos incluyen la internalización de sesgos en los datos de entrenamiento (por ejemplo, desestimación de revistas no indexadas), fallos en contextos lingüísticos o culturales específicos (por ejemplo, lenguaje coloquial en estudios brasileños) y la incapacidad para evaluar implicaciones éticas. Un artículo puede ser metodológicamente sólido pero violar principios éticos fundamentales. Para mitigar estos riesgos, se recomienda:

Definir criterios de exclusión ética explícitos. Por ejemplo: “excluir estudios sin consentimiento informado” o “excluir intervenciones en poblaciones vulnerables sin protección ética”. Estos criterios deben programarse como reglas lógicas inamovibles.
Implementar revisión de sesgos culturales. El equipo debe revisar periódicamente los artículos rechazados por la IA para identificar patrones sistemáticos (por ejemplo, exclusión recurrente de textos en español o portugués).
Registrar todas las decisiones de exclusión. Cada artículo excluido debe documentar el motivo: clasificación automática, decisión humana por criterio metodológico o duplicación.

El sistema debe generar un informe automático de criba que detalle: número de artículos evaluados, clasificados por IA, revisados por humanos, discrepancias resueltas y su resolución. Este informe debe integrarse al registro de la RS para auditorías externas.

Extracción de datos: De la lectura manual a la inferencia estructurada con verificación por consenso

Tras la inclusión de estudios, se inicia la extracción de datos: recopilación sistemática de información sobre metodología, población, intervención, resultados y calidad. Tradicionalmente, se realiza mediante formularios estandarizados (Cochrane, PRISMA) completados manualmente, lo que es lento, propenso a errores de transcripción y susceptible a variaciones inter-revisores.

Los modelos de extracción de información (IE) basados en LLM pueden identificar entidades clave: tamaño muestral, tipo de intervención, resultados cuantitativos (OR, RR, IC 95%), instrumentos de medición. Por ejemplo, dado el resumen “En un ensayo aleatorizado de 120 participantes, el grupo de intervención mostró una reducción media de 4.2 puntos (IC 95%: -6.1 a -2.3) en la escala de ansiedad de Hamilton”, un modelo bien entrenado puede extraer:

Estudio: Ensayo aleatorizado
Tamaño muestral: 120
Intervención: tratamiento X
Resultado: reducción en escala de Hamilton
Efecto: -4.2
IC 95%: [-6.1, -2.3]

Plataformas como RobotReviewer, ASReview o el módulo de extracción de Rayyan logran precisiones superiores al 85% en estudios clínicos bien estructurados, pero su desempeño cae en ciencias sociales o disciplinas con narrativas complejas. El problema no es solo la precisión técnica, sino la interpretación semántica. ¿Qué significa “reducción de 4.2 puntos”? ¿Escalas de 0–10 o 0–100? ¿Cambio absoluto o relativo? La IA no comprende contexto numérico ni escala de medición. Por ello, la extracción automática debe ser seguida por verificación humana obligatoria.

Se propone un modelo de “extracción con consenso”: la IA presenta los datos en una interfaz estructurada; el revisor humano valida o corrige. Si dos revisores discrepan, el sistema marca el campo como “en disputa” y requiere resolución por un tercero. Este enfoque reduce el tiempo de extracción en más del 60% sin sacrificar calidad.

Además, se debe implementar verificación lógica: si la IA extrae que “el grupo de intervención tenía n=10 y el control n=5”, pero el texto original indica que ambos grupos eran iguales, el sistema debe alertar. Esto requiere que los modelos comprendan relaciones lógicas dentro del texto (por ejemplo, “el 70% fueron asignados al grupo A, lo que implica que el 30% estaban en el grupo B”).

La IA también puede detectar inconsistencias entre estudios. Si tres reportan RR=1.2 y uno RR=3.5, sugiere revisión manual del estudio discrepante para verificar error de extracción o hallazgo genuino. Esta capacidad es valiosa en revisiones con alta heterogeneidad. Para garantizar integridad, cada dato extraído debe vincularse a su origen textual. El sistema debe generar un “mapa de evidencia” que muestre el fragmento del artículo utilizado para cada extracción, exportable en formatos como BRAT o standoff annotation, y almacenado junto con los datos estructurados.

En revisiones cualitativas o mixtas, la IA puede identificar temas recurrentes mediante clustering semántico. Por ejemplo, si varios estudios mencionan “miedo al estigma”, “dificultad para acceder a servicios” y “falta de apoyo familiar”, la IA puede agruparlos bajo un tema emergente como “barreras sociales al tratamiento”. Sin embargo, la interpretación —nombre, significado, jerarquía— debe ser realizada por el equipo investigador. La IA sugiere; el humano decide.

Síntesis narrativa y cuantitativa: La IA como redactor de borradores, no como autor de conclusiones

La síntesis integra la evidencia para responder a la pregunta de investigación. En revisiones cuantitativas, implica metaanálisis; en cualitativas, síntesis temática o narrativa. La IA puede asistir en ambas, pero su rol debe ser estrictamente auxiliar. En meta-análisis, los modelos pueden automatizar la preparación de datos: cálculo de efectos combinados, generación de forest plots, detección de sesgo de publicación mediante gráficos de funnel o análisis de subgrupos. Plataformas como R, RevMan o JASP permiten integrar datos extraídos por IA en flujos estadísticos. Sin embargo, la interpretación —¿Qué significa un efecto pequeño pero significativo? ¿Es clínicamente relevante? ¿El sesgo de publicación es real o un artefacto del diseño de los estudios incluidos?— requiere conocimiento disciplinar.

En síntesis narrativa, la IA puede generar borradores de secciones como “Características de los estudios incluidos” o “Hallazgos principales”, combinando datos extraídos con estructuras predefinidas. Por ejemplo: “Se incluyeron 12 estudios con un total de 2,845 participantes. La intervención principal fue la terapia cognitivo-conductual (n=9), seguida por la mindfulness (n=3). El tamaño muestral promedio fue de 237 participantes (rango: 45–680)”. Esta síntesis es correcta, pero carece de interpretación. ¿Por qué es relevante que la mayoría usaran TCC? ¿Qué implica el rango amplio en tamaño muestral? La IA no puede responder estas preguntas. Solo describe lo que está en los datos. Su función debe ser redactar un primer borrador estructurado; el investigador humano lo transforma en una narrativa crítica. Este proceso es análogo al uso de herramientas como Grammarly o Hemingway: se usa como punto de partida, no como resultado final.

Además, la IA puede identificar patrones de heterogeneidad no evidentes. Por ejemplo, si estudios con muestras mayores reportan efectos nulos y los pequeños, efectos positivos, sugiere una posible relación entre tamaño muestral y magnitud del efecto. Esta sugerencia debe ser investigada por el equipo: ¿es un artefacto metodológico? ¿Un sesgo de publicación? ¿Una diferencia genuina?

En revisiones cualitativas, los modelos pueden agrupar citas temáticas mediante embeddings semánticos y generar mapas conceptuales. Sin embargo, la codificación interpretativa —decidir qué tema es central, cuál secundario, cómo se relacionan— requiere comprensión hermenéutica. La IA puede decir: “hay 14 citas relacionadas con ‘soledad’ y 9 con ‘apoyo social’”. El humano debe decir: “la soledad es la experiencia central, y el apoyo social actúa como mediador, no como solución”. La síntesis final no puede ser generada por IA. Debe ser escrita por el investigador, con el apoyo de herramientas que reduzcan la carga cognitiva y aumenten la coherencia. La IA es el redactor de borradores; el humano, el autor de la interpretación.

Transparencia, auditoría y reproducibilidad: El marco ético del copiloto híbrido

La adopción de IA en revisiones sistemáticas no puede ser opaca. La ciencia exige trazabilidad, y la RS es un pilar de la evidencia basada en la práctica precisamente por su proceso rastreable. Un flujo híbrido debe cumplir con estándares más altos de documentación, no más bajos.

Se propone un protocolo de trazabilidad integral que incluya:

Registro de consultas: Cada versión de la consulta de búsqueda, con fecha y usuario que la modificó.
Log de clasificación: Registro de cada artículo clasificado por la IA, con puntuación de confianza y explicación.
Registro de decisiones humanas: Cada corrección, exclusión o inclusión realizada por un revisor debe estar vinculada a su identidad y fecha.
Mapa de extracción: Vinculación entre cada dato extraído y el fragmento textual original del artículo.
Versionado de modelos: Identificación clara del modelo de IA utilizado (nombre, versión, parámetros), así como el conjunto de entrenamiento o fine-tuning aplicado.

Este registro debe almacenarse en formato abierto y estandarizado (JSON-LD o RDF) y archivarse en repositorios de acceso abierto (Zenodo, Figshare) junto con el informe final. Esto permite replicación del proceso, auditoría de decisiones o reutilización de datos para futuras revisiones. Además, se debe establecer un protocolo de auditoría externa. Antes de la publicación, un tercero independiente debe revisar el flujo híbrido: ¿se siguió el protocolo? ¿Se documentaron todas las decisiones? ¿La IA actuó dentro de los límites definidos? Esta auditoría es una garantía epistemológica. La IA no puede ser un “negro” que se escapa del control, sino un componente transparente y auditado.

La ética requiere reconocer los límites de la tecnología. No todos los estudios son adecuados para la automatización. En disciplinas con alta carga narrativa, cultural o lingüística —como la antropología, la historia o la filosofía—, la IA puede ser inadecuada o dañina si se aplica sin crítica. La propuesta no es universal; es contextual.

Por otra parte, se debería evitar la ilusión de objetividad. La IA no es neutral. Está entrenada con datos producidos por humanos, que reflejan sesgos históricos, lingüísticos y geopolíticos. Un modelo entrenado en PubMed puede ignorar sistemáticamente la literatura científica fuera del ámbito anglosajón. Un sistema de criba entrenado en estudios de EE.UU. puede no reconocer intervenciones culturales específicas, procedentes de otras regiones, revistas o medios de difusión científica. La transparencia no resulta ser suficiente: se requiere una crítica constante a los datos, a los modelos y a las decisiones que se toman con ellos.

La formación del investigador: De usuario a gestor de IA

La adopción de un flujo híbrido no implica solo la implementación de herramientas tecnológicas, sino una transformación en la formación de los investigadores. El profesional de la información que utiliza IA como copiloto, no puede ser un usuario pasivo. Debe convertirse en un gestor de inteligencia. Esto requiere competencias nuevas que debemos comenzar a analizar:

Comprensión de los límites de la IA. Saber cuándo confiar y cuándo dudar. Reconocer que una precisión del 90% no es suficiente si el costo de un falso negativo es alto.
Capacidad para diseñar protocolos de validación. No basta con usar una herramienta; hay que definir cómo se verificará su salida.
Conocimiento de metadatos y estandarización. Entender cómo se estructuran los datos para que la IA pueda procesarlos correctamente.
Habilidades de interpretación crítica. Saber leer las explicaciones de la IA, cuestionar sus inferencias y corregir sus errores.

Las universidades y centros de investigación deben integrar estas competencias en los programas de formación en metodología de investigación. Cursos de “IA para revisiones sistemáticas” deben ser altamente recomendados en programas de posgrado. Se trata de formar investigadores críticos que puedan colaborar con LLMs sin someterse a los principios del algoritmo. La IA no reemplaza la competencia disciplinar; la capacidad de reflexión y análisis crítico del investigador. Esta propuesta tendrá sentido, especialmente, cuando el humano aprenda a definir la finalidad, el camino o ruta de investigación, y a esas bases sólidas de su conocimiento en el campo científico, sabe qué preguntar, cómo validar y cuándo desconfiar. Esto hace que se trate de una empresa difícil, pero no imposible.

Implementación práctica: Protocolo operativo para flujos híbridos en RS

La transición de un modelo teórico a una práctica operativa requiere un protocolo estandarizado, escalable y auditado. A continuación, se presenta una idea sobre cómo articular o implementar este marco en entornos académicos o institucionales, basando su desarrollo en el uso de herramientas reales, estándares abiertos y buenas prácticas documentales.

Pasos para la implementación:

Definir el protocolo de IA con firma del equipo. Antes de iniciar la búsqueda, el equipo de investigación podría firmar un documento que detalle: (a) qué tareas serán automatizadas; (b) qué decisiones son exclusivamente humanas; (c) los umbrales de confianza para intervención humana (ej. puntuación < 0.6 o > 0.85 se aceptan sin revisión; entre 0.6–0.85 requieren validación). Este documento se adjunta como anexo al protocolo de la RS.
Configurar el entorno de trabajo con herramientas abiertas y auditables. Se recomienda usar una pila tecnológica basada en software libre y estandarizado:
Búsqueda semántica con API de embeddings.
Criba y clasificación con software que soporte aprendizaje activo con modelos como BERT, Logistic Regression, SVM, u otros pertinentes, y con ello exportar logs de su procesamiento en formato JSON-LD que permita análisis posteriores de su desempeño.
Extracción de datos usando LLMs locales como Llama 3 8B via Ollama.
Almacenamiento y trazabilidad, registrando todos los logs en formato JSON-LD, conforme al esquema W3C Web Annotation.
Generar y archivar el registro de decisiones en JSON-LD. Cada acción humana o automática debe registrarse con metadatos mínimos:

{

"@context": "https://www.w3.org/ns/anno.jsonld",

"id": "urn:rs:2025:decision:001",

"type": "Annotation",

"body": {

"value": "Excluir por criterio 4.2: no es un ensayo controlado",

"purpose": "classification"

"target": "https://doi.org/10.1016/j.jpsychores.2023.110567",

"creator": {

"name": "Dr. Ana López",

"orcid": "https://orcid.org/0000-0002-1825-0097"

"created": "2025-03-15T10:22:00Z",

"agent": {

"type": "Software",

"name": "ASReview v1.8.2",

"version": "1.8.2",

"model": "scibert",

"confidence": 0.73

"reason": "Modelo detectó 'randomized' y 'control group' en abstract, pero no se menciona asignación aleatoria en métodos."

}

Automatizar la generación del informe de trazabilidad. Usar un script Python para consolidar todos los logs en un único archivo audit-trail.jsonld y generar un resumen en formato PDF con weasyprint:

import json

from weasyprint import HTML

# Cargar logs de ASReview y Rayyan

with open('asreview_logs.json', 'r') as f:

logs = json.load(f)

# Generar HTML de auditoría

html_content = '<h1>Informe de Auditoría de RS</h1><p>Total de decisiones: ' + str(len(logs)) + '</p><ul>' + "".join([f"<li>{log['target']} — {log['body']['value']} (Confianza: {log.get('agent', {}).get('confidence', 'N/A')})</li>" for log in logs]) + '</ul>'

# Exportar a PDF

HTML(string=html_content).write_pdf("audit_report.pdf")

Validar la cobertura lingüística y geográfica. Usar SPARQL para interrogar bases de datos de datasets y anexos de investigación. Un ejemplo de ello se encuentra en recursos como PMC Open Access Subset.

SELECT ?title ?language WHERE {

?article dc:title ?title ;

dc:language ?language .

FILTER (CONTAINS(STR(?title), "human genome") && ?language = "en")

} LIMIT 100

Si se detectan estudios relevantes no incluidos, el equipo debe revisar las principales bases de datos científicas para completar el proceso documental de la investigación.
Realizar una auditoría externa previa a la publicación. Asignar a un investigador independiente (no participante en la RS) el rol de “auditor de IA”. Este auditor debe verificar:
Que todos los logs estén archivados y accesibles en Zenodo.
Que no se haya ignorado ninguna decisión humana por error de automatización.
Que el modelo utilizado no haya sido fine-tuneado con datos no declarados.
El auditor firma un certificado de integridad que acompaña al artículo.

Este protocolo no es una receta mágica, sino un marco mínimo para operar con responsabilidad. Su adopción exige cultura documental, no solo tecnología. La IA no mejora la RS por sí misma; lo hace cuando se integra en procesos rigurosamente documentados, auditados y humanamente supervisados.

Referencias

Anjum, K., Arshad, M. A., Hayawi, K., Polyzos, E., Tariq, A., Serhani, M. A., ... & Shahriar, S. (2025). Domain specific benchmarks for evaluating multimodal large language models. arXiv preprint arXiv:2506.12958. https://doi.org/10.48550/arXiv.2506.12958
Brîncoveanu, C., Carl, K. V., Witzki, A., & Hinz, O. (2026). Augmenting Systematic Literature Reviews: A Human-AI Collaborative Framework. In German Conference on Artificial Intelligence (Künstliche Intelligenz) (pp. 3-17). Springer, Cham. https://doi.org/10.1007/978-3-032-02813-6_1
Correia, A., Grover, A., Jameel, S., Schneider, D., Antunes, P., & Fonseca, B. (2023). A hybrid human–AI tool for scientometric analysis. Artificial Intelligence Review, 56(Suppl 1), 983-1010. https://doi.org/10.1007/s10462-023-10548-7
Ni, S., Chen, G., Li, S., Chen, X., Li, S., Wang, B., ... & Yang, M. (2025). A survey on large language model benchmarks. arXiv preprint arXiv:2508.15361. https://doi.org/10.48550/arXiv.2508.15361
Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., ... & Moher, D. (2021). The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. bmj, 372. https://doi.org/10.1136/bmj.n71
Peters, D., Vold, K., Robinson, D., & Calvo, R. A. (2020). Responsible AI—two frameworks for ethical design practice. IEEE Transactions on Technology and Society, 1(1), 34-47. https://doi.org/10.1109/TTS.2020.2974991
W3C. (2017). Web Annotation Vocabulary. https://www.w3.org/TR/annotation-vocab/
Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., ... & Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9. https://doi.org/10.1038/sdata.2016.18
Zuo, C., Yang, X., Errickson, J., Li, J., Hong, Y., & Wang, R. (2025). AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge. Environmental Evidence, 14(1), 5. https://doi.org/10.1186/s13750-025-00358-5