Técnicas Avanzadas de Recuperación de Información  ·  Proyecto APLIR
Ejercicio 6: Parser de metadatos XML
Prof. Manuel Blázquez Ochando  ·  Universidad Complutense de Madrid
06
Fundamento teórico

Los metadatos son datos estructurados que describen el contenido, contexto y estructura de los recursos de información. En recuperación de información, los metadatos son fundamentales porque permiten la indexación, filtrado y recuperación selectiva sin necesidad de analizar el texto completo del documento.

Este ejercicio demuestra cómo un parser XML con XPath extrae automáticamente cualquier campo de un documento estructurado. Se trabaja con los esquemas más habituales en bibliotecas digitales y repositorios institucionales: Dublin Core (15 elementos básicos), OAI-PMH (protocolo de intercambio de metadatos entre repositorios), MARCXML (formato bibliográfico de bibliotecas) y RSS 2.0 (sindicación de contenidos). La expresión XPath es el lenguaje de consulta estándar para navegar por el árbol de nodos XML.

Dublin Core · dc:title · dc:creator · dc:subject… OAI-PMH · identifier · datestamp · setSpec… MARCXML · datafield[@tag] · subfield[@code]… RSS 2.0 · title · link · description · pubDate…
📄
Código XML de metadatos y campos a extraer
APLIR
📂 Cargar ejemplo:
Campos a extraer (expresiones XPath):
1
Campo 1
2
Campo 2
3
Campo 3
4
Campo 4
5
Campo 5
6
Campo 6
7
Campo 7
8
Campo 8
Ejemplos de expresiones XPath (clic para insertar en Campo 1):
dc:title
Título Dublin Core
dc:creator
Autor Dublin Core
dc:subject
Materia Dublin Core
dc:date
Fecha Dublin Core
dc:identifier
Identificador DC
dc:language
Idioma Dublin Core
identifier
Identificador OAI
datestamp
Fecha OAI-PMH
title
Título RSS/genérico
link
Enlace RSS
pubDate
Fecha RSS
datafield[@tag="245"]/subfield[@code="a"]
Título MARC21
datafield[@tag="100"]/subfield[@code="a"]
Autor MARC21
controlfield[@tag="001"]
Control MARC21