APLIR — Ejercicio 6: Parser de metadatos XML

Fundamento teórico

Los metadatos son datos estructurados que describen el contenido, contexto y estructura de los recursos de información. En recuperación de información, los metadatos son fundamentales porque permiten la indexación, filtrado y recuperación selectiva sin necesidad de analizar el texto completo del documento.

Este ejercicio demuestra cómo un parser XML con XPath extrae automáticamente cualquier campo de un documento estructurado. Se trabaja con los esquemas más habituales en bibliotecas digitales y repositorios institucionales: Dublin Core (15 elementos básicos), OAI-PMH (protocolo de intercambio de metadatos entre repositorios), MARCXML (formato bibliográfico de bibliotecas) y RSS 2.0 (sindicación de contenidos). La expresión XPath es el lenguaje de consulta estándar para navegar por el árbol de nodos XML.

Dublin Core · dc:title · dc:creator · dc:subject… OAI-PMH · identifier · datestamp · setSpec… MARCXML · datafield[@tag] · subfield[@code]… RSS 2.0 · title · link · description · pubDate…

📄

Código XML de metadatos y campos a extraer

APLIR

📂 Cargar ejemplo:

Código XML:

Campos a extraer (expresiones XPath):

Campo 1

Campo 2

Campo 3

Campo 4

Campo 5

Campo 6

Campo 7

Campo 8

Ejemplos de expresiones XPath (clic para insertar en Campo 1):

dc:title

Título Dublin Core

dc:creator

Autor Dublin Core

dc:subject

Materia Dublin Core

dc:date

Fecha Dublin Core

dc:identifier

Identificador DC

dc:language

Idioma Dublin Core

identifier

Identificador OAI

datestamp

Fecha OAI-PMH

title

Título RSS/genérico

link

Enlace RSS

pubDate

Fecha RSS

datafield[@tag="245"]/subfield[@code="a"]

Título MARC21

datafield[@tag="100"]/subfield[@code="a"]

Autor MARC21

controlfield[@tag="001"]

Control MARC21