Los metadatos son datos estructurados que describen el contenido, contexto y estructura de los recursos de información. En recuperación de información, los metadatos son fundamentales porque permiten la indexación, filtrado y recuperación selectiva sin necesidad de analizar el texto completo del documento.
Este ejercicio demuestra cómo un parser XML con XPath extrae automáticamente cualquier campo de un documento estructurado. Se trabaja con los esquemas más habituales en bibliotecas digitales y repositorios institucionales: Dublin Core (15 elementos básicos), OAI-PMH (protocolo de intercambio de metadatos entre repositorios), MARCXML (formato bibliográfico de bibliotecas) y RSS 2.0 (sindicación de contenidos). La expresión XPath es el lenguaje de consulta estándar para navegar por el árbol de nodos XML.