Pulsa "Enter" para saltar al contenido

Funcionamiento general de un parser XML

El siguiente esquema corresponde a la figura21 de la tesis doctoral, Aplicaciones de la sindicación para la gestión de catálogos bibliográficos. En ella se expone el proceso de funcionamiento de un programa parser especializado en el análisis de archivos XML codificados con formatos de sindicación.

Funcionamiento general de un parser XML
Funcionamiento general de un parser XML

Se puede observar cómo el programa, carga la dirección URL que vincula el archivo de extensión .xml, que contiene el código y la información embebida en etiquetas. Para poder extraer los datos del archivo, se necesita previamente identificar y validar el tipo de documento. Ello es posible si la primera línea del archivo es similar a <?xml version=”1.0″ encoding=”UTF-8″?> que identifica que el documento es XML y que el set de caracteres empleado. A continuación se identifica el formato de sindicación que se emplea en el archivo. Para averiguarlo el programa parser trata de identificar un patrón de etiquetas raíz con su apertura y cierre. Ese patrón identifica cada formato, como por ejemplo <feed> (Atom), <rdf:RDF> (RSS1.0), <rss> (RSS2.0), <opml> (OPML), <collection> (MARC-XML). A la identificación del formato, hay que sumar la identificación de los espacios de nombres (namespaces) utilizados para identificar la utilización de otros formatos o módulos. Una vez comprobado el tipo de archivo, formato y módulos, suele generarse un mapa en árbol de la estructura del canal y sus entradas. Este mapa de todas las etiquetas que guardan contenidos es en realidad un array de arrays o lo que es lo mismo una matriz de matrices de datos. Una de las técnicas que mejores resultados ofrece a la hora de manipular las estructuras de arrays en los programas parser son las funciones DOM (Document Object Model) que permiten un tratamiento de la información a modo de objetos y elementos que facilita su correspondiente consulta. Es decir, dicho mapa estructural debe ser interrogado para extraer uno por uno cada ítem, noticia o artículo con sus correspondientes apartados (Título, resumen, descripción, fecha, etc). En este sentido se emplean una serie de lenguajes de consulta orientados a recuperación de datos e información en archivos XML. Se trata de XPath y XQuery, lenguajes con los que es posible filtrar, seleccionar contenidos de etiquetas y sus atributos e incluso buscar textos como lenguaje análogo a SQL. El resultado de las consultas es la extracción de los textos y valores del archivo que son almacenados en las variables del programa para su posterior aprovechamiento o salida en forma de página web habilitada para la lectura, en instrucciones SQL para la inserción de datos en la BD del agregador, entre otros.

Sé el Primero en Comentar

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *