El proyecto APLIR (Aplicaciones para la enseñanza en recuperación de información) consiste en el desarrollo de herramientas, simuladores y pequeñas aplicaciones orientadas a la divulgación y aprendizaje de diversos aspectos que conciernen a la recuperación de información. Estas herramientas son empleadas para la enseñanza de las asignaturas de Técnicas Avanzadas de Recuperación de Información, Evaluación de Sistemas de Información y Sistemas de Recuperación e Internet siendo de libre acceso para cualquier especialista y profesional de la información. A continuación se describen cada una de ellas.
- Ejercicio de supresión de código fuente
Aplicación para demostrar el funcionamiento de los mecanismos de supresión de código fuente HTML disponibles en muchos programas webcrawler. El usuario sólo tiene que introducir el código fuente de la página web que desee probar para obtener el texto limpio sin etiquetas. Este paso resulta crucial para la recuperación de información en la web por ser el paso previo a la normalización, almacenamiento e indexación del texto de la web.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/depuracion01.php
- Ejercicio de tokenización
Permite enseñar cómo un webcrawler es capaz de tratar palabra por palabra el texto obtenido en el ejercicio de supresión de código fuente. Cada palabra a su vez es convertida a su cadena equivalente en formato hexadecimal.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/depuracion02.php
- Ejercicio de normalización de caracteres
La normalización de caracteres se produce cuando los caracteres, signos especiales y de puntuación son eliminados o sustituidos gracias a cadenas de reemplazo previamente almacenadas y programadas en el webcrawler para obtener un texto susceptible de ser indexado y procesado para su recuperación.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/depuracion03.php
- Ejercicio de eliminación de palabras vacías
Otro de los procesos esenciales para optimizar las capacidades de recuperación de información, lo constituye el proceso de eliminación de palabras vacías. Muestra cómo a partir de un texto dado, el sistema elimina todas las palabras vacías determinadas como tales para cada idioma. Si se cumple la ley de Luhn, suele ser eliminado el 50% de todos los términos del texto introducido.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/depuracion04.php
- Calculadora de pesos TF-IDF
La calculadora de pesos permite realizar los cálculos relativos al peso de un término dado introduciendo N (el número total de términos de la colección), DF (el número de documentos en los que aparece el término) y TF (frecuencia del término en el documento d). Los resultados se obtienen aplicando la formulación por defecto y la formulación con diversas variaciones.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/ponderacion01.php
- Simulador del modelo booleano
El simulador booleano al igual que el resto de simuladores, está diseñado para probar su algoritmo de recuperación en una colección de documentos estática, no cambiante, real y fidedigna, así como suficientemente amplia (20.000 noticias producidas por medios de comunicación españoles, obtenidos a partir de la plataforma Resync) como para mostrar diversos efectos y resultados de cada proceso de recuperación. Es posible probar los operadores de consulta AND, OR, NOT y XOR.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/modelobooleano.php
- Simulador del modelo vectorial
El simulador vectorial permite definir los pesos de los términos que se emplean en las consultas, comprobar el cálculo matemático en cada uno de los resultados proporcionados. La fórmula empleada es la correspondiente a la similaridad del coseno, con la que se obtiene el factor de ordenación de los resultados con una precisión de 10 decimales.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/modelovectorial.php
- Simulador del modelo probabilístico
El modelo probabilístico emplea el algoritmo predeterminado para el caso calculando en primera instancia los pesos de los términos de la consulta con el valor de máxima incertidumbre. Además añade un mecanismo de retroalimentación por relevancia con el que el alumno puede definir qué resultados le resultan relevantes para ser tenidos en cuenta en la reformulación de la consulta y por ende en el cálculo de pesos.
http://mblazquez.es/blog-ccdoc-recuperacion/programas/modeloprobabilistico.php
- Método de evaluación de un sistema de recuperación
El método de evaluación para sistemas de recuperación fue diseñado como resultado de la investigación expuesta en el 9º Seminario Hispano-Mexicano en 2012, correspondiente al desarrollo de sistemas de clasificación automática de contenidos. Se determinó esencial comprobar con qué precisión funcionó el algoritmo de clasificación/recuperación. En este sentido se diseñó una plantilla de evaluación automatizada que permite al alumno evaluar si los resultados obtenidos para una determinada categoría temática son o no relevantes, a través del marcado con un botón que determina el porcentaje de relevancia del contenido. Cada pulsación o clic efectuado es transmitido a un sistema de bases de datos que procesa la información, proporcionando un informe completo del estado de la precisión del algoritmo de recuperación.
http://mblazquez.es/testbench/evaluacion/prueba1-es/
- Test de usabilidad de la navegación web
Aunque no se considera un aspecto puro de la recuperación, la usabilidad web tiene importante relación con la búsqueda de información, puesto que incide en una mayor facilidad para la navegación del usuario. En esta herramienta, se realiza un seguimiento de la navegación del usuario a partir de una serie de preguntas que constituyen en cada caso una búsqueda que deberá ser resuelta a partir de clics de hiperenlances. El número de clics que hace el usuario hasta conseguir el objetivo, muestra qué contenidos son más visibles y en términos globales cuán usable es la página web.
http://www.mblazquez.es/blog-ccdoc-arquitectura-informacion/test-usabilidad1/test1.php
- Ejercicio de análisis parser de metadatos
Uno de los aspectos que más preocupa a cualquier alumno y profesional de la información es la relativa importancia de los metadatos para la recuperación de información. Con el ejercicio de análisis parser de metadatos, se demuestra que cualquier información codificada en XML como metadatos Dublin Core es susceptible de ser recuperada y filtrada para su indexación y posterior recuperación.
http://www.mblazquez.es/blog_ccdoc-busqueda-internet/programas/parser-metadata.php
[…] […]