Introducción a los Sistemas Avanzados de Recuperción de Información: LA RECUPERACIÓN DE LA INFORMACIÓN

Fundamentos

¿En qué consiste la Recuperación de la información?

La Recuperación de Información tiene su fundamentación en la Teoría de la Información formulada por Claude E. Shannon.
La teoría de la información investiga la probabilidad de los sucesos inciertos y trata de cuantificar numéricamente cuanta información aporta cada pista o hecho conocido que ayuda a reducir la incertidumbre.

Donde las pi son las probabilidades de ocurrencia de cada uno de los sucesos posibles compatibles con el conocimiento cierto que tenemos.

En cuanto a la RI, se basa en la capacidad del sistema de obtener un documento previamente deseado por un usuario, entre todos los documentos existentes. Discriminando la información útil de la información innecesaria denominada “ruido”
Del tratamiento de la información de manera óptima se podrá obtener conocimiento y ahí radica la importancia del buen funcionamiento de estos sistemas.

Un SRI puede almacenar información, tratarla para su recuperación y realizar un mantenimiento apropiado de ella.
• Indexado, búsqueda y recuperación de información (documentos)• Sistemas de entrada/salida: solicitud/resultado

Una consulta representa la necesidad de un usuario por obtener una información determinada, que el SRI debe satisfacer de la manera más apropiada.

En cuanto a las Bases de datos y su relación con los SRI, es importante tener en cuenta que una BD, carece de las funciones necesarias para procesar la información no estructurada, es decir, carecen de tuplas, donde se recojan determinados datos que organicen y estructuren la información reflejada en los documentos. El SRI trabaja sobre el documento que contiene la información y sobre las palabras que contiene, intentando intuir la información que pueden almacenar. Otra diferencia reside en el tamaño y cantidad de información con la que deben operar, al no estar organizada, este trabajo es mayor que en las BBDD.

Niveles conceptuales del documento

Un documento, en este caso, se trata de un conjunto de información o ideas plasmado en un soporte determinado, bajo una estructura y un contenido elaborado y seleccionado por su autor. En el caso de los SRI, tenemos que hablar de documentos que sea capaz de procesar, es decir, electrónicos o digitales, que contengan texto, imágenes, sonido, vídeo, etc.
Para lograr entender este proceso, es necesario alcanzar a entender los niveles conceptuales que conformarían el documento y su información, siendo éstos los siguientes:

Atributos externos.
- Información y datos no contenidos en el documento.
- Autor, tipo de acceso, tipo de publicación, fecha, etc.
- Metadatos.
Estructura lógica.
- Estructura del documento: capítulos, secciones, párrafos.
- Información contenida en el documento.
- Distribución en árbol (información en las hojas).
- Hiperlinks: permiten una estructura no jerarquizada.
Estructura de la distribución.
- Medio de presentación / salida.
- Mapeo de la estructura sobre el medio de salida.
- Distribución espacial y temporal de la salida.
Contenido.
- Significado del documento => tema principal.
- Estructura lógica => contenido.
- Grupo de conceptos.

Por ejemplo, cuando utilizamos un SRI, se puede optar por obtener información a cerca de la fecha en la que se elaboró el documento, el tamaño del documento o palabras que contiene el mismo documento.

Ejemplo de búsqueda de documento por fecha en windows search:

Algunos conceptos sobre el documento y su tratamiento en los SRI.

Los documentos están formados por conceptos, representados a través de letras, palabras, sintagmas, frases, párrafos y secciones. Luego podríamos intentar representar los documentos de la siguiente manera:

Como un conjunto de términos que los caracterizan.

Para la selección del término más representativos de esos documentos se debe responder a una cuestión de frecuencia de aparición de los términos durante los documentos:

Para poder ejecutar este proceso con mayor precisión será necesario el intentar normalizar (stemming) los términos recuperados, atendiendo a una cuestión de estructura léxica permitiendo en cierta medida agrupar los términos con una misma raíz bajo una equivalencia operativa en torno a un mismo concepto.

En cuanto a la frecuencia de aparición de los términos es posible preveer que los términos que aparecen con menor frecuencia equivaldrán a palabras poco significativas por su leve aparición tanto para el documento, como para el conjunto de documentos (dependiendo de donde estemos aplicando el estudio).

Por otro lado los términos con un mayor número de apariciones, serán casi con total probabilidad las palabras vacías, determinantes, preposiciones y demás que tampoco aportan ningún valor al análisis.

Finalmente nos quedarían las palabras con un índice de aparición moderado, que suponen el núcleo de estudio.

Problemas en la recuperación: Sinonimia, polisemia, metonimia, anáfora. La barrera de las palabras

En cuanto a los problemas que pueden presentar la recuperación nos encontramos ante las ambigüedades propias del lenguaje, entre otras:

• Sinonimia: La existencia de dos términos diferentes pero con que representan el mismo concepto. Mantienen una relación de equivalencia. Pero se indexan por separado.

• Polisemia: Un mismo léxico (se escriben igual) puede poseer diversos significados. Por ese motivo la búsqueda a través de este término, puede reducir la precisión en la recuperación.

• Metáfora: Consiste en emplear un término con un significado distinto del que habitualmente posee pero guardando cierta analogía.

• Anáfora: El uso continuado de pronombres que se refieren a frase pretéritas o pertenecientes al acervo cultural. Las palabras que definen el texto no están presentes en las frases determinantes.

• Variabilidad de frases: La capacidad del lenguaje para construir frases con diferentes construcciones y estructuras puede dificultar las búsquedas.

• Relaciones entre palabras. Frases: Un concepto a veces debe ser definido por una frase. La diferenciación de esos conceptos puede depender de la construcción de la frase.

• Sensibilidad al contexto: El contexto arroja información sobre el significado ambiguo de diferentes frases.

Recuperación conceptual

La recuperación de la información en su vertiente usuario/sistema, viene determinada por la estructura del sistema y su capacidad para permitir y responder a las consultas (Queries) realizadas por el usuario.
Esa respuesta facilitará una representación parcial de la información demandada por el usuario en sistema.
La calidad de esta respuesta, depende de varios factores y puede ser medida respondiendo a unos indicadores, que atienden al concepto de Documento relevante:

Número de documentos relevantes recuperados
Exhaustividad = _________________________________________

Número total de documentos relevantes
presentes en el fondo documental

Número de documentos relevantes recuperados
Precisión = ______________________________________

Número total de documentos recuperados

Suponiendo pertinencia binaria e independiente del resto de los documentos.

Para poder evaluar el sistema es preciso poder conocer ciertas cifras necesarias como la base de la colección de documentos, lanzar varias consultas para el estudio, conocer la relevancia de los documentos etc. (ver trabajo de buscadores)

Bloques de un Sistema de Recuperación de la Información. Diseño de un sistema

La estructura de un SRI se caracteriza por contener las siguientes partes:

Estructuras de almacenamiento:Listas de palabras clave:
Archivos de índice inverso.
Vectores.
Categorías.
Centroides.
Frames.
Scripts.
Árboles-conceptos.

Espacios multidimensionales:
Según herramienta:

Kohonen => 2D
Vectores => nD

Según variables: nD

En cuanto a los sistemas actuales, se muestran bajo el desarrollo necesario de los lenguajes naturales, el Stemming, la ponderación de ranking según modelos probabilísticos el feedback por relevancia, las búsquedas con booleanos y por adyacencia, Interface GUI, scripts para la ejecución de baterías de perfíles. Y en cuanto a la información que puede observarse, hay que centrarse en la determinación de los pesos, los rankings, el uso del feedback, la repetición de consultas en todo o en parte etcétera.

Por otro lado Internet se ha convertido en el entorno de investigación perfecto para este tipo de búsquedas, por el elevado número de documentos generados y distribuidos, la falta de estructuración de los contenidos... Los usuarios necesitan de los motores de búsqueda para localizar la información que están buscando. La clasificación generalmente se realizará entorno a la frecuencia de aparición de los términos de la consulta (Query) y/o del grado de popularidad aunque pueden seguir diferentes filosofías:

Basados en términos:

Los términos definen el documento y los temas de la búsqueda.

Popularity (popularidad).

Hacen un estudio del número de links que apuntan a la página ponderada/buscada.
Estudian la relación existente entre consultas anteriores (similares) y los documentos que los usuarios han determinado como pertinentes.

Procesamiento de Lenguaje Natural (NL Semantic-based search engines).

Determinación del concepto de las consultas.
Determinación del concepto de los documentos.

Basados en Clustering.

Clasifican los documentos según el tema.

Introducción a los Sistemas Avanzados de Recuperción de Información

miércoles, 30 de junio de 2010

LA RECUPERACIÓN DE LA INFORMACIÓN

No hay comentarios:

Publicar un comentario

La recuperación de la información.

Normalización automática de términos.

Almacenamiento y representación de la información.

Indexado automático.

Clasificación: Clustering.

Trabajos de actualidad.

Algunos sistemas de recuperación en internet.