Mostrando entradas con la etiqueta Sistemas de recuperación. Mostrar todas las entradas
Mostrando entradas con la etiqueta Sistemas de recuperación. Mostrar todas las entradas

miércoles, 30 de junio de 2010

LA RECUPERACIÓN DE LA INFORMACIÓN

Fundamentos

¿En qué consiste la Recuperación de la información?

La Recuperación de Información tiene su fundamentación en la Teoría de la Información formulada por Claude E. Shannon.
La teoría de la información investiga la probabilidad de los sucesos inciertos y trata de cuantificar numéricamente cuanta información aporta cada pista o hecho conocido que ayuda a reducir la incertidumbre.

Donde las pi son las probabilidades de ocurrencia de cada uno de los sucesos posibles compatibles con el conocimiento cierto que tenemos.

En cuanto a la RI, se basa en la capacidad del sistema de obtener un documento previamente deseado por un usuario, entre todos los documentos existentes. Discriminando la información útil de la información innecesaria denominada “ruido”
Del tratamiento de la información de manera óptima se podrá obtener conocimiento y ahí radica la importancia del buen funcionamiento de estos sistemas.

Un SRI puede almacenar información, tratarla para su recuperación y realizar un mantenimiento apropiado de ella.
• Indexado, búsqueda y recuperación de información (documentos)• Sistemas de entrada/salida: solicitud/resultado

Una consulta representa la necesidad de un usuario por obtener una información determinada, que el SRI debe satisfacer de la manera más apropiada.

En cuanto a las Bases de datos y su relación con los SRI, es importante tener en cuenta que una BD, carece de las funciones necesarias para procesar la información no estructurada, es decir, carecen de tuplas, donde se recojan determinados datos que organicen y estructuren la información reflejada en los documentos. El SRI trabaja sobre el documento que contiene la información y sobre las palabras que contiene, intentando intuir la información que pueden almacenar. Otra diferencia reside en el tamaño y cantidad de información con la que deben operar, al no estar organizada, este trabajo es mayor que en las BBDD.

Niveles conceptuales del documento

Un documento, en este caso, se trata de un conjunto de información o ideas plasmado en un soporte determinado, bajo una estructura y un contenido elaborado y seleccionado por su autor. En el caso de los SRI, tenemos que hablar de documentos que sea capaz de procesar, es decir, electrónicos o digitales, que contengan texto, imágenes, sonido, vídeo, etc.
Para lograr entender este proceso, es necesario alcanzar a entender los niveles conceptuales que conformarían el documento y su información, siendo éstos los siguientes:
  • Atributos externos.
    • Información y datos no contenidos en el documento.
    • Autor, tipo de acceso, tipo de publicación, fecha, etc.
    • Metadatos.
  • Estructura lógica.
    • Estructura del documento: capítulos, secciones, párrafos.
    • Información contenida en el documento.
    • Distribución en árbol (información en las hojas).
    • Hiperlinks: permiten una estructura no jerarquizada.
  • Estructura de la distribución.
    • Medio de presentación / salida.
    • Mapeo de la estructura sobre el medio de salida.
    • Distribución espacial y temporal de la salida.
  • Contenido.
    • Significado del documento => tema principal.
    • Estructura lógica => contenido.
    • Grupo de conceptos.
Por ejemplo, cuando utilizamos un SRI, se puede optar por obtener información a cerca de la fecha en la que se elaboró el documento, el tamaño del documento o palabras que contiene el mismo documento.

Ejemplo de búsqueda de documento por fecha en windows search:


Algunos conceptos sobre el documento y su tratamiento en los SRI.

Los documentos están formados por conceptos, representados a través de letras, palabras, sintagmas, frases, párrafos y secciones. Luego podríamos intentar representar los documentos de la siguiente manera:

Como un conjunto de términos que los caracterizan.

Para la selección del término más representativos de esos documentos se debe responder a una cuestión de frecuencia de aparición de los términos durante los documentos:
Para poder ejecutar este proceso con mayor precisión será necesario el intentar normalizar (stemming) los términos recuperados, atendiendo a una cuestión de estructura léxica permitiendo en cierta medida agrupar los términos con una misma raíz bajo una equivalencia operativa en torno a un mismo concepto.

En cuanto a la frecuencia de aparición de los términos es posible preveer que los términos que aparecen con menor frecuencia equivaldrán a palabras poco significativas por su leve aparición tanto para el documento, como para el conjunto de documentos (dependiendo de donde estemos aplicando el estudio).

Por otro lado los términos con un mayor número de apariciones, serán casi con total probabilidad las palabras vacías, determinantes, preposiciones y demás que tampoco aportan ningún valor al análisis.

Finalmente nos quedarían las palabras con un índice de aparición moderado, que suponen el núcleo de estudio.


Problemas en la recuperación: Sinonimia, polisemia, metonimia, anáfora. La barrera de las palabras


En cuanto a los problemas que pueden presentar la recuperación nos encontramos ante las ambigüedades propias del lenguaje, entre otras:

Sinonimia: La existencia de dos términos diferentes pero con que representan el mismo concepto. Mantienen una relación de equivalencia. Pero se indexan por separado.

Polisemia: Un mismo léxico (se escriben igual) puede poseer diversos significados. Por ese motivo la búsqueda a través de este término, puede reducir la precisión en la recuperación.

Metáfora: Consiste en emplear un término con un significado distinto del que habitualmente posee pero guardando cierta analogía.

Anáfora: El uso continuado de pronombres que se refieren a frase pretéritas o pertenecientes al acervo cultural. Las palabras que definen el texto no están presentes en las frases determinantes.

Variabilidad de frases: La capacidad del lenguaje para construir frases con diferentes construcciones y estructuras puede dificultar las búsquedas.

Relaciones entre palabras. Frases: Un concepto a veces debe ser definido por una frase. La diferenciación de esos conceptos puede depender de la construcción de la frase.

Sensibilidad al contexto: El contexto arroja información sobre el significado ambiguo de diferentes frases.


Recuperación conceptual

La recuperación de la información en su vertiente usuario/sistema, viene determinada por la estructura del sistema y su capacidad para permitir y responder a las consultas (Queries) realizadas por el usuario.
Esa respuesta facilitará una representación parcial de la información demandada por el usuario en sistema.
La calidad de esta respuesta, depende de varios factores y puede ser medida respondiendo a unos indicadores, que atienden al concepto de Documento relevante:


Número de documentos relevantes recuperados
Exhaustividad = _________________________________________

Número total de documentos relevantes
presentes en el fondo documental



Número de documentos relevantes recuperados
Precisión = ______________________________________

Número total de documentos recuperados

Suponiendo pertinencia binaria e independiente del resto de los documentos.

Para poder evaluar el sistema es preciso poder conocer ciertas cifras necesarias como la base de la colección de documentos, lanzar varias consultas para el estudio, conocer la relevancia de los documentos etc. (ver trabajo de buscadores)

Bloques de un Sistema de Recuperación de la Información. Diseño de un sistema

La estructura de un SRI se caracteriza por contener las siguientes partes:

Estructuras de almacenamiento:Listas de palabras clave:
Archivos de índice inverso.
Vectores.
Categorías.
Centroides.
Frames.
Scripts.
Árboles-conceptos.

Espacios multidimensionales:
Según herramienta:
  • Kohonen => 2D
  • Vectores => nD
Según variables: nD

En cuanto a los sistemas actuales, se muestran bajo el desarrollo necesario de los lenguajes naturales, el Stemming, la ponderación de ranking según modelos probabilísticos el feedback por relevancia, las búsquedas con booleanos y por adyacencia, Interface GUI, scripts para la ejecución de baterías de perfíles. Y en cuanto a la información que puede observarse, hay que centrarse en la determinación de los pesos, los rankings, el uso del feedback, la repetición de consultas en todo o en parte etcétera.

Por otro lado Internet se ha convertido en el entorno de investigación perfecto para este tipo de búsquedas, por el elevado número de documentos generados y distribuidos, la falta de estructuración de los contenidos... Los usuarios necesitan de los motores de búsqueda para localizar la información que están buscando. La clasificación generalmente se realizará entorno a la frecuencia de aparición de los términos de la consulta (Query) y/o del grado de popularidad aunque pueden seguir diferentes filosofías:

Basados en términos:
  • Los términos definen el documento y los temas de la búsqueda.
Popularity (popularidad).
  • Hacen un estudio del número de links que apuntan a la página ponderada/buscada.
  • Estudian la relación existente entre consultas anteriores (similares) y los documentos que los usuarios han determinado como pertinentes.
Procesamiento de Lenguaje Natural (NL Semantic-based search engines).
  • Determinación del concepto de las consultas.
  • Determinación del concepto de los documentos.
Basados en Clustering.
  • Clasifican los documentos según el tema.

NORMALIZACIÓN AUTOMÁTICA DE TÉRMINOS

Normalización. Representación canónica.


Existen diferentes modelos con sus diversas posibilidades para la normalización de los términos.
Estos giran en torno a dos bloques principales:

Stemming
Concepto:
  • Menor consumo de recursos del sitema.
  • Necesidad de equilibrio entre recuperación y precisión.
  • Se basa en el mapeado o reducción de las posibles alternativas morfológicas a una única representación.
  • Por lo tanto reduce la pluralidad en las representaciones de los conceptos.
  • Es la representación más cercana a la forma canónica.
  • Conlleva la pérdida de precisión (menos discriminación).

Base teórica:
  • La raíz de la palabra contiene pleno significado del término.
  • Los sufijos y prefijos son modificadores sintácticos.
  • Es preciso combatir las excepciones del lenguaje.

Implicaciones:
  • Creación de los archivos inversos.
  • Controlar la presencia de términos como la presencia de nombres propios, acrónimos y otras reglas no tradicionales.
  • En algunos sistemas este proceso implica demasiada pérdida de información semántica: NPL (procesamiento del lenguaje natural), análisis conceptual.
El Archivo inverso

Es capaz de mejorar los tiempos de acceso cuando la búsqueda se ha de realizar bajo la dependencia de varios índices.
Suele ser el método más común.
Algunas de sus variantes:
  • N-gram.
  • Firma.


Tipos de normalización. Diccionario. Sucesores. Porter.


Stemming mediante Algoritmo de Porter:
Basado en la relación entre raíz, prefijo y sufijo. Este logaritmo se centra en las reglas gramaticales que pueden existir en una determinada lengua.
En definitiva facilita un protocolo de actuación que mediante una serie de procesos pretende alcanzar la raíz de los términos.

Proceso:
1. Evaluación de la longitud del término: representado por C(VC)mV
 2. * --> la raíz termina en X.
3. *V*  --> la raíz contiene vocal.
4. *d --> la raíz finaliza en doble consonante.

Ejemplo:
   

Ej.: duplicatable

Regla 4 --> duplicat
Regla 1b1 --> duplicate
Regla 3 --> duplic
Mediante diccionario:

El nivel de desarrollo de las herramientas y recursos de Procesamiento del Lenguaje Natural depende fuertemente del idioma de que se trate. El inglés es, sin duda, el idioma que cuenta con más herramientas. El español, aunque tienen un largo camino por recorrer, cuentan ya con diccionarios electrónicos, herramientas de stemming.

Para este proceso cada término es buscado en un diccionario y se reemplaza por aquel que mejor lo representa.

Posible problema, la existencia de palabras de distinto significado que guardan una relación formal en cuanto a su raíz de origen.

El analizador devuelve palabras y no fragmentos, por lo que da mejores prestaciones en sistemas dedicados al procesamiento de lenguaje natural.
Suelen ser necesarios:

Diccionario léxico de palabras.
Lista suplementaria de palabras.
Lista de excepciones a las reglas.
Lista de palabras de conversión directa.
Lista de conversiones de nacionalidades.
Lista de nombres propios.




Diagrama de flujo del algoritmo de stemming. 

Stemming por sucesores:

Consiste en la búsqueda de los sufijos y prefijos que mejor representen las posibles ramificaciones de las raíces. 
Se basa en la lingüística y la distribución de los fonemas.
El objetivo es localizar la mínima expresión con significado.
La variedad de sucesores de un segmento dado (de una palabra) es el número de las distintas letras pueden completar el segmento, incrementando la longitud de la raíz en una unidad.



botella, boquerón, brazo, brazaje, botero, botica, blanco

Palabras no normalizables: símbolos, direcciones, nombres, correo/e

No todas las palabras que aparecen en un documento son normalizables, por lo que es preciso realizar una serie de acciones antes, para poder determinar que palabras pueden ser problemáticas a la hora de ser seleccionadas para su tratamiento.

Por ese motivo se realiza un proceso de división del texto, en subdivisiones significado para el usuario que mejoren la precisión (zoning), esta acción permitirá una mejor identificación de las palabras objeto.

Durante la identificación de las palabras clave (processing tokens) se realiza una selección de términos previamente clasificados en:
  • Símbolos de palabra válida: estamos hablando de letras y números.
  • Símbolos entre-palabras (generalmente no buscables): Espacios en blanco, dos puntos “:”, punto y coma“;”.
  • Símbolos de palabras especiales (caracteres o números).
  • Un término es un conjunto de palabras válidas unidas por Inter.-palabras.
  • Se buscan elementos con significado agrupando una o varias palabras en un término.

Posteriormente se realizará un proceso de filtrado, stop-list, que según su estadística de aparición o posición semántica, resta fuerza al indexado.
La frecuencia de aparición es relativamente importante en función de la constancia.
Por último es necesario prestar atención a las palabras con características específicas.
Estas palabras denominadas problemáticas deben ser identificadas, se deben realizar análisis sintácticos y semánticos y tener especial atención hacia los símbolos, direcciones, nombres, correo/e etcétera. Ya que por sus características y no son palabras susceptibles de ser procesadas durante el stemming, (no tendría sentido normalizar de palabras clave a raíces comunes.

Vocabulario controlado. Tesauros

Definición de Tesauro: Lenguaje documental controlado y dinámico que contiene términos relacionados semántica y genéricamente que abarcan de manera exhaustiva una esfera concreta del conocimiento.
Por ese motivo, la utilización de Tesauros se convierte en otra de las posibilidades para realizar la normalización, la utilización de un tesauro permite establecer los parámetros precisos para la ordenación y estructuración de los términos que se están analizando, en torno a la consistencia, que permite el establecer, una herramienta de lenguaje controlado, como es un tesauro, en este caso, para eliminar las posibles ambigüedades derivadas del uso propio del lenguaje en los textos analizados.

CLASIFICACIÓN: CLUSTERING

Consiste en clasificar y aunar elementos del fondo documental según los temas tratados. Se trata, pues, de agrupar objetos dotados de las mismas características. El clustering de palabras se produjo para la realización de tesauros.
Método:
  1. Definición del dominio o universo al que va a ser dedicado el tesauro. Conjunto de los términos que van a componer nuestra base.
  2. Determinación de los atributos de los objetos objeto del clustering: Resulta necesaria la determinación de las palabras sobre las que va a trabajar el sistema. En función del título, abstract, etc. Menos asociaciones erróneas.
  3. Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría.
  4. Aplicación de un algoritmo que realice el proceso del clustering.
Reglas:
  • Buena identificación entre el nombre de la categoría y lo que contiene.
  • El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
  • Un término determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría => creación una nueva categoría con este término.
  • Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías.
Consideraciones:

  • Coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado el realizar clustering sobre frases junto con los términos independientes.
  • Relaciones entre palabras:
> equivalencia (sinónimos),
> jerárquica (termino genérico-término particular)
> no jerárquica (objeto-atributo).
  • Relaciones entre palabras dos: Atendiendo a Parte- todo, ubicación (según términos aparecen en la misma unidad,- frase, párrafo , etc.), taxonomía, sinónimos y antónimos.
  • Polisemias: Palabras con múltiples significados. Se requiere que el usuario|texto dé información sobre el significado del término, aunque este puede ser inferido de un conjunto de peticiones de un mismo usuario.
  • Vocabulario: Reglas sobre la normalización de los vocablos. Equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).
Clustering
  • Clusters nuevos [Salton].
Tabla de relaciones doc-term.
Funciones de similitud.
  • Cluster existentes.
Tabla de relaciones doc-term.
Estimación del centroide de cada categoría.
Funciones de similitud.
Tabla de relaciones clase-term o clase-doc.

Definición: Función de Similitud o similaridad.
Función destinada a evaluar la cercanía entre los representantes.
Ejemplos:

Peculiaridad, las consultas.
• Descripción de un tema de interés.
• Representación parcial de la información demandada al sistema.
• Comunicación entre el usuario y el sistema.
• Pretende obtener documentos de su interés.
Los documentos.
• Son los elementos a ser recuperados en función de la consulta. El sistema los gestiona manteniendo información sobre su contenido a ser usada en la recuperación.
El sistema.
• Gestor y almacén de los documentos para su recuperación eficiente.
Las funciones de similitud, se pueden ser varias, evalúan la cercanía entre documentos, la cercanía entre documentos y consultas y la relación entre términos.


Conceptos a tener en cuenta:
  • Clustering: Agrupar objetos dotados de las mismas características. Clasificar y aunar elementos del fondo según los temas tratados.
  • Tesauro: Sistema encargado de realizar una expansión de los términos mediante palabras que guardan similitud. Mantiene una relación de términos relacionados.
  • Tesauro automático: Clasificación mediante técnicas estadísticas de los términos de los documentos para agrupar los que estén relacionados.
  • Las clases reflejan el uso de los términos en el cuerpo de documentos.
  • La coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado realizar clustering sobre frases junto con los términos independientes.
  • Relaciones entre palabras: Equivalencia (sinónimos), jerárquica (termino genérico-término particular), no jerárquica (objeto-atributo).
  • Polisemia: Dificulta el proceso del clustering. El mismo término identifica conceptos distintos. Se crean vínculos no reales. Se requiere desambiguación o normalización previa.
  • Sinonimia: Crea múltiples clases. Enmascara vínculos entre elementos. Necesidad de normalización.
Deben tenerse en cuenta también, las reglas sobre la normalización de los vocablos y el equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).

Proceso para la realización:
  1. Definición del dominio o universo al que va a ser dedicado el tesauro: Conjunto de los elementos que van a componer nuestra base.
  2. Determinación de los atributos de los objetos sobre los que se realizará el clustering: Definición de los atributos que definen los objetos a clasificar.
  3. Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría: Valor umbral.
  4. Aplicación de un algoritmo que realice el proceso del clustering.
Reglas sobre las categorías:
  • Buena identificación entre el nombre de la categoría y los elementos que contiene.
  • El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
  • Un elemento determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría es necesario crear nuevas categorías dentro de ésta.
  • Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías, pero da mejores resultados.
Modelos del clustering:
El clustering se puede realizar de dos maneras:
  • Aglomeración: Los elementos se agrupan en pares para formar conjuntos mayores.
  • División: Los elementos se sitúan en una única categoría. El sistema realiza divisiones entre los conjuntos de elementos con diferencias más marcadas.



Clusters nuevos: Método de relaciones completas.
1. Tabla de relaciones doc-term.
2. Funciones de similitud.
Cluster existentes: K-terms.
1. Tabla de relaciones doc-term.
2. Estimación del centroide de cada categoría.
3. Funciones de similitud.
4. Tabla de relaciones clase-term o clase-doc.




Proceso de clusterig, ejercicio


  • Análisis de la frecuencia de las palabras dentro de la categoría
  • Relación de las palabras más frecuentes.
  • Términos descriptores de la categoría.
  • Técnicas de clustering sobre fragmentos de documento/s.
  • Obtención de relaciones.
  • Vínculos entre zonas que presentan relación temática.
  • Zonas con un número alto de relaciones presentan vínculos temáticos: generación automática de links.
  • Zonas con relaciones con un gran número de zonas (del documento): zona de resumen o conclusiones.

Trabajo sobre buscadores, metabuscadores y buscadores de escritorio