Introducción a los Sistemas Avanzados de Recuperción de Información: sistemas de representación

Mostrando entradas con la etiqueta sistemas de representación. Mostrar todas las entradas

miércoles, 30 de junio de 2010

INDEXADO AUTOMÁTICO

Nos encontramos ante un proceso de análisis de un elemento para la extracción de información que será almacenada permanentemente en un índice. Este proceso viene asociado con la generación de una estructura de datos asociada que facilita la recuperación de la información.

En primer lugar, el sistema toma documentos y los almacena y ordena de una manera eficiente en función de variables.

Posteriormente, el sistema recibe peticiones, por parte del usuario, de documentos sobre un tema dado que le permitirá realizar búsquedas y obtener presentaciones de los documentos.

Este proceso viene asociado con la generación de una estructura de datos asociada que facilita la recuperación de la información. El proceso típico es el de la normalización que permite la reducción a términos estándar del texto analizado.

Pautas del proceso:

• Zonig

• Processing tokens

• Stop-lists

• Palabras específicas

• Normalización

• Actualización de la base (Uso en la estructura de datos dedicada a la búsqueda y representación de los elementos de la base.)

En cuanto a los modelos conceptuales, podemos determinar según los SRIs tengan unas características u otras, que pertenecen a una familia u otra. Las clasificaciones de los modelos han sido varias. Faloutsos proponía: búsqueda en patrones de texto, ficheros inversos y búsqueda de patrones de bits. O por ejemplo también Belkin y Croft, que los dividían en exactos: que incluían a los modelos de búsqueda con base a patrones y a técnicas booleanas, e inexactos: con técnicas probabilísticas, espacios vectoriales y técnicas de clustering, entre otros.

Estas clasificaciones no son completamente exactas, puesto que estas propiedades, no son mutuamente excluyentes y se pueden mezclar entre sí.

En general se pueden dividir en dos tipos:

• Booleanos

• Búsqueda por patrones de texto: Mediante cadenas de caracteres o expresiones regulares.

En cuanto a los modelos estadísticos son los más ampliamente utilizados. Frecuencias de aparición de términos (palabras y frases) para calcular su posible relevancia. También antiguamente la estadística se empleaba en el rankings (en medios booleanos).

El método estadístico se supone invariante bajo cambios de proceso de cálculo y de sistema de almacenamiento (distintas bases de datos y distintos algoritmos) =>; fácil integración junto con distintos algoritmos de recuperación.

Es posible aplicar directamente la teoría probabilística a los sistemas de recuperación de información y realizar estudios estadísticos de la adecuación de la respuesta a la petición. Su invariabilidad hace de esta teoría fácilmente aplicable a distintos sistemas de recuperación de la información

Como problemas podemos destacar la posible falta de datos, los errores a los que puede inducir las simplificaciones del modelo matemático y los consiguientes problemas de la estadística en la recuperación de la información.

A continuación se expone una lista de términos a considerar:

• QAF: Frecuencias de aparición de términos en la consulta.

• QRF: Frecuencia relativa en la cuestión. QAF / número de términos en la cuestión.

• DAF: Frecuencias de aparición de términos en el documento.

• RDF: DAF / número de palabras en el documento.

• IDF: Frecuencias de aparición de términos en la base.

• RFAD: Frecuencia relativa del término en todos los documentos. Nº de encuentros de los términos en la base / nº de palabras en la base.

Sistemas vectoriales. Términos. Frases. Conceptos.

Considerando la posibilidad de crear estas matrices atendiendo a los documentos y a la aparición y repetición de los términos contenidos en ellos, es posible definir un vector de un documento Di atendiendo a la frecuencia de aparición del término en un determinado documento.

Por lo tanto los términos dotan de una dimensión espacial vectorial al documento.

Cada posición en el vector representa un término que ha ser considerado (palabra | concepto).

El orden de los valores en el vector es fijo y representa un dominio particular.

Para poder realizar la vectorialización los conceptos han de ser mapeados sobre un conjunto preestablecido de conceptos:

• Número finito de conceptos como base.

• La base debería ser ortogonal.

• Dimensión de la base de conceptos limitado por la técnica.

En cuanto a su representación, son posibles dos:

Binaria: cada coordenada valora cero o uno según la pertinencia.

• Grado de importancia decide la inclusión. si se le incluye dentro del vector.

• Necesidad de parámetro umbral .

• Problemas con la capacidad de discriminación del sistema de recuperación de la información.

Ponderada: La pertinencia queda representada mediante un conjunto continuo de valores (Â). Los valores de cada coordenada (de cada término) determinan la importancia del término (palabra|concepto) para representar el texto.

Búsqueda por palabras.

En cuanto a la búsqueda por palabras, nos encontramos ante un procedimiento centrado en la utilización del lenguaje natural que usa la información semántica de los textos para facilitar su recuperación. Este procedimiento mejora de la precisión y recuperación.

Modelo (simples) selección de frases que representan el concepto.

Modelos avanzados la generan una frase resumen (no una frase representativa seleccionada del texto). Sin embargo es preciso tener en cuenta el contexto. Las palabras contienen sentido conceptual en función de ese contexto en el que se sitúen. El uso de frases que representen conceptos mejorará la precisión. Por otro lado también el uso de términos como modificadores de otros permite discriminar los elementos de la base. Por ejemplo: el término “campo” impreciso que sin modificadores como “eléctrico”, “base de datos”, “hierba”, etc. no queda bien contextualizado.

Ponderación de términos: IF, IDF, TDTF, Señal, parejas.

Para la ponderación es necesaria la evaluación de cada término. Esta ponderación se realiza en función de la frecuencia de aparición que determina la fuerza con que es representado en el modelo vectorial.

Los valores medibles en un sistema de recuperación de información son:

• TF à frecuencia de aparición del término en el elemento a evaluar.

• TOTF à frecuencia de aparición del término en toda la base.

• IF ò DF à número de documentos en los que aparece el término.

La importancia es directamente proporcional con el número de apariciones del término dentro del documento y es inversamente proporcional con el número de apariciones del término a lo largo de la base de datos.

La Frecuencia de aparición:

El identificador tiene una importancia directamente proporcional al número de apariciones. TFij El problema reside en el tamaño de algunos documentos que presentan una mayor probabilidad de tener más apariciones de términos.

Frecuencia de aparición normalizada:

• Frecuencia de términos máxima. El identificador tiene una importancia directamente proporcional al número de apariciones, normalizada por el tamaño del documento.

Como resultado se obtiene mucha penalización a los documentos pequeños. Sus frecuencias suelen ser menores que las de los documentos grandes, largos, que suelen ser los más relevantes.

• Frecuencia de términos logarítmica.

Pesoij = a + Log TFij a = cte.

En este caso, se atenúa la fuerza de valores grandes (documentos grandes). Dando una frecuencia de aparición normalizada al valor medio, con funciones logarítmicas.

o Sistema SMART

Elimina los posibles errores de escritura (palabras únicas)

Algoritmo de ponderación según fórmula:

pendiente (» 0.2)

pivote (» valor medio de la aparición de términos únicos).

Los problemas anteriores con el modelo vectorial pueden ser solventados dado que el uso de esta función logarítmica permite que los documentos largos no se vean muy penalizados (uso del valor medio). También las funciones logarítmicas restan importancia a valores altos esporádicos. Y la normalización se realiza atendiendo al tamaño, para favorecer los documentos grandes frente a los pequeños (pivote).

• Frecuencia inversa

Ponderación se realiza según la relevancia de un término con la inversa de su frecuencia de aparición a lo largo de la base de datos.

TFij es la frecuencia de aparición del término j en el documento i.

n es el número de documentos en la base.

IFj es el número de documentos en la base que poseen el término j.

Los valores cambian dinámicamente según se añaden nuevos términos a la base.

Solo la frecuencia de aparición de los términos en cada documento es almacenada.

Los cálculos de la importancia del documento son realizados en el momento de la recuperación.

• Ponderación de la señal

Los métodos expuestos anteriormente no presentan discriminación en función de la frecuencia de aparición de los términos en los distintos documentos.

Si se quieren buscar documentos con los términos T1 y T2 y se encuentran en los documentos:

Los dos términos presentan unas estadísticas idénticas dentro de la base pero no para cada documento.

Ejercicio sobre indexación

Abrir publicación

La ponderación en los lenguajes naturales sigue una serie de pasos:

1.Análisis de los términos. Se mapean los términos contra una base de códigos temáticos. Es una fase de normalización.

2.Relaciones entre los códigos temáticos para eliminar ambigüedades mediante métodos estadísticos.

3.Estructuración del texto, identificando las partes (presentación-nudo-desenlace, o evaluación-hechos-expectativas en noticias).

Con ellos se logran sistemas de análisis de información para buscar relaciones del tipo causa efecto. Donde la determinación de estas áreas facilita la ponderación por separado de cada área.

CLASIFICACIÓN: CLUSTERING

Consiste en clasificar y aunar elementos del fondo documental según los temas tratados. Se trata, pues, de agrupar objetos dotados de las mismas características. El clustering de palabras se produjo para la realización de tesauros.

Método:

Definición del dominio o universo al que va a ser dedicado el tesauro. Conjunto de los términos que van a componer nuestra base.
Determinación de los atributos de los objetos objeto del clustering: Resulta necesaria la determinación de las palabras sobre las que va a trabajar el sistema. En función del título, abstract, etc. Menos asociaciones erróneas.
Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría.
Aplicación de un algoritmo que realice el proceso del clustering.

Reglas:

Buena identificación entre el nombre de la categoría y lo que contiene.
El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
Un término determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría => creación una nueva categoría con este término.
Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías.

Consideraciones:

Coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado el realizar clustering sobre frases junto con los términos independientes.
Relaciones entre palabras:

> equivalencia (sinónimos),

> jerárquica (termino genérico-término particular)

> no jerárquica (objeto-atributo).

Relaciones entre palabras dos: Atendiendo a Parte- todo, ubicación (según términos aparecen en la misma unidad,- frase, párrafo , etc.), taxonomía, sinónimos y antónimos.
Polisemias: Palabras con múltiples significados. Se requiere que el usuario|texto dé información sobre el significado del término, aunque este puede ser inferido de un conjunto de peticiones de un mismo usuario.
Vocabulario: Reglas sobre la normalización de los vocablos. Equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).

Clustering

Clusters nuevos [Salton].

Tabla de relaciones doc-term.

Funciones de similitud.

Cluster existentes.

Tabla de relaciones doc-term.

Estimación del centroide de cada categoría.

Funciones de similitud.

Tabla de relaciones clase-term o clase-doc.

Funciones de similitud.

Definición: Función de Similitud o similaridad.

Función destinada a evaluar la cercanía entre los representantes.

Ejemplos:

Peculiaridad, las consultas.

• Descripción de un tema de interés.

• Representación parcial de la información demandada al sistema.

• Comunicación entre el usuario y el sistema.

• Pretende obtener documentos de su interés.

Los documentos.

• Son los elementos a ser recuperados en función de la consulta. El sistema los gestiona manteniendo información sobre su contenido a ser usada en la recuperación.

El sistema.

• Gestor y almacén de los documentos para su recuperación eficiente.

Las funciones de similitud, se pueden ser varias, evalúan la cercanía entre documentos, la cercanía entre documentos y consultas y la relación entre términos.

Función se similitud

Clustering. Generación automática de tesauros.

Conceptos a tener en cuenta:

Clustering: Agrupar objetos dotados de las mismas características. Clasificar y aunar elementos del fondo según los temas tratados.
Tesauro: Sistema encargado de realizar una expansión de los términos mediante palabras que guardan similitud. Mantiene una relación de términos relacionados.
Tesauro automático: Clasificación mediante técnicas estadísticas de los términos de los documentos para agrupar los que estén relacionados.
Las clases reflejan el uso de los términos en el cuerpo de documentos.
La coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado realizar clustering sobre frases junto con los términos independientes.
Relaciones entre palabras: Equivalencia (sinónimos), jerárquica (termino genérico-término particular), no jerárquica (objeto-atributo).
Polisemia: Dificulta el proceso del clustering. El mismo término identifica conceptos distintos. Se crean vínculos no reales. Se requiere desambiguación o normalización previa.
Sinonimia: Crea múltiples clases. Enmascara vínculos entre elementos. Necesidad de normalización.

Deben tenerse en cuenta también, las reglas sobre la normalización de los vocablos y el equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).

Proceso para la realización:

Definición del dominio o universo al que va a ser dedicado el tesauro: Conjunto de los elementos que van a componer nuestra base.
Determinación de los atributos de los objetos sobre los que se realizará el clustering: Definición de los atributos que definen los objetos a clasificar.
Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría: Valor umbral.
Aplicación de un algoritmo que realice el proceso del clustering.

Reglas sobre las categorías:

Buena identificación entre el nombre de la categoría y los elementos que contiene.
El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
Un elemento determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría es necesario crear nuevas categorías dentro de ésta.
Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías, pero da mejores resultados.

Modelos del clustering:

El clustering se puede realizar de dos maneras:

Aglomeración: Los elementos se agrupan en pares para formar conjuntos mayores.
División: Los elementos se sitúan en una única categoría. El sistema realiza divisiones entre los conjuntos de elementos con diferencias más marcadas.

Clusters nuevos: Método de relaciones completas.

1. Tabla de relaciones doc-term.

2. Funciones de similitud.

Cluster existentes: K-terms.

1. Tabla de relaciones doc-term.

2. Estimación del centroide de cada categoría.

3. Funciones de similitud.

4. Tabla de relaciones clase-term o clase-doc.

Proceso de clusterig, ejercicio

Categorías con nombre.

Análisis de la frecuencia de las palabras dentro de la categoría
Relación de las palabras más frecuentes.
Términos descriptores de la categoría.

Resumen automático.

Técnicas de clustering sobre fragmentos de documento/s.

Obtención de relaciones.
Vínculos entre zonas que presentan relación temática.
Zonas con un número alto de relaciones presentan vínculos temáticos: generación automática de links.
Zonas con relaciones con un gran número de zonas (del documento): zona de resumen o conclusiones.

Introducción a los Sistemas Avanzados de Recuperción de Información

miércoles, 30 de junio de 2010

INDEXADO AUTOMÁTICO

CLASIFICACIÓN: CLUSTERING

La recuperación de la información.

Normalización automática de términos.

Almacenamiento y representación de la información.

Indexado automático.

Clasificación: Clustering.

Trabajos de actualidad.

Algunos sistemas de recuperación en internet.