miércoles, 30 de junio de 2010

INDEXADO AUTOMÁTICO

Nos encontramos ante un proceso de análisis de un elemento para la extracción de información que será almacenada permanentemente en un índice. Este proceso viene asociado con la generación de una estructura de datos asociada que facilita la recuperación de la información.

En primer lugar, el sistema toma documentos y los almacena y ordena de una manera eficiente en función de variables.

Posteriormente, el sistema recibe peticiones, por parte del usuario, de documentos sobre un tema dado que le permitirá realizar búsquedas y obtener presentaciones de los documentos.
Este proceso viene asociado con la generación de una estructura de datos asociada que facilita la recuperación de la información. El proceso típico es el de la normalización que permite la reducción a términos estándar del texto analizado.

Pautas del proceso:
• Zonig
• Processing tokens
• Stop-lists
• Palabras específicas
• Normalización
• Actualización de la base (Uso en la estructura de datos dedicada a la búsqueda y representación de los elementos de la base.)
En cuanto a los modelos conceptuales, podemos determinar según los SRIs tengan unas características u otras, que pertenecen a una familia u otra. Las clasificaciones de los modelos han sido varias. Faloutsos proponía: búsqueda en patrones de texto, ficheros inversos y búsqueda de patrones de bits. O por ejemplo también Belkin y Croft, que los dividían en exactos: que incluían a los modelos de búsqueda con base a patrones y a técnicas booleanas, e inexactos: con técnicas probabilísticas, espacios vectoriales y técnicas de clustering, entre otros.

Estas clasificaciones no son completamente exactas, puesto que estas propiedades, no son mutuamente excluyentes y se pueden mezclar entre sí.
En general se pueden dividir en dos tipos:

Booleanos
Búsqueda por patrones de texto: Mediante cadenas de caracteres o expresiones regulares.

En cuanto a los modelos estadísticos son los más ampliamente utilizados. Frecuencias de aparición de términos (palabras y frases) para calcular su posible relevancia. También antiguamente la estadística se empleaba en el rankings (en medios booleanos).

El método estadístico se supone invariante bajo cambios de proceso de cálculo y de sistema de almacenamiento (distintas bases de datos y distintos algoritmos) =>; fácil integración junto con distintos algoritmos de recuperación.

Es posible aplicar directamente la teoría probabilística a los sistemas de recuperación de información y realizar estudios estadísticos de la adecuación de la respuesta a la petición. Su invariabilidad hace de esta teoría fácilmente aplicable a distintos sistemas de recuperación de la información
Como problemas podemos destacar la posible falta de datos, los errores a los que puede inducir las simplificaciones del modelo matemático y los consiguientes problemas de la estadística en la recuperación de la información.

A continuación se expone una lista de términos a considerar:

QAF: Frecuencias de aparición de términos en la consulta.
QRF: Frecuencia relativa en la cuestión. QAF / número de términos en la cuestión.
DAF: Frecuencias de aparición de términos en el documento.
RDF: DAF / número de palabras en el documento.
IDF: Frecuencias de aparición de términos en la base.
RFAD: Frecuencia relativa del término en todos los documentos. Nº de encuentros de los términos en la base / nº de palabras en la base.


Considerando la posibilidad de crear estas matrices atendiendo a los documentos y a la aparición y repetición de los términos contenidos en ellos, es posible definir un vector de un documento Di atendiendo a la frecuencia de aparición del término en un determinado documento.

Por lo tanto los términos dotan de una dimensión espacial vectorial al documento.
Cada posición en el vector representa un término que ha ser considerado (palabra | concepto).
El orden de los valores en el vector es fijo y representa un dominio particular.

Para poder realizar la vectorialización los conceptos han de ser mapeados sobre un conjunto preestablecido de conceptos:

• Número finito de conceptos como base.
• La base debería ser ortogonal.
• Dimensión de la base de conceptos limitado por la técnica.

En cuanto a su representación, son posibles dos:

Binaria: cada coordenada valora cero o uno según la pertinencia.
• Grado de importancia decide la inclusión. si se le incluye dentro del vector.
• Necesidad de parámetro umbral .
• Problemas con la capacidad de discriminación del sistema de recuperación de la información.

Ponderada: La pertinencia queda representada mediante un conjunto continuo de valores (Â). Los valores de cada coordenada (de cada término) determinan la importancia del término (palabra|concepto) para representar el texto.


En cuanto a la búsqueda por palabras, nos encontramos ante un procedimiento centrado en la utilización del lenguaje natural que usa la información semántica de los textos para facilitar su recuperación. Este procedimiento mejora de la precisión y recuperación.
Modelo (simples) selección de frases que representan el concepto.
Modelos avanzados la generan una frase resumen (no una frase representativa seleccionada del texto). Sin embargo es preciso tener en cuenta el contexto. Las palabras contienen sentido conceptual en función de ese contexto en el que se sitúen. El uso de frases que representen conceptos mejorará la precisión. Por otro lado también el uso de términos como modificadores de otros permite discriminar los elementos de la base. Por ejemplo: el término “campo” impreciso que sin modificadores como “eléctrico”, “base de datos”, “hierba”, etc. no queda bien contextualizado.


Para la ponderación es necesaria la evaluación de cada término. Esta ponderación se realiza en función de la frecuencia de aparición que determina la fuerza con que es representado en el modelo vectorial.
Los valores medibles en un sistema de recuperación de información son:
• TF à frecuencia de aparición del término en el elemento a evaluar.
• TOTF à frecuencia de aparición del término en toda la base.
• IF ò DF à número de documentos en los que aparece el término.
La importancia es directamente proporcional con el número de apariciones del término dentro del documento y es inversamente proporcional con el número de apariciones del término a lo largo de la base de datos.
La Frecuencia de aparición:
El identificador tiene una importancia directamente proporcional al número de apariciones. TFij El problema reside en el tamaño de algunos documentos que presentan una mayor probabilidad de tener más apariciones de términos.

Frecuencia de aparición normalizada:

Frecuencia de términos máxima. El identificador tiene una importancia directamente proporcional al número de apariciones, normalizada por el tamaño del documento.
Como resultado se obtiene mucha penalización a los documentos pequeños. Sus frecuencias suelen ser menores que las de los documentos grandes, largos, que suelen ser los más relevantes.

Frecuencia de términos logarítmica.
Pesoij = a + Log TFij a = cte.
En este caso, se atenúa la fuerza de valores grandes (documentos grandes). Dando una frecuencia de aparición normalizada al valor medio, con funciones logarítmicas.

o Sistema SMART
Elimina los posibles errores de escritura (palabras únicas)
Algoritmo de ponderación según fórmula:

pendiente (» 0.2)
pivote (» valor medio de la aparición de términos únicos).

Los problemas anteriores con el modelo vectorial pueden ser solventados dado que el uso de esta función logarítmica permite que los documentos largos no se vean muy penalizados (uso del valor medio). También las funciones logarítmicas restan importancia a valores altos esporádicos. Y la normalización se realiza atendiendo al tamaño, para favorecer los documentos grandes frente a los pequeños (pivote).

Frecuencia inversa
Ponderación se realiza según la relevancia de un término con la inversa de su frecuencia de aparición a lo largo de la base de datos.

TFij es la frecuencia de aparición del término j en el documento i.
 n es el número de documentos en la base.
IFj es el número de documentos en la base que poseen el término j.

Los valores cambian dinámicamente según se añaden nuevos términos a la base.
Solo la frecuencia de aparición de los términos en cada documento es almacenada.
Los cálculos de la importancia del documento son realizados en el momento de la recuperación.

Ponderación de la señal
Los métodos expuestos anteriormente no presentan discriminación en función de la frecuencia de aparición de los términos en los distintos documentos.
Si se quieren buscar documentos con los términos T1 y T2 y se encuentran en los documentos:

Los dos términos presentan unas estadísticas idénticas dentro de la base pero no para cada documento.


La ponderación en los lenguajes naturales sigue una serie de pasos:

1.Análisis de los términos. Se mapean los términos contra una base de códigos temáticos. Es una fase de normalización.
2.Relaciones entre los códigos temáticos para eliminar ambigüedades mediante métodos estadísticos.
3.Estructuración del texto, identificando las partes (presentación-nudo-desenlace, o evaluación-hechos-expectativas en noticias).

Con ellos se logran sistemas de análisis de información para buscar relaciones del tipo causa efecto. Donde la determinación de estas áreas facilita la ponderación por separado de cada área.

No hay comentarios:

Publicar un comentario