Introducción a los Sistemas Avanzados de Recuperción de Información: ALMACENAMIENTO Y REPRESENTACIÓN DE LA INFORMACIÓN

Representación de la información. Índice inverso, PAT, Firma.

La información es todo aquello que puede ser manejado por un sistema, ya sea como entrada, como proceso, o bien como resultado. De esta forma, podemos clasificar a los sistemas informáticos como sistemas de flujo de información (si la información de entrada y salida es la misma) y sistemas de tratamiento de la información, en los que la información que entra y la que sale es distinta, ya que ha sufrido alguna manipulación.

La información, para que sea útil a nuestro ordenador debe estar representada por símbolos. Tales símbolos por si solos no constituyen la información, sino que la representan.

Índice Inverso:

Estamos ante el método más usado para los sistemas de recuperación de datos y para las bases de datos.

A cada término indexado se le asocian los datos del documento, párrafo, frase, etc. y a cada documento se le identifica por un identificador numérico único.

Se hace un índice de cada término del documento o documentos, anotando su posición y contexto. Se compone de tres tipos de archivos:

• Archivo de documentos.

• Listas de la inversión (posting files).

• Diccionario: lista de palabras que son indexadas junto con punteros al documento del que pertenecen.

Como características propias, destacar la mejor precisión en la recuperación. Pueden realizarse distintos archivos inversos en función de si se trata del abstract o de pies de figura.

En sistemas en el que se permitan la localización por adyacencia se ha de almacenar la posición del término dentro del documento. Con palabras dotadas de un mayor peso estas pueden ser almacenadas junto con información que las pondere o en archivos de índice distintos.

Para ganar prestaciones se puede estructurar el archivo de índices como un árbol binario.

PAT:

Los árboles PAT se construyen sobre todas las sistrings de un texto. Una colección de documentos es concebida como una secuencia numerada de arrays, una sistring se entiende como una subcadena de caracteres. Un árbol PAT es un, por tanto, un árbol digital donde los bits individuales de las claves son usados para decidir derivaciones.

Firma:

El proceso se centra en descartar todos aquellos elementos de la base de datos que no son pertinentes a la búsqueda. Los elementos que no son descartados por este filtro han de ser analizados por otros métodos. Los tiempos de búsqueda son lineales con el número de elementos representados.

Para ello, se codifican las palabras de cada documento, mapeadas en una firma (código). Luego se examinan los tiempos de búsqueda lineales con el número de elementos representados y se almacenan junto con cada línea del texto la relación de firmas (de bloque). Se procesa mediante la operación OR. Para evitar un número alto de “1” en la firma se limita el número de palabras a ser codificadas. Veamos un ejemplo:

Como problemas, señalar, el tamaño del espacio de direcciones de códigos, las grandes longitudes mejoran los problemas de colisión entre términos al ser mapeadas pero los códigos cortos representan mejor los términos mediante las firmas.

Estudios presentan el número óptimo de representación en 1 bit por palabra. Estamos hablando de un vector en el que cada posición representa un término.

N-gramas.

Un n-grama es una subsecuencia de n elementos de una determinada serie. Los artículos en cuestión pueden ser fonemas, sílabas, letras, palabras… de acuerdo a la solicitud.

Un n-grama modelo es un tipo de modelo probabilístico para predecir el orden de una secuencia. n-gramas se emplean en varias áreas de estadística procesamiento del lenguaje natural y el análisis de la secuencia genética.

Estamos ante un método que se sitúa entre el stemming y el archivo inverso.

N-grams: División de las palabras en trozos de palabras de longitud fija n.

Las porciones sirven para indexar el documento.

Ejemplos para “monicaco”.

N = 2 Þ mo, on, ni, ic, ca, ac, co

N = 3 Þ mon, oni, nic, ica, cac, aco

N = 5 Þ monic, onica, nicac, icaco

Cada cadena apunta al documento donde ha sido hallada. El uso del archivo inverso y espacios vectoriales son práctica común. La elección del número N ha de ser realizada en función de las prestaciones que se desean para el sistema:

• Valores de N = 2, 3 presentan las mejores prestaciones

• Si N es grande el sistema se comporta como aquellos que se basan en palabras

Con este método el sistema alcanza una cierta saturación. Al alcanzar cierto valor de saturación, el tamaño de los archivos de apoyo (índice inverso) solo crecen en virtud de las referencias a nuevos archivos:

MaxSegn = ln ,

siendo l el número de los distintos elementos procesables (letras).

Marcos (frames).

Hablamos de una estructura para representar objetos que son comunes a una situación dada, como los estereotipos (los ejemplos típicos). Permite organizar el conocimiento con énfasis en el conocimiento por omisión. Son muy útiles para simular conocimiento de sentido común (área de muy difícil manejo en Computación). Representa el conocimiento relacionado con un tema concreto que cuenta con mucha información predeterminada. Cada marco representa una clase de elementos de la misma manera que un nodo en una red semántica.

Consiste en una serie de slots (ranuras) que representan una propiedad o atributo del elemento. El slot nos da un lugar para colocar sistemáticamente un componente de nuestras experiencias anteriores con relación a las clases de elementos representados.

Se les pueden dar valores y tipos default. La información varía dependiendo del contexto.

Guiones (scripts).

Es una especialización del concepto general de marco, con una estructura que se usa para guardar prototipos de secuencias de sucesos en un contexto en particular.

Se pueden usar componentes, que son condiciones de entrada, condiciones que deben existir para que se aplique el guión. De los resultados del guión surgirán condicionantes que serán verdaderos después de cumplirse los eventos determinados.

Introducción a los Sistemas Avanzados de Recuperción de Información

miércoles, 30 de junio de 2010

ALMACENAMIENTO Y REPRESENTACIÓN DE LA INFORMACIÓN

No hay comentarios:

Publicar un comentario

La recuperación de la información.

Normalización automática de términos.

Almacenamiento y representación de la información.

Indexado automático.

Clasificación: Clustering.

Trabajos de actualidad.

Algunos sistemas de recuperación en internet.