miércoles, 30 de junio de 2010

PRESENTACIÓN



El siguiente blog ha sido elaborado con el motivo de realizar un trabajo final para la asignatura de Sistemas Avanzados de Recuperación de la Información impartida en la Facultad de Documentación de la Universiad de Alcalá, por lo profesores Jose Raúl Fernández del Castillo Díez y Alfonso López Baca.
El objetivo principal se ha centrado en intertar plasmar, con los medios que existen al alcance del alumno, los contenidos recibidos durante el desarrollo de la asignatura, el núcleo central de la materia que se expone en este blog ha sido obtenido y plasmado de los materiales docentes de los profesores y el esfuerzo del propio alumno. 
Todos los trabajos presentados y realizados en este blog, han sido elaborados, editados y organizados por © 2010 Roberto C. Álvarez
Para ir centrando la materia de la que se tratará en el blog y contextualizar la situación en la que se encuentra la socieda gloabal en cuanto a la gran cantidad de información que existe en la red, a continuación pueden ver un vídeo muy ilustrativo sobre el estado de internet:


LA RECUPERACIÓN DE LA INFORMACIÓN

Fundamentos

¿En qué consiste la Recuperación de la información?

La Recuperación de Información tiene su fundamentación en la Teoría de la Información formulada por Claude E. Shannon.
La teoría de la información investiga la probabilidad de los sucesos inciertos y trata de cuantificar numéricamente cuanta información aporta cada pista o hecho conocido que ayuda a reducir la incertidumbre.

Donde las pi son las probabilidades de ocurrencia de cada uno de los sucesos posibles compatibles con el conocimiento cierto que tenemos.

En cuanto a la RI, se basa en la capacidad del sistema de obtener un documento previamente deseado por un usuario, entre todos los documentos existentes. Discriminando la información útil de la información innecesaria denominada “ruido”
Del tratamiento de la información de manera óptima se podrá obtener conocimiento y ahí radica la importancia del buen funcionamiento de estos sistemas.

Un SRI puede almacenar información, tratarla para su recuperación y realizar un mantenimiento apropiado de ella.
• Indexado, búsqueda y recuperación de información (documentos)• Sistemas de entrada/salida: solicitud/resultado

Una consulta representa la necesidad de un usuario por obtener una información determinada, que el SRI debe satisfacer de la manera más apropiada.

En cuanto a las Bases de datos y su relación con los SRI, es importante tener en cuenta que una BD, carece de las funciones necesarias para procesar la información no estructurada, es decir, carecen de tuplas, donde se recojan determinados datos que organicen y estructuren la información reflejada en los documentos. El SRI trabaja sobre el documento que contiene la información y sobre las palabras que contiene, intentando intuir la información que pueden almacenar. Otra diferencia reside en el tamaño y cantidad de información con la que deben operar, al no estar organizada, este trabajo es mayor que en las BBDD.

Niveles conceptuales del documento

Un documento, en este caso, se trata de un conjunto de información o ideas plasmado en un soporte determinado, bajo una estructura y un contenido elaborado y seleccionado por su autor. En el caso de los SRI, tenemos que hablar de documentos que sea capaz de procesar, es decir, electrónicos o digitales, que contengan texto, imágenes, sonido, vídeo, etc.
Para lograr entender este proceso, es necesario alcanzar a entender los niveles conceptuales que conformarían el documento y su información, siendo éstos los siguientes:
  • Atributos externos.
    • Información y datos no contenidos en el documento.
    • Autor, tipo de acceso, tipo de publicación, fecha, etc.
    • Metadatos.
  • Estructura lógica.
    • Estructura del documento: capítulos, secciones, párrafos.
    • Información contenida en el documento.
    • Distribución en árbol (información en las hojas).
    • Hiperlinks: permiten una estructura no jerarquizada.
  • Estructura de la distribución.
    • Medio de presentación / salida.
    • Mapeo de la estructura sobre el medio de salida.
    • Distribución espacial y temporal de la salida.
  • Contenido.
    • Significado del documento => tema principal.
    • Estructura lógica => contenido.
    • Grupo de conceptos.
Por ejemplo, cuando utilizamos un SRI, se puede optar por obtener información a cerca de la fecha en la que se elaboró el documento, el tamaño del documento o palabras que contiene el mismo documento.

Ejemplo de búsqueda de documento por fecha en windows search:


Algunos conceptos sobre el documento y su tratamiento en los SRI.

Los documentos están formados por conceptos, representados a través de letras, palabras, sintagmas, frases, párrafos y secciones. Luego podríamos intentar representar los documentos de la siguiente manera:

Como un conjunto de términos que los caracterizan.

Para la selección del término más representativos de esos documentos se debe responder a una cuestión de frecuencia de aparición de los términos durante los documentos:
Para poder ejecutar este proceso con mayor precisión será necesario el intentar normalizar (stemming) los términos recuperados, atendiendo a una cuestión de estructura léxica permitiendo en cierta medida agrupar los términos con una misma raíz bajo una equivalencia operativa en torno a un mismo concepto.

En cuanto a la frecuencia de aparición de los términos es posible preveer que los términos que aparecen con menor frecuencia equivaldrán a palabras poco significativas por su leve aparición tanto para el documento, como para el conjunto de documentos (dependiendo de donde estemos aplicando el estudio).

Por otro lado los términos con un mayor número de apariciones, serán casi con total probabilidad las palabras vacías, determinantes, preposiciones y demás que tampoco aportan ningún valor al análisis.

Finalmente nos quedarían las palabras con un índice de aparición moderado, que suponen el núcleo de estudio.


Problemas en la recuperación: Sinonimia, polisemia, metonimia, anáfora. La barrera de las palabras


En cuanto a los problemas que pueden presentar la recuperación nos encontramos ante las ambigüedades propias del lenguaje, entre otras:

Sinonimia: La existencia de dos términos diferentes pero con que representan el mismo concepto. Mantienen una relación de equivalencia. Pero se indexan por separado.

Polisemia: Un mismo léxico (se escriben igual) puede poseer diversos significados. Por ese motivo la búsqueda a través de este término, puede reducir la precisión en la recuperación.

Metáfora: Consiste en emplear un término con un significado distinto del que habitualmente posee pero guardando cierta analogía.

Anáfora: El uso continuado de pronombres que se refieren a frase pretéritas o pertenecientes al acervo cultural. Las palabras que definen el texto no están presentes en las frases determinantes.

Variabilidad de frases: La capacidad del lenguaje para construir frases con diferentes construcciones y estructuras puede dificultar las búsquedas.

Relaciones entre palabras. Frases: Un concepto a veces debe ser definido por una frase. La diferenciación de esos conceptos puede depender de la construcción de la frase.

Sensibilidad al contexto: El contexto arroja información sobre el significado ambiguo de diferentes frases.


Recuperación conceptual

La recuperación de la información en su vertiente usuario/sistema, viene determinada por la estructura del sistema y su capacidad para permitir y responder a las consultas (Queries) realizadas por el usuario.
Esa respuesta facilitará una representación parcial de la información demandada por el usuario en sistema.
La calidad de esta respuesta, depende de varios factores y puede ser medida respondiendo a unos indicadores, que atienden al concepto de Documento relevante:


Número de documentos relevantes recuperados
Exhaustividad = _________________________________________

Número total de documentos relevantes
presentes en el fondo documental



Número de documentos relevantes recuperados
Precisión = ______________________________________

Número total de documentos recuperados

Suponiendo pertinencia binaria e independiente del resto de los documentos.

Para poder evaluar el sistema es preciso poder conocer ciertas cifras necesarias como la base de la colección de documentos, lanzar varias consultas para el estudio, conocer la relevancia de los documentos etc. (ver trabajo de buscadores)

Bloques de un Sistema de Recuperación de la Información. Diseño de un sistema

La estructura de un SRI se caracteriza por contener las siguientes partes:

Estructuras de almacenamiento:Listas de palabras clave:
Archivos de índice inverso.
Vectores.
Categorías.
Centroides.
Frames.
Scripts.
Árboles-conceptos.

Espacios multidimensionales:
Según herramienta:
  • Kohonen => 2D
  • Vectores => nD
Según variables: nD

En cuanto a los sistemas actuales, se muestran bajo el desarrollo necesario de los lenguajes naturales, el Stemming, la ponderación de ranking según modelos probabilísticos el feedback por relevancia, las búsquedas con booleanos y por adyacencia, Interface GUI, scripts para la ejecución de baterías de perfíles. Y en cuanto a la información que puede observarse, hay que centrarse en la determinación de los pesos, los rankings, el uso del feedback, la repetición de consultas en todo o en parte etcétera.

Por otro lado Internet se ha convertido en el entorno de investigación perfecto para este tipo de búsquedas, por el elevado número de documentos generados y distribuidos, la falta de estructuración de los contenidos... Los usuarios necesitan de los motores de búsqueda para localizar la información que están buscando. La clasificación generalmente se realizará entorno a la frecuencia de aparición de los términos de la consulta (Query) y/o del grado de popularidad aunque pueden seguir diferentes filosofías:

Basados en términos:
  • Los términos definen el documento y los temas de la búsqueda.
Popularity (popularidad).
  • Hacen un estudio del número de links que apuntan a la página ponderada/buscada.
  • Estudian la relación existente entre consultas anteriores (similares) y los documentos que los usuarios han determinado como pertinentes.
Procesamiento de Lenguaje Natural (NL Semantic-based search engines).
  • Determinación del concepto de las consultas.
  • Determinación del concepto de los documentos.
Basados en Clustering.
  • Clasifican los documentos según el tema.

NORMALIZACIÓN AUTOMÁTICA DE TÉRMINOS

Normalización. Representación canónica.


Existen diferentes modelos con sus diversas posibilidades para la normalización de los términos.
Estos giran en torno a dos bloques principales:

Stemming
Concepto:
  • Menor consumo de recursos del sitema.
  • Necesidad de equilibrio entre recuperación y precisión.
  • Se basa en el mapeado o reducción de las posibles alternativas morfológicas a una única representación.
  • Por lo tanto reduce la pluralidad en las representaciones de los conceptos.
  • Es la representación más cercana a la forma canónica.
  • Conlleva la pérdida de precisión (menos discriminación).

Base teórica:
  • La raíz de la palabra contiene pleno significado del término.
  • Los sufijos y prefijos son modificadores sintácticos.
  • Es preciso combatir las excepciones del lenguaje.

Implicaciones:
  • Creación de los archivos inversos.
  • Controlar la presencia de términos como la presencia de nombres propios, acrónimos y otras reglas no tradicionales.
  • En algunos sistemas este proceso implica demasiada pérdida de información semántica: NPL (procesamiento del lenguaje natural), análisis conceptual.
El Archivo inverso

Es capaz de mejorar los tiempos de acceso cuando la búsqueda se ha de realizar bajo la dependencia de varios índices.
Suele ser el método más común.
Algunas de sus variantes:
  • N-gram.
  • Firma.


Tipos de normalización. Diccionario. Sucesores. Porter.


Stemming mediante Algoritmo de Porter:
Basado en la relación entre raíz, prefijo y sufijo. Este logaritmo se centra en las reglas gramaticales que pueden existir en una determinada lengua.
En definitiva facilita un protocolo de actuación que mediante una serie de procesos pretende alcanzar la raíz de los términos.

Proceso:
1. Evaluación de la longitud del término: representado por C(VC)mV
 2. * --> la raíz termina en X.
3. *V*  --> la raíz contiene vocal.
4. *d --> la raíz finaliza en doble consonante.

Ejemplo:
   

Ej.: duplicatable

Regla 4 --> duplicat
Regla 1b1 --> duplicate
Regla 3 --> duplic
Mediante diccionario:

El nivel de desarrollo de las herramientas y recursos de Procesamiento del Lenguaje Natural depende fuertemente del idioma de que se trate. El inglés es, sin duda, el idioma que cuenta con más herramientas. El español, aunque tienen un largo camino por recorrer, cuentan ya con diccionarios electrónicos, herramientas de stemming.

Para este proceso cada término es buscado en un diccionario y se reemplaza por aquel que mejor lo representa.

Posible problema, la existencia de palabras de distinto significado que guardan una relación formal en cuanto a su raíz de origen.

El analizador devuelve palabras y no fragmentos, por lo que da mejores prestaciones en sistemas dedicados al procesamiento de lenguaje natural.
Suelen ser necesarios:

Diccionario léxico de palabras.
Lista suplementaria de palabras.
Lista de excepciones a las reglas.
Lista de palabras de conversión directa.
Lista de conversiones de nacionalidades.
Lista de nombres propios.




Diagrama de flujo del algoritmo de stemming. 

Stemming por sucesores:

Consiste en la búsqueda de los sufijos y prefijos que mejor representen las posibles ramificaciones de las raíces. 
Se basa en la lingüística y la distribución de los fonemas.
El objetivo es localizar la mínima expresión con significado.
La variedad de sucesores de un segmento dado (de una palabra) es el número de las distintas letras pueden completar el segmento, incrementando la longitud de la raíz en una unidad.



botella, boquerón, brazo, brazaje, botero, botica, blanco

Palabras no normalizables: símbolos, direcciones, nombres, correo/e

No todas las palabras que aparecen en un documento son normalizables, por lo que es preciso realizar una serie de acciones antes, para poder determinar que palabras pueden ser problemáticas a la hora de ser seleccionadas para su tratamiento.

Por ese motivo se realiza un proceso de división del texto, en subdivisiones significado para el usuario que mejoren la precisión (zoning), esta acción permitirá una mejor identificación de las palabras objeto.

Durante la identificación de las palabras clave (processing tokens) se realiza una selección de términos previamente clasificados en:
  • Símbolos de palabra válida: estamos hablando de letras y números.
  • Símbolos entre-palabras (generalmente no buscables): Espacios en blanco, dos puntos “:”, punto y coma“;”.
  • Símbolos de palabras especiales (caracteres o números).
  • Un término es un conjunto de palabras válidas unidas por Inter.-palabras.
  • Se buscan elementos con significado agrupando una o varias palabras en un término.

Posteriormente se realizará un proceso de filtrado, stop-list, que según su estadística de aparición o posición semántica, resta fuerza al indexado.
La frecuencia de aparición es relativamente importante en función de la constancia.
Por último es necesario prestar atención a las palabras con características específicas.
Estas palabras denominadas problemáticas deben ser identificadas, se deben realizar análisis sintácticos y semánticos y tener especial atención hacia los símbolos, direcciones, nombres, correo/e etcétera. Ya que por sus características y no son palabras susceptibles de ser procesadas durante el stemming, (no tendría sentido normalizar de palabras clave a raíces comunes.

Vocabulario controlado. Tesauros

Definición de Tesauro: Lenguaje documental controlado y dinámico que contiene términos relacionados semántica y genéricamente que abarcan de manera exhaustiva una esfera concreta del conocimiento.
Por ese motivo, la utilización de Tesauros se convierte en otra de las posibilidades para realizar la normalización, la utilización de un tesauro permite establecer los parámetros precisos para la ordenación y estructuración de los términos que se están analizando, en torno a la consistencia, que permite el establecer, una herramienta de lenguaje controlado, como es un tesauro, en este caso, para eliminar las posibles ambigüedades derivadas del uso propio del lenguaje en los textos analizados.

ALMACENAMIENTO Y REPRESENTACIÓN DE LA INFORMACIÓN

Representación de la información. Índice inverso, PAT, Firma.

La información es todo aquello que puede ser manejado por un sistema, ya sea como entrada, como proceso, o bien como resultado. De esta forma, podemos clasificar a los sistemas informáticos como sistemas de flujo de información (si la información de entrada y salida es la misma) y sistemas de tratamiento de la información, en los que la información que entra y la que sale es distinta, ya que ha sufrido alguna manipulación.
La información, para que sea útil a nuestro ordenador debe estar representada por símbolos. Tales símbolos por si solos no constituyen la información, sino que la representan.

Índice Inverso:
Estamos ante el método más usado para los sistemas de recuperación de datos y para las bases de datos.
A cada término indexado se le asocian los datos del documento, párrafo, frase, etc. y a cada documento se le identifica por un identificador numérico único.
Se hace un índice de cada término del documento o documentos, anotando su posición y contexto. Se compone de tres tipos de archivos:
• Archivo de documentos.
• Listas de la inversión (posting files).
• Diccionario: lista de palabras que son indexadas junto con punteros al documento del que pertenecen.
Como características propias, destacar la mejor precisión en la recuperación. Pueden realizarse distintos archivos inversos en función de si se trata del abstract o de pies de figura.
En sistemas en el que se permitan la localización por adyacencia se ha de almacenar la posición del término dentro del documento. Con palabras dotadas de un mayor peso estas pueden ser almacenadas junto con información que las pondere o en archivos de índice distintos.
Para ganar prestaciones se puede estructurar el archivo de índices como un árbol binario.
PAT:
Los árboles PAT se construyen sobre todas las sistrings de un texto. Una colección de documentos es concebida como una secuencia numerada de arrays, una sistring se entiende como una subcadena de caracteres. Un árbol PAT es un, por tanto, un árbol digital donde los bits individuales de las claves son usados para decidir derivaciones.

Firma:
El proceso se centra en descartar todos aquellos elementos de la base de datos que no son pertinentes a la búsqueda. Los elementos que no son descartados por este filtro han de ser analizados por otros métodos. Los tiempos de búsqueda son lineales con el número de elementos representados.

Para ello, se codifican las palabras de cada documento, mapeadas en una firma (código). Luego se examinan los tiempos de búsqueda lineales con el número de elementos representados y se almacenan junto con cada línea del texto la relación de firmas (de bloque). Se procesa mediante la operación OR. Para evitar un número alto de “1” en la firma se limita el número de palabras a ser codificadas. Veamos un ejemplo:


Como problemas, señalar, el tamaño del espacio de direcciones de códigos, las grandes longitudes mejoran los problemas de colisión entre términos al ser mapeadas pero los códigos cortos representan mejor los términos mediante las firmas.
Estudios presentan el número óptimo de representación en 1 bit por palabra. Estamos hablando de un vector en el que cada posición representa un término.



Un n-grama es una subsecuencia de n elementos de una determinada serie. Los artículos en cuestión pueden ser fonemas, sílabas, letras, palabras… de acuerdo a la solicitud.
Un n-grama modelo es un tipo de modelo probabilístico para predecir el orden de una secuencia. n-gramas se emplean en varias áreas de estadística procesamiento del lenguaje natural y el análisis de la secuencia genética.
Estamos ante un método que se sitúa entre el stemming y el archivo inverso.
N-grams: División de las palabras en trozos de palabras de longitud fija n.
Las porciones sirven para indexar el documento.
Ejemplos para “monicaco”.

N = 2 Þ mo, on, ni, ic, ca, ac, co
N = 3 Þ mon, oni, nic, ica, cac, aco
N = 5 Þ monic, onica, nicac, icaco

Cada cadena apunta al documento donde ha sido hallada. El uso del archivo inverso y espacios vectoriales son práctica común. La elección del número N ha de ser realizada en función de las prestaciones que se desean para el sistema:
• Valores de N = 2, 3 presentan las mejores prestaciones
• Si N es grande el sistema se comporta como aquellos que se basan en palabras
Con este método el sistema alcanza una cierta saturación. Al alcanzar cierto valor de saturación, el tamaño de los archivos de apoyo (índice inverso) solo crecen en virtud de las referencias a nuevos archivos:
MaxSegn = ln ,
siendo l el número de los distintos elementos procesables (letras).


Hablamos de una estructura para representar objetos que son comunes a una situación dada, como los estereotipos (los ejemplos típicos). Permite organizar el conocimiento con énfasis en el conocimiento por omisión. Son muy útiles para simular conocimiento de sentido común (área de muy difícil manejo en Computación). Representa el conocimiento relacionado con un tema concreto que cuenta con mucha información predeterminada. Cada marco representa una clase de elementos de la misma manera que un nodo en una red semántica.
Consiste en una serie de slots (ranuras) que representan una propiedad o atributo del elemento. El slot nos da un lugar para colocar sistemáticamente un componente de nuestras experiencias anteriores con relación a las clases de elementos representados.
Se les pueden dar valores y tipos default. La información varía dependiendo del contexto.


Es una especialización del concepto general de marco, con una estructura que se usa para guardar prototipos de secuencias de sucesos en un contexto en particular.
Se pueden usar componentes, que son condiciones de entrada, condiciones que deben existir para que se aplique el guión. De los resultados del guión surgirán condicionantes que serán verdaderos después de cumplirse los eventos determinados.

INDEXADO AUTOMÁTICO

Nos encontramos ante un proceso de análisis de un elemento para la extracción de información que será almacenada permanentemente en un índice. Este proceso viene asociado con la generación de una estructura de datos asociada que facilita la recuperación de la información.

En primer lugar, el sistema toma documentos y los almacena y ordena de una manera eficiente en función de variables.

Posteriormente, el sistema recibe peticiones, por parte del usuario, de documentos sobre un tema dado que le permitirá realizar búsquedas y obtener presentaciones de los documentos.
Este proceso viene asociado con la generación de una estructura de datos asociada que facilita la recuperación de la información. El proceso típico es el de la normalización que permite la reducción a términos estándar del texto analizado.

Pautas del proceso:
• Zonig
• Processing tokens
• Stop-lists
• Palabras específicas
• Normalización
• Actualización de la base (Uso en la estructura de datos dedicada a la búsqueda y representación de los elementos de la base.)
En cuanto a los modelos conceptuales, podemos determinar según los SRIs tengan unas características u otras, que pertenecen a una familia u otra. Las clasificaciones de los modelos han sido varias. Faloutsos proponía: búsqueda en patrones de texto, ficheros inversos y búsqueda de patrones de bits. O por ejemplo también Belkin y Croft, que los dividían en exactos: que incluían a los modelos de búsqueda con base a patrones y a técnicas booleanas, e inexactos: con técnicas probabilísticas, espacios vectoriales y técnicas de clustering, entre otros.

Estas clasificaciones no son completamente exactas, puesto que estas propiedades, no son mutuamente excluyentes y se pueden mezclar entre sí.
En general se pueden dividir en dos tipos:

Booleanos
Búsqueda por patrones de texto: Mediante cadenas de caracteres o expresiones regulares.

En cuanto a los modelos estadísticos son los más ampliamente utilizados. Frecuencias de aparición de términos (palabras y frases) para calcular su posible relevancia. También antiguamente la estadística se empleaba en el rankings (en medios booleanos).

El método estadístico se supone invariante bajo cambios de proceso de cálculo y de sistema de almacenamiento (distintas bases de datos y distintos algoritmos) =>; fácil integración junto con distintos algoritmos de recuperación.

Es posible aplicar directamente la teoría probabilística a los sistemas de recuperación de información y realizar estudios estadísticos de la adecuación de la respuesta a la petición. Su invariabilidad hace de esta teoría fácilmente aplicable a distintos sistemas de recuperación de la información
Como problemas podemos destacar la posible falta de datos, los errores a los que puede inducir las simplificaciones del modelo matemático y los consiguientes problemas de la estadística en la recuperación de la información.

A continuación se expone una lista de términos a considerar:

QAF: Frecuencias de aparición de términos en la consulta.
QRF: Frecuencia relativa en la cuestión. QAF / número de términos en la cuestión.
DAF: Frecuencias de aparición de términos en el documento.
RDF: DAF / número de palabras en el documento.
IDF: Frecuencias de aparición de términos en la base.
RFAD: Frecuencia relativa del término en todos los documentos. Nº de encuentros de los términos en la base / nº de palabras en la base.


Considerando la posibilidad de crear estas matrices atendiendo a los documentos y a la aparición y repetición de los términos contenidos en ellos, es posible definir un vector de un documento Di atendiendo a la frecuencia de aparición del término en un determinado documento.

Por lo tanto los términos dotan de una dimensión espacial vectorial al documento.
Cada posición en el vector representa un término que ha ser considerado (palabra | concepto).
El orden de los valores en el vector es fijo y representa un dominio particular.

Para poder realizar la vectorialización los conceptos han de ser mapeados sobre un conjunto preestablecido de conceptos:

• Número finito de conceptos como base.
• La base debería ser ortogonal.
• Dimensión de la base de conceptos limitado por la técnica.

En cuanto a su representación, son posibles dos:

Binaria: cada coordenada valora cero o uno según la pertinencia.
• Grado de importancia decide la inclusión. si se le incluye dentro del vector.
• Necesidad de parámetro umbral .
• Problemas con la capacidad de discriminación del sistema de recuperación de la información.

Ponderada: La pertinencia queda representada mediante un conjunto continuo de valores (Â). Los valores de cada coordenada (de cada término) determinan la importancia del término (palabra|concepto) para representar el texto.


En cuanto a la búsqueda por palabras, nos encontramos ante un procedimiento centrado en la utilización del lenguaje natural que usa la información semántica de los textos para facilitar su recuperación. Este procedimiento mejora de la precisión y recuperación.
Modelo (simples) selección de frases que representan el concepto.
Modelos avanzados la generan una frase resumen (no una frase representativa seleccionada del texto). Sin embargo es preciso tener en cuenta el contexto. Las palabras contienen sentido conceptual en función de ese contexto en el que se sitúen. El uso de frases que representen conceptos mejorará la precisión. Por otro lado también el uso de términos como modificadores de otros permite discriminar los elementos de la base. Por ejemplo: el término “campo” impreciso que sin modificadores como “eléctrico”, “base de datos”, “hierba”, etc. no queda bien contextualizado.


Para la ponderación es necesaria la evaluación de cada término. Esta ponderación se realiza en función de la frecuencia de aparición que determina la fuerza con que es representado en el modelo vectorial.
Los valores medibles en un sistema de recuperación de información son:
• TF à frecuencia de aparición del término en el elemento a evaluar.
• TOTF à frecuencia de aparición del término en toda la base.
• IF ò DF à número de documentos en los que aparece el término.
La importancia es directamente proporcional con el número de apariciones del término dentro del documento y es inversamente proporcional con el número de apariciones del término a lo largo de la base de datos.
La Frecuencia de aparición:
El identificador tiene una importancia directamente proporcional al número de apariciones. TFij El problema reside en el tamaño de algunos documentos que presentan una mayor probabilidad de tener más apariciones de términos.

Frecuencia de aparición normalizada:

Frecuencia de términos máxima. El identificador tiene una importancia directamente proporcional al número de apariciones, normalizada por el tamaño del documento.
Como resultado se obtiene mucha penalización a los documentos pequeños. Sus frecuencias suelen ser menores que las de los documentos grandes, largos, que suelen ser los más relevantes.

Frecuencia de términos logarítmica.
Pesoij = a + Log TFij a = cte.
En este caso, se atenúa la fuerza de valores grandes (documentos grandes). Dando una frecuencia de aparición normalizada al valor medio, con funciones logarítmicas.

o Sistema SMART
Elimina los posibles errores de escritura (palabras únicas)
Algoritmo de ponderación según fórmula:

pendiente (» 0.2)
pivote (» valor medio de la aparición de términos únicos).

Los problemas anteriores con el modelo vectorial pueden ser solventados dado que el uso de esta función logarítmica permite que los documentos largos no se vean muy penalizados (uso del valor medio). También las funciones logarítmicas restan importancia a valores altos esporádicos. Y la normalización se realiza atendiendo al tamaño, para favorecer los documentos grandes frente a los pequeños (pivote).

Frecuencia inversa
Ponderación se realiza según la relevancia de un término con la inversa de su frecuencia de aparición a lo largo de la base de datos.

TFij es la frecuencia de aparición del término j en el documento i.
 n es el número de documentos en la base.
IFj es el número de documentos en la base que poseen el término j.

Los valores cambian dinámicamente según se añaden nuevos términos a la base.
Solo la frecuencia de aparición de los términos en cada documento es almacenada.
Los cálculos de la importancia del documento son realizados en el momento de la recuperación.

Ponderación de la señal
Los métodos expuestos anteriormente no presentan discriminación en función de la frecuencia de aparición de los términos en los distintos documentos.
Si se quieren buscar documentos con los términos T1 y T2 y se encuentran en los documentos:

Los dos términos presentan unas estadísticas idénticas dentro de la base pero no para cada documento.


La ponderación en los lenguajes naturales sigue una serie de pasos:

1.Análisis de los términos. Se mapean los términos contra una base de códigos temáticos. Es una fase de normalización.
2.Relaciones entre los códigos temáticos para eliminar ambigüedades mediante métodos estadísticos.
3.Estructuración del texto, identificando las partes (presentación-nudo-desenlace, o evaluación-hechos-expectativas en noticias).

Con ellos se logran sistemas de análisis de información para buscar relaciones del tipo causa efecto. Donde la determinación de estas áreas facilita la ponderación por separado de cada área.

CLASIFICACIÓN: CLUSTERING

Consiste en clasificar y aunar elementos del fondo documental según los temas tratados. Se trata, pues, de agrupar objetos dotados de las mismas características. El clustering de palabras se produjo para la realización de tesauros.
Método:
  1. Definición del dominio o universo al que va a ser dedicado el tesauro. Conjunto de los términos que van a componer nuestra base.
  2. Determinación de los atributos de los objetos objeto del clustering: Resulta necesaria la determinación de las palabras sobre las que va a trabajar el sistema. En función del título, abstract, etc. Menos asociaciones erróneas.
  3. Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría.
  4. Aplicación de un algoritmo que realice el proceso del clustering.
Reglas:
  • Buena identificación entre el nombre de la categoría y lo que contiene.
  • El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
  • Un término determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría => creación una nueva categoría con este término.
  • Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías.
Consideraciones:

  • Coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado el realizar clustering sobre frases junto con los términos independientes.
  • Relaciones entre palabras:
> equivalencia (sinónimos),
> jerárquica (termino genérico-término particular)
> no jerárquica (objeto-atributo).
  • Relaciones entre palabras dos: Atendiendo a Parte- todo, ubicación (según términos aparecen en la misma unidad,- frase, párrafo , etc.), taxonomía, sinónimos y antónimos.
  • Polisemias: Palabras con múltiples significados. Se requiere que el usuario|texto dé información sobre el significado del término, aunque este puede ser inferido de un conjunto de peticiones de un mismo usuario.
  • Vocabulario: Reglas sobre la normalización de los vocablos. Equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).
Clustering
  • Clusters nuevos [Salton].
Tabla de relaciones doc-term.
Funciones de similitud.
  • Cluster existentes.
Tabla de relaciones doc-term.
Estimación del centroide de cada categoría.
Funciones de similitud.
Tabla de relaciones clase-term o clase-doc.

Definición: Función de Similitud o similaridad.
Función destinada a evaluar la cercanía entre los representantes.
Ejemplos:

Peculiaridad, las consultas.
• Descripción de un tema de interés.
• Representación parcial de la información demandada al sistema.
• Comunicación entre el usuario y el sistema.
• Pretende obtener documentos de su interés.
Los documentos.
• Son los elementos a ser recuperados en función de la consulta. El sistema los gestiona manteniendo información sobre su contenido a ser usada en la recuperación.
El sistema.
• Gestor y almacén de los documentos para su recuperación eficiente.
Las funciones de similitud, se pueden ser varias, evalúan la cercanía entre documentos, la cercanía entre documentos y consultas y la relación entre términos.


Conceptos a tener en cuenta:
  • Clustering: Agrupar objetos dotados de las mismas características. Clasificar y aunar elementos del fondo según los temas tratados.
  • Tesauro: Sistema encargado de realizar una expansión de los términos mediante palabras que guardan similitud. Mantiene una relación de términos relacionados.
  • Tesauro automático: Clasificación mediante técnicas estadísticas de los términos de los documentos para agrupar los que estén relacionados.
  • Las clases reflejan el uso de los términos en el cuerpo de documentos.
  • La coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado realizar clustering sobre frases junto con los términos independientes.
  • Relaciones entre palabras: Equivalencia (sinónimos), jerárquica (termino genérico-término particular), no jerárquica (objeto-atributo).
  • Polisemia: Dificulta el proceso del clustering. El mismo término identifica conceptos distintos. Se crean vínculos no reales. Se requiere desambiguación o normalización previa.
  • Sinonimia: Crea múltiples clases. Enmascara vínculos entre elementos. Necesidad de normalización.
Deben tenerse en cuenta también, las reglas sobre la normalización de los vocablos y el equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).

Proceso para la realización:
  1. Definición del dominio o universo al que va a ser dedicado el tesauro: Conjunto de los elementos que van a componer nuestra base.
  2. Determinación de los atributos de los objetos sobre los que se realizará el clustering: Definición de los atributos que definen los objetos a clasificar.
  3. Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría: Valor umbral.
  4. Aplicación de un algoritmo que realice el proceso del clustering.
Reglas sobre las categorías:
  • Buena identificación entre el nombre de la categoría y los elementos que contiene.
  • El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
  • Un elemento determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría es necesario crear nuevas categorías dentro de ésta.
  • Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías, pero da mejores resultados.
Modelos del clustering:
El clustering se puede realizar de dos maneras:
  • Aglomeración: Los elementos se agrupan en pares para formar conjuntos mayores.
  • División: Los elementos se sitúan en una única categoría. El sistema realiza divisiones entre los conjuntos de elementos con diferencias más marcadas.



Clusters nuevos: Método de relaciones completas.
1. Tabla de relaciones doc-term.
2. Funciones de similitud.
Cluster existentes: K-terms.
1. Tabla de relaciones doc-term.
2. Estimación del centroide de cada categoría.
3. Funciones de similitud.
4. Tabla de relaciones clase-term o clase-doc.




Proceso de clusterig, ejercicio


  • Análisis de la frecuencia de las palabras dentro de la categoría
  • Relación de las palabras más frecuentes.
  • Términos descriptores de la categoría.
  • Técnicas de clustering sobre fragmentos de documento/s.
  • Obtención de relaciones.
  • Vínculos entre zonas que presentan relación temática.
  • Zonas con un número alto de relaciones presentan vínculos temáticos: generación automática de links.
  • Zonas con relaciones con un gran número de zonas (del documento): zona de resumen o conclusiones.

En busca de la información oculta

INTRODUCCIÓN

El desarrollo de Internet ha venido asociado con el incremento exponencial de la cantidad de información circulante que existe en este medio. Para hacernos una idea, según un informe de la consultora internacional IDC y el fabricante de sistemas de almacenamiento EMC[1], la cantidad de información digitalizada sólo en 2006 fue 3 millones de veces mayor que la de todos los libros escritos, la cantidad de información digital creada, capturada y replicada fue de 161 billones de gigabytes, aproximadamente el equivalente a toda la información generada en los 5000 años anteriores por el hombre, y todo esto sólo en un año. Cualquier estudio o referencia que se encuentre sobre el desarrollo de Internet y la cantidad de información que contiene muestra proporciones de aumento casi inimaginables que se multiplican a cada instante.

Este mismo informe arroja algunos datos en lo referente a la cantidad de información que existe en la red, por ejemplo se envían mundialmente 60 mil millones de e-mails por día (10 veces la población mundial), en cuanto al vídeo, portales como YouTube aumentan 65.000 vídeos nuevos al día, otros tipos de vídeo en red, como las conexiones WebCam crecen un 21% y existen datos que hablan de un aumento del 200% del vídeo empresarial (tráfico IP) de manera anual. En 2007 el número de páginas web aumentó un 48%, 50 millones de sitios Web nuevos en un solo año, es decir unos 155 millones de páginas Web en total donde los blogs son los que más crecieron en ese año siendo los tres máximos proveedores MySpace, Live Spaces y Blogger que registraron la mitad del total de nuevos registros del año 2007. Con respecto a los blogs, según la cuenta que lleva el sistema BlogPulse[2], de Nielsen, hay aproximadamente 80 millones de blogs en el mundo. Unos 100 mil nuevos cada 24 horas. Y unos 800 mil "posts", o artículos, publicados en el mismo período.

Se podría continuar dando un gran número de datos para terminar de poner de manifiesto la monumental cantidad de información que existe en el universo Web, pero es de considerar que no puede quedar duda de esta realidad con los datos ya expuestos que arrojan estos estudios[3].

En este mar de datos, existen los denominados “buscadores” o “motores de búsqueda” que son, simplificándolo mucho, unos sistemas informáticos que localizan los archivos almacenados en servidores web gracias a sus “spiders” (o web crawler) y los indexan según unos parámetros, para su posterior localización. Existen un gran número de ellos y diversas clasificaciones atendiendo a sus características, pero sin embargo, el máximo representante actual de este “negocio” es la compañía Google.

Google es capaz de indexar 20.000 terabytes de información en tan sólo 24 horas. Este tremendo potencial es la principal causa, según el sitio TechCrunch[4], de la absoluta dominancia de Google en el mercado de las búsquedas.

Pero, dejando a un lado las polémicas que puedan suscitar (y que han suscitado) las posibilidades y prácticas de Google, en este marco de explosión informativa incontrolada y abrumadora y la necesidad por recuperar la información, se ha manifestado un fenómeno relacionado con esta asociación, la denominada Web profunda o Web invisible.

LA WEB PROFUNDA
           
            La información que permanece oculta en la Web se estima quinientas veces superior a toda la información capaz de ser indexada por los buscadores generalistas, a esta información que se escapa de la búsqueda convencional es a la que se le ha denominado “deep web” o Web profunda.

            Tres tipos diferentes de Internet pueden ser definidas para una mejor comprensión de este fenómeno[5]:
·         Internet global: Red libre y gratuita, a través de la interconexión de ordenadores. Se accede mediante los browsers o navegadores, tales como Explorer, Chrome y Mozilla, destaca la mensajería y el intercambio FTP o P2P.
·         Internet invisible: Información disponible en la Web pero cuyo acceso solo está disponible a través de un acceso dinámico a una base de datos. Podemos acceder a ella mediante los navegadores, pero es muy difícil de indexar su contenido.
·         Internet oscura: Servidores o host totalmente inaccesibles desde nuestra computadora. Generalmente suelen ser zonas restringidas o protegidas para su acceso.

Luego la Web oscura, está constituida por toda esa información accesible vía Web, pero a la que no es posible llegar mediante una consulta a los buscadores tradicionales por diversos motivos[6]:

1.      Ficheros no textuales (no HTML)
§         Maquetación especial (por ejemplo páginas en Flash)
§         Ficheros Multimedia
2.      Recursos generados en ese momento
§         Plantillas de resultados de BB. DD.
§         Páginas volátiles
3.      Consultas a BB.DD.
§         Los robots (spiders) no pueden interrogar
§         Menús desplegables (navegación)
4.      Recursos protegidos con claves
§         Exigen registro o pago
5.      Páginas huérfanas
§         No enlazadas o enlazadas median formulario

Para seguir con esta visión general de la situación en la que probablemente se encuentra nuestra gran Red con respecto a la información que contiene, es bastante clarificador el gráfico creado por Ricardo Baeza Yates[7] :

La cantidad de Web que puede ser indexada es bastante inferior al total de la Web existente, esa es la información a la que tienen acceso actualmente los buscadores generalistas.  También muestra un número muy reducido de Webs con información semántica y un gran número de información dinámica que escapa de los buscadores. Luego, según Baeza, queda claro que los buscadores no muestran más que un pequeño segmento del total de los datos accesibles en red.

EN BUSCA DE LA INFORMACIÓN OCULTA

Toda esta información se revela como una gran oportunidad para la nueva generación de buscadores. El acceso a este gran “dorado” se proyecta como el desafío de las compañías especializadas en la recuperación de la información, sin embargo, el esfuerzo económico[8] que debe suponer este megalítico proyecto tan sólo es soportable por grandes multinacionales.

Es cierto que existen un número considerable de buscadores que han decidido enfocar sus esfuerzos hacia la búsqueda de información en la Web oculta, como por ejemplo los mostrados y analizados por Isidro Aguillo en su trabajo Internet invisible[9] y de los que desafortunadamente muy pocos[10], desde que hiciera su estudio, han conseguido permanecer en funcionamiento o han adquirido popularidad.
  
La inversión necesaria y el esfuerzo realizado que deben hacer para que su objetivo se realice es un proyecto muy arriesgado, y que no debe reportar de momento los beneficios necesarios como para prosperar.

Por otro lado, algunas compañías ya se han percatado de este fenómeno y aguardan la oportunidad de convertir la situación en algo rentable, así por ejemplo Google que diversifica sus servicios a cada instante, y que según publican en su portal[11], ha comenzado ya a indizar la Web invisible, prepara una nueva generación de robots (Googlebot) capaz de interactuar con las bases de datos e incluso acceder a contenidos públicos restringidos previo registro[12], así como de leer e indizar información contenida en javascript,  flash y etiquetas alt para formato de imágenes.

Sin embargo, aun son numerosas las alternativas que se han especializado en este tipo de búsqueda[13] y que se mantienen ofreciendo unas búsquedas de calidad, aun poco atractivas para las grandes multinacionales de la información por el escaso beneficio que les pueden reportar.

CONCLUSIONES
           
            Es evidente que nos encontramos ante una situación a la que no se tardará demasiado en dar respuesta. Toda esa cantidad de información que permanece en la Web profunda, aun no supone una necesidad imperiosa del usuario generalista de los medios digitales, hecho que hace que los grandes buscadores no viertan sus ingresos en investigación y desarrollo en esta vía de negocio de manera destacable.

            Es impensable que empresas como Google o Yahoo + Microsoft (Bing) no tengan  recursos tecnológicos y financieros como para ofrecer una solución más que digna a la problemática descrita con la Web invisible, sin embargo, es obvio que el esfuerzo que puede suponer, aun no tiene expectativas de reportar los beneficios deseados, por lo que se espera al momento idóneo para comenzar a regularizar esta situación.

            El aumento de la información en Internet y las necesidades que generan, están comenzando a llamar la atención sobre los buscadores generalistas, que deberán buscar soluciones para ofrecer nuevos servicios y mejores, pero que a su vez puedan suponer una oportunidad de negocio rentable.

            Por otro lado, cada vez son más las instituciones o empresas generadoras de contenido se dan cuenta de la necesidad no sólo de estar en la red “lo que no existe en Internet, sencillamente no existe…”, si no que también de ser localizadas en los buscadores generalistas, “si no se puede encontrar es que merece la pena ser encontrado” de ahí el auge de las empresas dedicadas al posicionamiento o SEO. El “hacerlo bien y hacerlo saber” es cada día más uno de las premisas básicas del generador de contenidos en la red. De poco o nada sirve el esfuerzo de llevar contenidos al mundo virtual, si estos no pueden ser localizados.

            En mi opinión, de la mezcla de las necesidades de los generadores de información y del deseo de los buscadores por indizar estos contenidos, surgirán las respuestas para los problemas generados por la incapacidad de la red de gestionar de manera efectiva sus contenidos.




[3] Un hecho inquietante son los datos digitales que se generan sobre cada persona: un tercio lo produce ella directamente y los otros dos escapan a su control. Es la llamada “sombra digital”: la información sobre una persona, almacenada en archivos financieros, listas de correo, historiales de navegación web o en imágenes obtenidas por las cámaras de seguridad. (Informe IDC y EMC)
[5] FORNAS CARRASCO, Ricardo. "La cara oculta de Internet". Hipertext.net, núm. 1, 2003 http://www.hipertext.net/ [Volver]
[7] BAEZA YATES, Ricardo. "Excavando la Web". El profesional de la información, v 13, num. 1, enero-febrero 2004. http://www.dcc.uchile.cl/~rbaeza/inf/EPIexcavando.pdf
[8] No olvidemos que la indización diaria de información “convencional” supone más de un millón de dólares a Google.
[9] http://internetlab.cindoc.csic.es/cursos/Internet_Invisible2003.pdf
[10] De los cinco primeros buscadores expuestos en su trabajo sólo tres funcionan y ninguno goza de un número de usuarios considerable.
[13] Aquí hay algunos ejemplos http://www.internetinvisible.com/ii/; www.science.gov.ar; http://www.intute.ac.uk/; http://infomine.ucr.edu/