miércoles, 30 de junio de 2010

NORMALIZACIÓN AUTOMÁTICA DE TÉRMINOS

Normalización. Representación canónica.


Existen diferentes modelos con sus diversas posibilidades para la normalización de los términos.
Estos giran en torno a dos bloques principales:

Stemming
Concepto:
  • Menor consumo de recursos del sitema.
  • Necesidad de equilibrio entre recuperación y precisión.
  • Se basa en el mapeado o reducción de las posibles alternativas morfológicas a una única representación.
  • Por lo tanto reduce la pluralidad en las representaciones de los conceptos.
  • Es la representación más cercana a la forma canónica.
  • Conlleva la pérdida de precisión (menos discriminación).

Base teórica:
  • La raíz de la palabra contiene pleno significado del término.
  • Los sufijos y prefijos son modificadores sintácticos.
  • Es preciso combatir las excepciones del lenguaje.

Implicaciones:
  • Creación de los archivos inversos.
  • Controlar la presencia de términos como la presencia de nombres propios, acrónimos y otras reglas no tradicionales.
  • En algunos sistemas este proceso implica demasiada pérdida de información semántica: NPL (procesamiento del lenguaje natural), análisis conceptual.
El Archivo inverso

Es capaz de mejorar los tiempos de acceso cuando la búsqueda se ha de realizar bajo la dependencia de varios índices.
Suele ser el método más común.
Algunas de sus variantes:
  • N-gram.
  • Firma.


Tipos de normalización. Diccionario. Sucesores. Porter.


Stemming mediante Algoritmo de Porter:
Basado en la relación entre raíz, prefijo y sufijo. Este logaritmo se centra en las reglas gramaticales que pueden existir en una determinada lengua.
En definitiva facilita un protocolo de actuación que mediante una serie de procesos pretende alcanzar la raíz de los términos.

Proceso:
1. Evaluación de la longitud del término: representado por C(VC)mV
 2. * --> la raíz termina en X.
3. *V*  --> la raíz contiene vocal.
4. *d --> la raíz finaliza en doble consonante.

Ejemplo:
   

Ej.: duplicatable

Regla 4 --> duplicat
Regla 1b1 --> duplicate
Regla 3 --> duplic
Mediante diccionario:

El nivel de desarrollo de las herramientas y recursos de Procesamiento del Lenguaje Natural depende fuertemente del idioma de que se trate. El inglés es, sin duda, el idioma que cuenta con más herramientas. El español, aunque tienen un largo camino por recorrer, cuentan ya con diccionarios electrónicos, herramientas de stemming.

Para este proceso cada término es buscado en un diccionario y se reemplaza por aquel que mejor lo representa.

Posible problema, la existencia de palabras de distinto significado que guardan una relación formal en cuanto a su raíz de origen.

El analizador devuelve palabras y no fragmentos, por lo que da mejores prestaciones en sistemas dedicados al procesamiento de lenguaje natural.
Suelen ser necesarios:

Diccionario léxico de palabras.
Lista suplementaria de palabras.
Lista de excepciones a las reglas.
Lista de palabras de conversión directa.
Lista de conversiones de nacionalidades.
Lista de nombres propios.




Diagrama de flujo del algoritmo de stemming. 

Stemming por sucesores:

Consiste en la búsqueda de los sufijos y prefijos que mejor representen las posibles ramificaciones de las raíces. 
Se basa en la lingüística y la distribución de los fonemas.
El objetivo es localizar la mínima expresión con significado.
La variedad de sucesores de un segmento dado (de una palabra) es el número de las distintas letras pueden completar el segmento, incrementando la longitud de la raíz en una unidad.



botella, boquerón, brazo, brazaje, botero, botica, blanco

Palabras no normalizables: símbolos, direcciones, nombres, correo/e

No todas las palabras que aparecen en un documento son normalizables, por lo que es preciso realizar una serie de acciones antes, para poder determinar que palabras pueden ser problemáticas a la hora de ser seleccionadas para su tratamiento.

Por ese motivo se realiza un proceso de división del texto, en subdivisiones significado para el usuario que mejoren la precisión (zoning), esta acción permitirá una mejor identificación de las palabras objeto.

Durante la identificación de las palabras clave (processing tokens) se realiza una selección de términos previamente clasificados en:
  • Símbolos de palabra válida: estamos hablando de letras y números.
  • Símbolos entre-palabras (generalmente no buscables): Espacios en blanco, dos puntos “:”, punto y coma“;”.
  • Símbolos de palabras especiales (caracteres o números).
  • Un término es un conjunto de palabras válidas unidas por Inter.-palabras.
  • Se buscan elementos con significado agrupando una o varias palabras en un término.

Posteriormente se realizará un proceso de filtrado, stop-list, que según su estadística de aparición o posición semántica, resta fuerza al indexado.
La frecuencia de aparición es relativamente importante en función de la constancia.
Por último es necesario prestar atención a las palabras con características específicas.
Estas palabras denominadas problemáticas deben ser identificadas, se deben realizar análisis sintácticos y semánticos y tener especial atención hacia los símbolos, direcciones, nombres, correo/e etcétera. Ya que por sus características y no son palabras susceptibles de ser procesadas durante el stemming, (no tendría sentido normalizar de palabras clave a raíces comunes.

Vocabulario controlado. Tesauros

Definición de Tesauro: Lenguaje documental controlado y dinámico que contiene términos relacionados semántica y genéricamente que abarcan de manera exhaustiva una esfera concreta del conocimiento.
Por ese motivo, la utilización de Tesauros se convierte en otra de las posibilidades para realizar la normalización, la utilización de un tesauro permite establecer los parámetros precisos para la ordenación y estructuración de los términos que se están analizando, en torno a la consistencia, que permite el establecer, una herramienta de lenguaje controlado, como es un tesauro, en este caso, para eliminar las posibles ambigüedades derivadas del uso propio del lenguaje en los textos analizados.

No hay comentarios:

Publicar un comentario