miércoles, 30 de junio de 2010

CLASIFICACIÓN: CLUSTERING

Consiste en clasificar y aunar elementos del fondo documental según los temas tratados. Se trata, pues, de agrupar objetos dotados de las mismas características. El clustering de palabras se produjo para la realización de tesauros.
Método:
  1. Definición del dominio o universo al que va a ser dedicado el tesauro. Conjunto de los términos que van a componer nuestra base.
  2. Determinación de los atributos de los objetos objeto del clustering: Resulta necesaria la determinación de las palabras sobre las que va a trabajar el sistema. En función del título, abstract, etc. Menos asociaciones erróneas.
  3. Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría.
  4. Aplicación de un algoritmo que realice el proceso del clustering.
Reglas:
  • Buena identificación entre el nombre de la categoría y lo que contiene.
  • El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
  • Un término determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría => creación una nueva categoría con este término.
  • Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías.
Consideraciones:

  • Coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado el realizar clustering sobre frases junto con los términos independientes.
  • Relaciones entre palabras:
> equivalencia (sinónimos),
> jerárquica (termino genérico-término particular)
> no jerárquica (objeto-atributo).
  • Relaciones entre palabras dos: Atendiendo a Parte- todo, ubicación (según términos aparecen en la misma unidad,- frase, párrafo , etc.), taxonomía, sinónimos y antónimos.
  • Polisemias: Palabras con múltiples significados. Se requiere que el usuario|texto dé información sobre el significado del término, aunque este puede ser inferido de un conjunto de peticiones de un mismo usuario.
  • Vocabulario: Reglas sobre la normalización de los vocablos. Equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).
Clustering
  • Clusters nuevos [Salton].
Tabla de relaciones doc-term.
Funciones de similitud.
  • Cluster existentes.
Tabla de relaciones doc-term.
Estimación del centroide de cada categoría.
Funciones de similitud.
Tabla de relaciones clase-term o clase-doc.

Definición: Función de Similitud o similaridad.
Función destinada a evaluar la cercanía entre los representantes.
Ejemplos:

Peculiaridad, las consultas.
• Descripción de un tema de interés.
• Representación parcial de la información demandada al sistema.
• Comunicación entre el usuario y el sistema.
• Pretende obtener documentos de su interés.
Los documentos.
• Son los elementos a ser recuperados en función de la consulta. El sistema los gestiona manteniendo información sobre su contenido a ser usada en la recuperación.
El sistema.
• Gestor y almacén de los documentos para su recuperación eficiente.
Las funciones de similitud, se pueden ser varias, evalúan la cercanía entre documentos, la cercanía entre documentos y consultas y la relación entre términos.


Conceptos a tener en cuenta:
  • Clustering: Agrupar objetos dotados de las mismas características. Clasificar y aunar elementos del fondo según los temas tratados.
  • Tesauro: Sistema encargado de realizar una expansión de los términos mediante palabras que guardan similitud. Mantiene una relación de términos relacionados.
  • Tesauro automático: Clasificación mediante técnicas estadísticas de los términos de los documentos para agrupar los que estén relacionados.
  • Las clases reflejan el uso de los términos en el cuerpo de documentos.
  • La coordinación de términos: Se tendría que evaluar si al sistema le resulta adecuado realizar clustering sobre frases junto con los términos independientes.
  • Relaciones entre palabras: Equivalencia (sinónimos), jerárquica (termino genérico-término particular), no jerárquica (objeto-atributo).
  • Polisemia: Dificulta el proceso del clustering. El mismo término identifica conceptos distintos. Se crean vínculos no reales. Se requiere desambiguación o normalización previa.
  • Sinonimia: Crea múltiples clases. Enmascara vínculos entre elementos. Necesidad de normalización.
Deben tenerse en cuenta también, las reglas sobre la normalización de los vocablos y el equilibrio entre almacenar y representar palabras completas o las raíces o representantes de estas (steamming).

Proceso para la realización:
  1. Definición del dominio o universo al que va a ser dedicado el tesauro: Conjunto de los elementos que van a componer nuestra base.
  2. Determinación de los atributos de los objetos sobre los que se realizará el clustering: Definición de los atributos que definen los objetos a clasificar.
  3. Determinación de la fuerza de la relaciones entre los atributos que hacen que los objetos pertenezcan o no a una determinada categoría: Valor umbral.
  4. Aplicación de un algoritmo que realice el proceso del clustering.
Reglas sobre las categorías:
  • Buena identificación entre el nombre de la categoría y los elementos que contiene.
  • El tamaño de las clases debería ser de un tamaño similar al del resto de las clases. No resulta válido que en una clase determinada se encuentren el 90% de los elementos de la base.
  • Un elemento determinado no debe dominar la clase. Si el término aparece en el 85% de los elementos de la categoría es necesario crear nuevas categorías dentro de ésta.
  • Posibilidad de pertenencia a distintas clases, que se traduce en costo de CPU y problemas por la gestión y actualización de las categorías, pero da mejores resultados.
Modelos del clustering:
El clustering se puede realizar de dos maneras:
  • Aglomeración: Los elementos se agrupan en pares para formar conjuntos mayores.
  • División: Los elementos se sitúan en una única categoría. El sistema realiza divisiones entre los conjuntos de elementos con diferencias más marcadas.



Clusters nuevos: Método de relaciones completas.
1. Tabla de relaciones doc-term.
2. Funciones de similitud.
Cluster existentes: K-terms.
1. Tabla de relaciones doc-term.
2. Estimación del centroide de cada categoría.
3. Funciones de similitud.
4. Tabla de relaciones clase-term o clase-doc.




Proceso de clusterig, ejercicio


  • Análisis de la frecuencia de las palabras dentro de la categoría
  • Relación de las palabras más frecuentes.
  • Términos descriptores de la categoría.
  • Técnicas de clustering sobre fragmentos de documento/s.
  • Obtención de relaciones.
  • Vínculos entre zonas que presentan relación temática.
  • Zonas con un número alto de relaciones presentan vínculos temáticos: generación automática de links.
  • Zonas con relaciones con un gran número de zonas (del documento): zona de resumen o conclusiones.

No hay comentarios:

Publicar un comentario