next up previous
Siguiente: El punto de transición Subir: Uso del punto de Anterior: Introducción

Trabajos relacionados

Existen muy pocos trabajos relacionados con el agrupamiento de textos cortos. Los trabajos presentados por Hynek et al. [Hynek y Rohlikm2000] y Zizka et al. [Zizka y Bourek2002] usan métodos supervisados que obtienen excelentes resultados, sin embargo requieren un conjunto de textos para el proceso de entrenamiento. En nuestro caso, como en el presentado por Mikhail et al. [Mikhail, Gelbukh, y Rosso2005], se usa un método no supervisado, de tal manera que se desconoce de antemano la cantidad de grupos a generar, así como las categorías de éstos. Makagonov et al. [Makagonov, Alexandrov, y Sboychakov2000] consideraron el problema de agrupamiento de resúmenes, sin embargo, en su trabajo, la colección de documentos usada contenía textos pertenecientes a dominios fácilmente distinguibles, y además el número de dominios era conocido de antemano.

Makagonov et al. [Makagonov, Alexandrov, y Gelbukh2004] usaron criterios fuertes para la selección de términos y una medida combinada de cercanía entre los do-cumentos (medidas del coseno y polinomial). Estos criterios pueden dar mayor confiabi-lidad a los términos con frecuencias absolutas bajas de ocurrencia en los resúmenes; la medida combinada puede acercar los resultados a la opinión del experto. Sin embargo, ambas técnicas no son totalmente confiables ya que no son justificadas adecuadamente, además de haberse probado sobre situaciones en donde se conoce de antemano el número de grupos a generar.

Es importante remarcar que los métodos para encontrar términos índice pueden ser, también supervisados o no. Un trabajo en esta dirección es [Kerner, Gross, y Masa2005]. En él se presenta un conjunto de métodos supervisados y no supervisados para encontrar frases clave de un texto. En este trabajo, como es de suponerse, los supervisados son mejores pero, además, se parte de los textos completos, y no solamente de los resúmenes.

Mikhail et al. [Mikhail, Gelbukh, y Rosso2005], proponen un método basado en fuentes de conocimiento externas (corpus general balanceado) para la selección de términos en documentos cortos y, posteriormente, usan algoritmos de agrupamiento no supervisados para generar grupos, particularmente, el algoritmo de agrupamiento MajorClust.

Liu et al. [Liu

2003
] evaluaron algunos métodos de selección de términos para agrupamiento de textos aplicado a una subcolección de Reuteres 21578. Señalan la dificultad de realizar una buena selección para el caso de los métodos de selección no supervisados, y proponen una técnica iterativa para elegir términos.


next up previous
Siguiente: El punto de transición Subir: Uso del punto de Anterior: Introducción
David Pinto 2006-05-25