next up previous
Siguiente: Medidas de desempeño Subir: Experimento Anterior: Colección de prueba

Método

Consideramos en nuestro experimento una colección de textos $ D=\{T_1,\ldots,T_k\}$ con vocabulario $ V_D$. Los textos se encuentran clasificados en $ m$ clases $ C=\{C_1,\ldots,C_m\}$, formando una partición de $ D$; $ D=\cup_i C_i$ y $ C_i\cap_{i\ne j}C_j=\emptyset$. Nuestro objetivo es obte-ner un agrupamiento de $ D$; i.e. una partición, $ G=\{G_1,\ldots,G_n\}$ lo ``más parecida'' a $ C$. Así, es necesario conocer $ C$, el gold standard, para evaluar los resultados.

Los términos índice de un texto se determinaron siguiendo los métodos presentados en la sección 4. Denotaremos con $ Q_p(D)$ el conjunto formado con $ p$% de términos índice determinados por el método $ Q$ sobre la colección $ D$. Si nuestro método es $ DF$, $ DF_{10}(D)$ comprenderá el diez por ciento de los términos $ t$ con mayor valor $ df_t$ en la colección $ D$. Cada texto será representado por sus términos índice filtrando su vocabulario con $ Q_p(D)$; tomado $ T$ como conjunto de términos, sus índices son: $ T'=T\cap Q_p(D)$.

Una vez representado cada texto por sus términos índice se aplica el algoritmo star [Shin y Han2003], el cual inicia construyendo la matriz de similitudes entre todas las instancias por agrupar. Utilizamos, en esta etapa, un umbral canónico definido como el promedio de las similitudes. En el siguiente paso se realiza una iteración, en tanto existan instancias que rebasen el umbral, se elige el par de textos con máxima similitud para formar el grupo en curso. Enseguida, se añaden al grupo en curso todas las instancias cuya similitud sea mayor que el umbral. Eliminadas las instancias agrupadas, se repite el proceso para formar otro grupo. En nuestro experimento usamos la función de similitud de Jaccard [Manning y Schütze1999].


next up previous
Siguiente: Medidas de desempeño Subir: Experimento Anterior: Colección de prueba
David Pinto 2006-05-25