Método

Siguiente: Medidas de desempeño Subir: Experimento Anterior: Colección de prueba

Método

Consideramos en nuestro experimento una colección de textos $D=\{T_1,\ldots,T_k\}$ con vocabulario

. Los textos se encuentran clasificados en

clases $C=\{C_1,\ldots,C_m\}$ , formando una partición de

; $D=\cup_i C_i$ y $C_i\cap_{i\ne j}C_j=\emptyset$ . Nuestro objetivo es obte-ner un agrupamiento de

; i.e. una partición, $G=\{G_1,\ldots,G_n\}$ lo ``más parecida'' a

. Así, es necesario conocer

, el gold standard, para evaluar los resultados.

Los términos índice de un texto se determinaron siguiendo los métodos presentados en la sección 4. Denotaremos con el conjunto formado con % de términos índice determinados por el método sobre la colección . Si nuestro método es , $DF_{10}(D)$ comprenderá el diez por ciento de los términos con mayor valor en la colección . Cada texto será representado por sus términos índice filtrando su vocabulario con ; tomado como conjunto de términos, sus índices son: $T'=T\cap Q_p(D)$ .

Una vez representado cada texto por sus términos índice se aplica el algoritmo star [Shin y Han2003], el cual inicia construyendo la matriz de similitudes entre todas las instancias por agrupar. Utilizamos, en esta etapa, un umbral canónico definido como el promedio de las similitudes. En el siguiente paso se realiza una iteración, en tanto existan instancias que rebasen el umbral, se elige el par de textos con máxima similitud para formar el grupo en curso. Enseguida, se añaden al grupo en curso todas las instancias cuya similitud sea mayor que el umbral. Eliminadas las instancias agrupadas, se repite el proceso para formar otro grupo. En nuestro experimento usamos la función de similitud de Jaccard [Manning y Schütze1999].

Siguiente: Medidas de desempeño Subir: Experimento Anterior: Colección de prueba

David Pinto 2006-05-25