Los términos índice de un texto se determinaron siguiendo los métodos presentados en la sección 4. Denotaremos con el conjunto formado con % de términos índice determinados por el método sobre la colección . Si nuestro método es , comprenderá el diez por ciento de los términos con mayor valor en la colección . Cada texto será representado por sus términos índice filtrando su vocabulario con ; tomado como conjunto de términos, sus índices son: .
Una vez representado cada texto por sus términos índice se aplica el algoritmo star [Shin y Han2003], el cual inicia construyendo la matriz de similitudes entre todas las instancias por agrupar. Utilizamos, en esta etapa, un umbral canónico definido como el promedio de las similitudes. En el siguiente paso se realiza una iteración, en tanto existan instancias que rebasen el umbral, se elige el par de textos con máxima similitud para formar el grupo en curso. Enseguida, se añaden al grupo en curso todas las instancias cuya similitud sea mayor que el umbral. Eliminadas las instancias agrupadas, se repite el proceso para formar otro grupo. En nuestro experimento usamos la función de similitud de Jaccard [Manning y Schütze1999].