Pruebas

Una prueba inicial fue necesaria para ajustar un factor que permite cambiar el umbral. Tomando 20% de los términos de cada método de selección, y variando este factor entre $10^{-4}$ hasta 10, se eligió como mejor factor: 0.1; esto es, el umbral usado fue 0.1 veces el umbral canónico.

Se efectuó la prueba de elegir diferentes porcentajes de términos con cada método de selección:

(

), y la eficacia del agrupamiento se midió con

. Además de los va-lores

, en el cuadro 1 se presenta el número de grupos obtenidos con la selección de términos efectuada. Puede observarse que, en todos los porcentajes el método PT supera a los demás y alcanza su máximo con 40% de los términos más cercanos al PT.

Tabla: Medidas

para diferentes porcentajes de términos ordenados por tres métodos de selección.

%	PT/#G	DF/#G	TS/#G
20	0,4267/13	0,4044/3	0,3716/13
30	0,4397/11	0,4309/4	0,4217/11
40	0,6038/7	0,4309/4	0,4353/12
50	0,5941/7	0,4309/4	0,4701/12
60	0,4948/3	0,4041/4	0,4071/10

Al aplicar los métodos DF o TS, el porcentaje de términos se toma del vocabulario de toda la colección, mientras que el método PT elige los términos directamente de cada texto. Así, la cantidad de términos tomada por PT es diferente. En el cuadro 2 se muestra la cantidad de términos para cada uno de los porcentajes aludidos en el cuadro 1. Claramente, la cantidad de términos seleccionados por PT es menor que los elegidos por los métodos DF y TS.

Tabla: Cantidad de términos elegidos por PT con respecto a porcentajes del vocabulario.

%	#Term.	#T. PT
20	191	133
30	286	181
40	382	263
50	478	274

Una prueba más fue analizar el comportamiento de los métodos tratando de incluir términos relacionados con los términos de cada uno de los conjuntos elegidos por los métodos de selección. Con la misma estructura que el cuadro 1, en el cuadro 3 se presenta la medida

para esta prueba. Aunque con una base tan pobre para obtener términos relacionados, como fueron los mismos resúmenes, se observa, nuevamente, que el método basado en el punto de transición rebasa a los demás, excepto cuando se toma el 60% de los términos.

Tabla: Medidas

para diferentes porcentajes de términos ordenados por tres métodos de selección usando lista de asociaciones.

%	PT/#G	DF/#G	TS/#G
20	0,5805/4	0,4386/4	0,3670/7
30	0,5805/4	0,4275/3	0,4590/5
40	0,5580/3	0,4309/3	0,3903/5
50	0,5580/3	0,3945/4	0,5151/3
60	0,4231/2	0,3945/4	0,4383/4

El enriquecimiento provee una ``suavización'' de la representación; i.e. al tomar más términos se sigue cumpliendo el objetivo de representar el texto. Sin embargo, cuando los términos no son adecuados se observa inestabilidad, variación no monotónica del índice

(ver

para

Se realizó, además, una evaluación con una clasificación standard diferente (tomada de la estructura que tiene la memoria del evento CICLing-2002) compuesta de dos clases: Lingüística Computacional y Procesamiento de Textos. Se reiteró la ventaja que tiene PT sobre los otros dos métodos. Adicionalmente, se observó un valor

usando PT con lista de asociación de términos.