Siguiente: Método
Subir: Experimento
Anterior: Experimento
Una manera de medir la calidad de los grupos generados es
través del llamado gold standard, el cual
consiste en el agrupamiento manual de textos completos. De
esta manera podemos determinar la utilidad de los grupos generados.
Se utilizó una colección de prueba formada por 48 resúmenes de textos
del dominio Lingüística Computacional y Procesamiento
de Textos, correspondiente al evento CiCLing 2002. Los textos
de la colección están repartidos en 4 clases:
- Lingüística (semántica, sintaxis, morfología y
parsing).
- Ambigüedad (WSD, anáfora, etiquetamiento, y spelling ).
- Léxico (léxico, corpus, y generación de texto).
- Procesamiento de texto (recuperación de información,
resumen automático, y clasificación de textos).
Después de eliminar
las palabras cerradas y aplicar un algoritmo de Porter para truncar el resto,
el número total de términos de la colección fue 956, y cada texto
contuvo 70.4 términos en promedio.
David Pinto
2006-05-25