next up previous
Siguiente: Método Subir: Experimento Anterior: Experimento

Colección de prueba

Una manera de medir la calidad de los grupos generados es través del llamado gold standard, el cual consiste en el agrupamiento manual de textos completos. De esta manera podemos determinar la utilidad de los grupos generados.

Se utilizó una colección de prueba formada por 48 resúmenes de textos del dominio Lingüística Computacional y Procesamiento de Textos, correspondiente al evento CiCLing 2002. Los textos de la colección están repartidos en 4 clases:

  1. Lingüística (semántica, sintaxis, morfología y parsing).
  2. Ambigüedad (WSD, anáfora, etiquetamiento, y spelling ).
  3. Léxico (léxico, corpus, y generación de texto).
  4. Procesamiento de texto (recuperación de información, resumen automático, y clasificación de textos).
Después de eliminar las palabras cerradas y aplicar un algoritmo de Porter para truncar el resto, el número total de términos de la colección fue 956, y cada texto contuvo 70.4 términos en promedio.



David Pinto 2006-05-25