next up previous
Siguiente: Enriquecimiento de términos índice Subir: Uso del punto de Anterior: El punto de transición


Elección de términos índice

En numerosas tareas de procesamiento de texto (CT, RI, y AT, entre otras) es necesario representar los textos usando los términos contenidos en ellos. Sin embargo, suele hacerse una reducción de estos términos, debido a la gran cantidad de términos que ocurren en una colección; además de que el empleo de todos los términos vicia el procedimiento, sea éste de clasificación, resumen, etc. Así, se usan variados métodos para elegir los términos que representarán a los textos; es decir los términos índice. La selección se hace con base en una puntuación que el método asigna a cada término: se toma un porcentaje del total de términos de los textos con la más alta puntuación.

Los métodos de selección pueden ser supervisados o no supervisados; esto es, los supervisados utilizan información acerca de los términos que tienen mayor capacidad para determinar una clase, según la colección de entrenamiento [Sebastiani2002]. Dos de los métodos supervisados más efectivos son: CHI, que mide la independencia entre la clase de un texto y un término contenido en el texto; e IG cuya puntuación representa la carencia de información que provee un término para predecir la clase del texto en el que ocurre. En este trabajo utilizaremos métodos no supervisados puesto que resulta más útil para el tipo de problema que se pretende resolver. Consideremos una colección de textos $ D=\{T_1,\ldots,T_k\}$. Tres son los métodos que abordaremos:

Frecuencia entre documentos (DF).
Asigna a cada término $ t$ el valor $ df_t$, que es el número de textos de $ D$ en los que ocurre $ t$. Se supone que los términos raros (baja frecuencia) difícilmente ocurrirán en otro texto y, por tanto, no tienen capacidad para predecir la clase de un texto.
Fuerza de enlace (TS).
La puntuación que se da a un término $ t$ está definida por:

$\displaystyle ts_t=\Pr(t\in T_i\vert t\in T_j),
$

donde $ sim(T_i,T_j)>\beta$, y $ \beta$ es un umbral que debe ajustarse observando la matriz de similitudes entre los textos. Con base en su definción, puede decirse que un va-lor alto de $ ts_t$ significa que $ t$ contribuyó a que, al menos, dos documentos fueran más similares que el umbral $ \beta$.
Punto de transición (PT).
Los términos reciben un valor alto entre más cerca esté su frecuencia del PT. Una forma de hacerlo es calcular el inverso de la distancia entre la frecuencia del término y el PT:

$\displaystyle idtp_t=\frac{1}{\vert PT-fr(t)\vert+1},
$

donde $ fr(t)$ es la frecuencia local, (en el texto, y no en la colección); esto es, los términos reciben una puntuación en cada texto.
DF es un método muy simple pero efectivo, por ejemplo, en categorización de textos (CT) compite con los clásicos supervisados CHI e IG.

También el método PT tiene un cálculo simple, y puede usarse de diversas formas. En especial para CT se ha visto mejor desempeño con $ PT_{df}$, o PT global; esto es, se considera $ df_t$, en lugar de la frecuencia local de los términos en cada texto de la colección.

Los métodos DF y PT están en la clase de complejidad lineal con respecto al número de términos de la colección.

El método TS (Term Strength) es muy dispendioso en su cálculo, pues requiere calcular la matriz de similitudes entre documentos; cuadrático en el número de textos. Pero se reportan resultados de AT cercanos a los métodos supervisados [Liu

2003
].



Subsecciones
next up previous
Siguiente: Enriquecimiento de términos índice Subir: Uso del punto de Anterior: El punto de transición
David Pinto 2006-05-25