Recuperación de información:

ESTUDIO DE TÉCNICAS ALTERNATIVAS Y DE ALTA ESCALABILIDAD PARA SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN :

(Tengo disponibles 5 BECAS para estudiantes de licenciatura --> 1 para 2010, 2 para 2011 y 2 para 2012)

En este proyecto se propone analizar el impacto de la aplicación de técnicas alternativas al proceso de recuperación de información. Deseamos incrementar nuestros conocimientos y comprensión actual en el tratamiento de los grandes volúmenes de información disponibles en internet. Nuestro interés mayor es estudiar métodos que tengan la característica de ser altamente escalables, es decir, que su rendimiento sea el mismo sin importar el volumen de datos de entrada. El concepto de escalabilidad es de suma importancia en la actualidad dada la inmensa cantidad de información disponible en internet [33]. En el proyecto propuesto se estudiarán métodos que tienen la capacidad de reducir la complejidad computacional de los sistemas de indexamiento y al mismo tiempo proporcionan un esquema de categorización automática. La incorporación de las dos características antes mencionadas en un solo modelo de recuperación de información no ha sido estudiada ampliamente en la literatura y mas aún, no se encuentra disponible en sistemas de recuperación de información líderes tales como google, yahoo y msn. Adicionalmente, consideramos interesante analizar el rendimiento de los modelos alternativos que se plantearán en el marco del tratamiento de información multilingüe. Se sabe que existe un creciente interés por el desarrollo de modelos teóricos que permitan enfrentar el inherente caracter multilingüe de internet. Este comportamiento es bastante esperado dado que, por ejemplo, solamente en europa existen mas de 24 idiomas distintos que son hablados normalmente y por tanto difundidos a través de páginas de internet [22]. En particular, en nuestro pais existe un crecimiento notable en la cantidad de dialectos en los cuales los mexicanos publican sus páginas de internet, en especial, es el mismo gobierno el cual está interesado en difundir el uso de estas lenguas por medios electrónicos. Si bien, son un subconjunto bastante reducido en comparación con las cerca de 65 lenguas indígenas oficialmente reconocidas por el gobierno mexicano, de acuerdo con la ley de derechos lingüísticos del 2001 [15, 14], no deja de ser importante el poseer un modelo de recuperación de información capaz de integrarlas y proporcionar a través de una herramienta una interfaz para la localización de sitios web escritos en diferentes lenguas indígenas. Por lo anterior expuesto, este proyecto presenta un ambiente de investigación original de ciencia básica en donde principalmente se estudiarán conceptos teóricos matemáticos ya conocidos y su posible extensión y/o aplicación en el área de recuperación de información. Por ejemplo, se diseñará un modelo matemático basado en técnica hash, con un componente difuso (fuzzy) que permitirá clasificar documentos en multiples categorías durante el mismo proceso de indexación. Dada una consulta de un usuario final, este innovador proceso debería producir mejores resultados en la menor cantidad de tiempo. Las aplicaciones finales de los estudios de algoritmos alternativos de alta escalabilidad en el ámbito de recuperación de información son numerosas. Considérese por ejemplo, la búsqueda de personas en internet. Esta tarea es una de las mas requeridas en la actualidad [1], sin embargo, los algoritmos usados por los motores de búsqueda que atienden esta problemática se encuentran en su mayoría basados en técnicas básicas y clásicas de recuperación de información, las cuales no soportan, por ejemplo, el tratamiento de información multilingüe y particularmente la clasificación automática como un componente implícito durante el proceso de indexación. En su lugar, los sistemas actuales que clasifican personas en internet, usan algoritmos de agrupamiento (clustering) para realizar la clasificación no supervisada y otros proponen el uso de algoritmos de clasificación supervisada. Si bien, estos últimos suelen obtener los mejores resultados en experimentos controlados, cuando la aplicación es puesta a ejecución en ambientes reales, su precisión suele decrementar significativamente, principalmente debido a la gran cantidad de información que debe ser tratada y a los conjuntos de entrenamiento que pueden estar sesgados o ser poco representativos. Otro ejemplo de la posible aplicación de los modelos a desarrollar en este proyecto sería en el tratamiento del problema de plagio de documentos. Es bastante conocido el impacto negativo que tiene este fenómeno, por ejemplo, en el ámbito educativo. Los estudiantes suelen copiar información obtenida desde internet y usarla sin el menor pudor en sus propios documentos, sin citar la fuente (lugar y nombre del autor original). Un sistema veloz de recuperación de pasajes con categorización automática sería de gran importancia. Con la finalidad de tener una evaluación objetiva de las hipótesis planteadas en este proyecto, se analizarán los resultados obtenidos usando medidas estándar, y éstos se compararán con aquellos resultados obtenidos por modelos reconocidos internacionalmente. En particular se usarán colecciones y resultados de foros de evaluación en recuperación de información tales como webclef y trec. Finalmente, y como una labor fundamental de la tarea de formación de recursos humanos, durante el transcurso de este proyecto se formarán estudiantes en los niveles de licenciatura, maestría y doctorado, lo cual sin duda tendrá un impacto positivo en el desarrollo de la línea de investigación de sistemas de recuperación de información (sri), que sin duda es de gran importancia para el tratamiento de información en internet.

Referencias: [34] zipf, g.k.: human behaviour and the principle of least effort, addison-wesley, 1949. [22] pinto, d.; jiménez-salazar, h.; rosso p. & sanchis, e.: buap-upv tpirs: a system for document indexing reduction at webclef. Accessing multilingual information repositories, clef 2005, lncs 4022, 2006. [14] cdi-pnud: sistema de indicadores sobre la población indígena de méxico, 2002. [15] conaculta, ini: la diversidad cultural de méxico. Los pueblos indígenas y sus 62 lenguas, méxico, 1998. [1] artiles, j., j. Gonzalo & s. Sekine: the semeval-2007 weps evaluation: establishing a benchmark for the web people search task, in proc. Of the 4th international workshop on semantic evaluations, acl'07, pp.64-69, 2007.

Redes Sociales y la Web Semántica (proyecto aprobado e iniciando ):

(Tengo disponible una BECA para un estudiante)

En este proyecto se estudiarán las redes sociales en un contexto semántico. Nos interesa estudiar los roles que juegan los personajes así como el desarrollo del contenido (de preferencia textual) dentro de dichas redes. De esta manera, llevaremos a cabo experimentos con diversos problemas relacionados con las redes sociales y la Web 2.0, tales como la caracterización de documentos blog, la búsqueda de personas en el Web y las tareas de implicación textual en diferentes ambientes, tales como noticias periodísticas y documentos académicos.

EUREMOTE:

Se trata de un proyecto internacional para la administración y sobre todo visualización de resultados desde laboratorios virtuales (telelaboratorios). Este proyecto está en proceso de inicio y se espera que arranque a partir del año 2010.
IndexInMusic (Proyecto no terminado):

Indexamiento y búsqueda de música a través de tonadas vocales. Se debe analizar a un cúmulo significativo de canciones en mp3 y escribir un programa que ejecute la FFT a fin de extraer características que puedan ser útiles en el proceso de indexamiento y su posterior clasificación.
CrawLex (ver prototipo aquí):

Un sistema de crawling para noticias mexicanas y su uso en el análisis de su impacto en los partidos políticos, así como en temas de importancia nacional.

Visualización de información:

Vizualización de noticias mexicanas con processing:

Se llevan a cabo experimentos sobre visualización de información textual usando un paquete llamado processing, el cual facilita el acceso a primitivas de graficación de java.
WiiMote:

Se experimenta con camaras de lectura infraroja para su uso en la vida cotidiana. En particular, estamos usando los controles del sistema de juego Wii.

Sistemas operativos y traductores:

Legos:

Actualmente estamos desarrollando un intérprete de Lisp y su traducción a código máquina ejecutable sobre los procesadores soportados por los robots de LEGO Mindstorms (RCX 1.x , 2.x y NXT 1.0, 2.0).

Comunicación inalámbrica:

FreeMote:

Estamos desarrollando un nuevo dispositivo electrónico para el control de instrumentos musicales. Se usa tecnología Bluetooth.

Recuperación de información:

ESTUDIO DE TÉCNICAS ALTERNATIVAS Y DE ALTA ESCALABILIDAD PARA SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN :

Redes Sociales y la Web Semántica (proyecto aprobado e iniciando ):

(Tengo disponible una BECA para un estudiante)

EUREMOTE:

IndexInMusic (Proyecto no terminado):

CrawLex (ver prototipo aquí):

Visualización de información:

Vizualización de noticias mexicanas con processing:

WiiMote:

Sistemas operativos y traductores:

Legos:

Comunicación inalámbrica:

FreeMote:

Derechos reservados (®), David Pinto, FCC, BUAP, Mexico. 2009