Desarrollada en el VAI, será presentada en julio próximo en el Congreso Euralex

Nueva herramienta para la construcción de tesauros

Una nueva herramienta para crear tesauros ha sido desarrollada por investigadores de la Facultad de Informática de la UPM en colaboración con el Instituto de Estudios Documentales sobre Ciencia y Tecnología del CSIC. La nueva herramienta, llamada Tesaurvai, permite la extracción, anotación y organización de términos especializados tomados de una colección de textos digitalizados.

El Grupo de Validación y Aplicaciones Industriales (VAI), de la Facultad de Informática de la Universidad Politécnica de Madrid,(FIUPM), interviene en el XIII Congreso Internacional Euralex, que se celebra en Barcelona entre el 15 y el 19 de julio próximos, para presentar Tesaurvai, una herramienta software para construcción de tesauros.

Tesaurvai permite la extracción, anotación y organización de términos especializados tomados de una colección de textos digitalizados. Tesaurvai sigue la norma ISO para la construcción de tesauros y ha sido desarrollada en el VAI en colaboración con el Instituto de Estudios Documentales sobre Ciencia y Tecnología (antes CINDOC), del Consejo Superior de Investigaciones Científicas.

Euralex es el congreso europeo más prestigioso en el mundo de la lexicografía. La edición de 2008 está organizada por el grupo de investigación InfoLex, del Instituto Universitario de Lingüística Aplicada de la Universidad Pompeu Fabra, y reúne a lexicógrafos profesionales, editores, investigadores, especialistas y toda persona interesada en diccionarios de todo tipo.

Dos en uno

La principal contribución de Tesaurvai es la unificación de un extractor terminológico con capacidad de ordenación y selección de términos desde 1 a 10 palabras, asociado a las capacidades de creación de tesauros acorde a la Norma ISO, dentro de una misma herramienta. El extractor identifica los términos situados dentro de textos digitales que deben ser transferidos al constructor del tesauro. El tesauro es un listado organizado de términos representativos de un dominio.

Tesaurvai cumple los estándares internacionales para la construcción y gestión de un tesauro y permite diversas realizaciones. Por un lado, es una herramienta para crear tesaurus desde el principio, teniendo en cuenta la extracción de información, la creación, edición y anotación de los términos. Es fácil de usar para establecer relaciones entre términos y realizar búsquedas básicas o avanzadas de términos.

Por otra parte, Teasurvai es una herramienta que permite la importación y exportación de tesauros de textos a archivos XML. Por último, puede construir índices alfabéticos y jerárquicos, que pueden ser intercambiados para ser imprimidos o para ser exportados como informes.

Disponible desde julio 2008

La herramienta ha sido desarrollada en Java y trabaja sobre una base de datos. Tesaurvai es compatible con cualquier gestor de base de datos dotado de conectividad Java Database (JDBC).

Su desarrollo forma parte del proyecto “Búsqueda documental sobre Patrimonio Cultural basada en recursos técnicos ultilingües” (Patrilex), subvencionado por el Ministerio de Educación, con la finalidad de generar una metodología y sus correspondientes herramientas para la creación de recursos léxicos multilingües.

Teasurvai de momento se encuentra en una etapa de pruebas masivas. Sin embargo, a partir de julio de 2008 estará asequible desde Internet para cualquier navegante.

Fuente: UPM
Derechos: Creative Commons
Artículos relacionados