Para facilitar el acceso a la bibliografía biomédica especializada, investigadores de la Universidad Complutense de Madrid han desarrollado un nuevo software que crea automáticamente resúmenes de textos identificando conceptos y relaciones semánticas entre ellos.
Investigadores del Departamento de Ingeniería del Software e Inteligencia Artificial de la Universidad Complutense de Madrid (UCM) han desarrollado un método para la generación automática de resúmenes de textos de biomedicina, basado en la representación del documento como un grafo para identificar conceptos y las relaciones semánticas entre ellos.
El acceso a la bibliografía en biomedicina resulta fundamental tanto para los profesionales de la salud como para los consumidores. Sin embargo, el volumen de artículos disponibles supone una amenaza para el aprovechamiento de la información. La generación de resúmenes constituye una incuestionable ayuda para la gestión de esta sobrecarga de datos. Además, mejora el indexado y la categorización de la bibliografía.
“Al evaluar los resúmenes automáticos frente a los resúmenes manuales de los autores, se ha encontrado que la mejor estrategia es aquella que selecciona la mayor parte de la información del principal tema del documento, pero también incluye otra información secundaria o 'satélite' que podría ser relevante para los usuarios”, explica Laura Plaza, una de las autoras del trabajo.
Uso de conceptos en lugar de palabras
Aunque la mayoría de los sistemas de generación de resúmenes están diseñados para ser multipropósito y no tienen en cuenta las propiedades particulares de cada dominio y tipo de documento, estudios recientes han demostrado los beneficios de la generación de resúmenes basada en representaciones más ricas que hacen uso de fuentes de conocimiento de un dominio específico.
Esta última tendencia representa los documentos usando conceptos en lugar de palabras, pudiéndose enriquecer mediante el uso de asociaciones semánticas entre conceptos (por ejemplo, sinonimia, hiperonimia, homonimia, concurrencias o asociaciones semánticas) para mejorar la calidad de los resúmenes. En particular, el Unified Medical Language System (UMLS) ha demostrado ser una fuente de conocimiento útil para la generación de resúmenes en el dominio de la biomedicina.
El sistema calcula la relevancia de las oraciones a extraer en relación a la importancia, peso o prestigio de los conceptos en el grafo del documento. De este modo se construye una representación más rica en conocimiento (semántica) que la proporcionada por los modelos tradicionales basados en términos.
Distintas estrategias para la generación de resúmenes
Los investigadores proponen tres estrategias o heurísticas para la selección de oraciones, donde cada una de ellas pretende construir un tipo diferente de resumen según el tipo de información en la fuente que es probable que se incluya en el resumen.
Además, el generador de resúmenes se enfrenta a diversos problemas derivados de las peculiaridades de la terminología biomédica, tales como la ambigüedad léxica y el uso de acrónimos y abreviaturas.
Referencia bibliográfica:
Laura Plaza, Alberto Díaz, Pablo Gervás. "A semantic graph-based approach to biomedical summarisation". Artificial Intelligence in Medicine 53 (2011) 1– 14.