Ofrece una precisión y exhaustividad superior al 95%

Nuevo sistema para obtener secuencias genéticas de la literatura científica

Un nuevo sistema desarrollado en la Facultad de Informática de la Universidad Politécnica de Madrid permite obtener secuencias genéticas de la literatura científica, con altos valores de precisión (97,98%) y exhaustividad (95,77%). El sistema facilita la tarea de identificación y localización de secuencias de primers y/o probes a los investigadores, ahorrándoles una cantidad de tiempo importante, que pueden a su vez ser invertir en mejorar la calidad asistencial y/o en tareas investigadoras.

Panorámica del proceso de extracción de primers (cebadores) y probes (sondas). Fuente: FIUPM

UPM

Una investigación desarrollada en la Facultad de Informática de la Universidad Politécnica de Madrid permite la detección y anotación de secuencias genéticas pertenecientes a microorganismos responsables de enfermedades infecciosas que aparecen en un manuscrito dado, aceptando varios formatos para dicho artículo, entre ellos el PDF, el sistema de representación de documentos más utilizado por los investigadores.

Además, la investigación ha reutilizado las mismas técnicas de detección de secuencias genéticas para crear un índice con todos los artículos de PubMed Central (PMC), la base de datos bibliográficos que proporciona libre acceso a obras científicas biomédicas y biológicas. La investigación ha asociado a cada artículo de PubMed Central las secuencias genéticas detectadas.

El método de detección de secuencias presenta unos altos valores de precisión (97,98%) y exhaustividad (95,77%). El sistema de anotación ha encontrado satisfactoriamente el nombre del microorganismo asociado a las secuencias en un alto porcentaje de ocasiones: se ha podido anotar correctamente las secuencias con el nombre del organismo en un 83,29% de los casos. Hay que destacar al respecto que en el 15,45% de los casos, esta anotación era imposible, ya que las secuencias a anotar no pertenecían a microrganismos responsables de enfermedades infecciosas.

Respecto a los nombres de gen, la investigación sólo ha podido encontrarlos en un 44,32% de los casos debido a que la información a recuperar no está siempre contenida en las bases de datos e, incluso, no ser conocida todavía.

Por último, la investigación ha reutilizado la detección y anotación de secuencias genéticas para asociar a cada artículo de PubMed Central las secuencias genéticas que contiene. En el momento de la creación del índice, la cantidad de artículos descargables de PMC era de 176.672. Como se disponía de una versión de cada artículo en formato XML, se utilizó este formato de representación porque reduce los tiempos respecto al tratamiento de artículos en PDF.

Aunque el sistema desarrollado en la FIUPM es completamente funcional y ofrece resultados útiles y precisos, abre nuevas vías de investigación para su perfeccionamiento tanto en términos de funcionalidad como de mejora de resultados y de rendimiento.

Los resultados de esta investigación se han publicado en la revista BMC Bioinformatics. En ella están implicados miembros del Departamento de Inteligencia Artificial, el Grupo de Informática Biomédica y el Departamento de Lenguajes y Sistemas Informáticos, todos ellos de la FIUPM. Asimismo, ha participado en la investigación la unidad de Bioinformática y salud pública del Instituto de Salud Carlos III.

Por la FIUPM, sus autores son Miguel García-Remesal, Alejandro Cuevas, Guillermo de la Calle, Diana de la Iglesia, David Pérez-Rey, José Crespo y Víctor Maojo. Por el Instituto de Salud Carlos III firman Victoria López-Alonso, Guillermo López-Campos y Fernando Martín-Sánchez.

Anteriormente, esta investigación había dado origen a otro artículo en la revista líder del área de la Bioinformática, Bioinformatics, sobre la aplicación PubDNA Finder, el primer buscador de artículos científicos con secuencias de ácidos nucléicos del que informamos en otra nota de prensa.

Importancia de esta investigación

Las tecnologías moleculares se usan con frecuencia en la práctica clínica para la identificación de microorganismos y detección de la presencia de factores virulentos, resistencia a antibióticos e interacciones huésped-paciente. Existen un gran número de tecnologías que utilizan cadenas relativamente cortas de bases nitrogenadas conocidas como primers (cebadores) y probes (sondas).

Tanto primers como probes son secuencias de ácidos nucleicos y no existe un estándar de representación de este tipo de cadenas en los artículos científicos. La literatura científica del área de la biología es la principal fuente de información sobre primers y probes para el diagnóstico y prescripción de enfermedades infecciosas.

El diagnóstico de enfermedades infecciosas basado en métodos moleculares se fundamenta en el hecho de que los virus “inyectan” su genoma en la célula afectada para reproducirse, algo que puede verse como una “firma viral”. Por lo tanto, es posible determinar si un paciente está infectado por un virus X analizando su ADN y verificando si la firma viral asociada al virus X está presente en su ADN. Para llevar a cabo este análisis, se ponen en un tubo de ensayo múltiples copias de la secuencia sonda que identifica unívocamente la firma viral asociada al microorganismo que se desea detectar, junto con una muestra de ADN del paciente. Las copias de la sonda se marcan químicamente para facilitar su posterior identificación.

La mezcla de material genético se somete entonces a altas temperaturas, lo que provoca la desnaturalización (separación) de la doble hélice del ADN del paciente. Una vez que se restablecen las condiciones normales de temperatura, las hebras de ácido nucleicos vuelven a unirse (renaturalizarse). Si al final de este proceso se verifica que alguna de las sondas se ha unido (naturalizado) a una hebra del ADN del paciente (algo que puede comprobarse fácilmente gracias a los marcadores químicos), entonces el médico puede concluir que el microorganismo ha infectado al paciente. El rol de los primers o cebadores en este proceso es también fundamental, ya que se utilizan para guiar el proceso de amplificación de ADN mediante la técnica de reacción en cadena de la polimerasa (PCR).

Las secuencias correspondientes a las sondas aparecen frecuentemente documentadas en la literatura científica. Sin embargo, para acceder a ellas, el médico debe recopilar, filtrar y analizar manualmente gran cantidad de artículos científicos, lo que es una labor muy costosa en términos de tiempo y esfuerzo.

Durante los últimos años, diferentes técnicas de minería de textos, extracción de información e ingeniería del conocimiento han probado su utilidad para la extracción, análisis y visualización de información biológica a partir de la literatura científica en el área de la investigación biomédica. A pesar de que la minería de textos aplicada a datos biológicos es un campo activo de investigación, estas técnicas no han sido utilizadas todavía para la creación de métodos y herramientas cuyo objetivo sea la extracción automática de primers y probes a partir de artículos científicos.

Esta investigación facilita la tarea de identificación y localización de secuencias de primers y/o probes a los investigadores, ahorrándoles una cantidad de tiempo importante, que pueden a su vez ser invertir en mejorar la calidad asistencial y/o en tareas investigadoras. De ahí la importancia del nuevo sistema de identificación, extracción y recuperación de secuencias genéticas a partir de la literatura científica.

Fuente: UPM

Derechos: Creative Commons