Un programa informático autodidacta encuentra imágenes mejor que ‘Google’

Investigadores estadounidenses han creado una herramienta que aprende sola y asocia conceptos con imágenes. No se trata de un simple navegador de imágenes que busca según las palabras que aparecen en el pie de foto, sino que, a base de ‘leer’ millones de libros, es capaz de relacionar las ideas con sus representaciones visuales.

Un programa informático autodidacta encuentra imágenes mejor que ‘Google’
Tres de los conceptos y sus imágenes que ofrece LEVAN. /Universidad de Washington

En el mundo digital, encontrar lo que se busca puede ser cuestión de segundos o convertirse en una tarea hercúlea. La avalancha de datos que ofrece la red a veces es una traba para discernir lo realmente valioso de lo fútil.

En la conferencia de Visión Informática y Reconocimiento de Patrones que este año se celebra en Columbus (Ohio), científicos de la Universidad de Washington y del Instituto Allen para la Inteligencia Artificial (EE UU) han presentado el primer programa informático totalmente automatizado que navega entre conceptos visuales y los reconoce al verlos.

Es diferente a las bibliotecas de imágenes on line que solo se basan en las palabras que aparecen en los pies de foto

Este programa, llamado Learning Everything about Anything (Aprendiendo todo sobre cualquier cosa) o LEVAN, busca entre millones de libros e imágenes por la web para aprender todas las variaciones posibles de un concepto y crear una lista exhaustiva donde los usuarios exploran imágenes.

"Se trata de descubrir asociaciones entre texto e imagen", declara Ali Farhadi, uno de los autores y profesor adjunto en dicha universidad estadounidense". “El programa –sigue– asocia las frases con los píxeles de las imágenes. Esto significa que puede reconocer conceptos específicos cuando los ve".

video_iframe

El programa aprende qué términos son relevantes sobre las imágenes de la web e identifica sus patrones característicos mediante algoritmos de reconocimiento de objetos. Según los investigadores, se trata de una herramienta diferente a las bibliotecas de imágenes on line ya que no solo se basan en las palabras que aparecen en los pies de foto, sino que se apoya en un amplio conjunto de frases para entender y etiquetar las imágenes por su contenido.

Navegar en LEVAN

Los interesados ya pueden buscar en la biblioteca de LEVAN alrededor de 175 conceptos tales como: ‘hermoso’, ‘desayuno’, ‘brillante’, ‘cáncer’, ‘innovación’, ‘skate’, ‘robot’, y la primera entrada de los investigadores: ‘caballo’.

Si el término no aparece, se puede introducir en la barra de búsqueda cualquier vocablo y el programa genera una lista exhaustiva de imágenes según subcategorías. Por ejemplo, la palabra ‘perro’ conduce a: ‘Chihuahua perro’, ‘perro negro’, ‘perro de natación’, ‘perro desaliñado’, ‘perro galgo’ entre otras.

Esta herramienta in silico busca entre los millones de libros en inglés disponible en Google Books y explora cada concepto por toda esta biblioteca digital. Además, un algoritmo filtra las palabras que no son visuales. Es decir, con el concepto ‘caballo’, el algoritmo mantendría frases como ‘caballo saltando’, ‘caballo comiendo‘ y ‘caballo corriendo’ pero excluiría frases no visuales, tales como ‘mi caballo’ y ‘último caballo’.

Según los autores, una vez que LEVAN reconoce las frases relevantes, el programa hace una búsqueda de imágenes en la red y establece la uniformidad entre ellas ya que descarta las fotos menos precisas.

Programa automático

"Los diccionarios y enciclopedias empiezan a mostrar su contenido en un formato más visual ya que resulta más intuitivo. Sin embargo, estos medios tienen una cobertura limitada de los conceptos ya que, a menudo, este es un trabajo manual”, sostiene Santosh Divvala, otro de los autores del estudio e investigador en las dos instituciones mencionadas. “Nuestro programa –continúa– no necesita supervisión humana, y, por lo tanto, aprende de forma automática”.

Desde marzo, LEVEN ha alcanzado las 13 millones de imágenes

Aunque sea autodidacta, LEVAN está limitado a las doce horas necesarias que requiere la consulta de ciertos conceptos amplios. De hecho, aumentar la velocidad y la capacidad de procesamiento del programa es una de las tareas pendiente de estos informáticos.

No obstante, el proyecto empezó en marzo con un puñado de conceptos y desde entonces ha alcanzado las 13 millones de imágenes asociadas a 65.000 frases.

Además, este equipo pretende desarrollar una aplicación para smartphone con el fin de que esta herramienta de código abierto llegue a ser útil tanto para los educadores como para el colectivo informático dedicado a estudiar la visión por ordenador.

Fuente: SINC
Derechos: Creative Commons
Artículos relacionados