Investigadores del Centro Singular de Investigación en Tecnoloxías da Información, en Santiago de Compostela, han desarrollado un algoritmo para anticipar las zonas de una imagen a las que dirigirá su mirada un espectador, además de reducir su exceso de información. Este modelo de atención visual lo podrían aplicar algunas empresas de publicidad en sus anuncios.
El modelo de atención visual Adaptive Whitening Saliency (AWS) es un algoritmo desarrollado por investigadores del Centro Singular de Investigación en Tecnoloxías da Información (CiTIUS) para responder al problema del exceso de información en el ámbito de la robótica.
Este sistema permite predecir los puntos fuertes de las imágenes que más atraen la atención de un espectador, por lo que podría ser útil para aumentar la efectividad de los anuncios publicitarios.
El modelo AWS ofrece una herramienta que no sólo permite filtrar el ruido para su implementación en distintas áreas de la robótica móvil, sino que sirve también de referencia para detectar las partes más significativas de una determinada imagen, incluso si esta se encuentra en movimiento.
La representación visual de este resultado se llama ‘mapa de saliencia’ y muestra las zonas más atractivas para el espectador, según han confirmado distintos estudios experimentales realizados con humanos.
El modelo considera el hecho de que un simple golpe de vista le basta al ser humano para disgregar lo esencial de lo superfluo en la escena que le rodea, interpretando así los elementos situados en el entorno según su grado de relevancia. Se trata de una asombrosa capacidad que usamos constantemente, y entre cuyos numerosas aplicaciones cotidianas figura, por ejemplo, la conducción de un automóvil.
El ejemplo del paso de peatones
Imaginemos que el conductor de un coche se aproxima a un paso de peatones, donde un grupo de viandantes se dispone a cruzar la calle. Ante la situación que detecta pocos metros más adelante, el conductor reduce progresivamente la velocidad pero, de pronto, un ciclista se cruza en su trayectoria.
Repentinamente, y a pesar de que el paso de peatones permanece en su ángulo de visión, la atención del conductor se concentra en la región de la imagen que ha de analizar para evitar el atropello, pasando el resto de la escena a un segundo plano.
Sólo los puntos fuertes de las imágenes que llegan a nuestros ojos son determinantes en el proceso de la visión humana, ya que no tenemos capacidad de interpretar todos los datos que se presentan a nuestro alrededor.
De esta manera, nuestro sistema visual es el encargado de filtrar, a gran velocidad, la información capturada, prescindiendo de aquella que resulte irrelevante con el objetivo de hacer viable su posterior interpretación en el cerebro.
Esta capacidad humana de eliminar datos innecesarios o redundantes del entorno se conoce como ‘atención visual’. Un proceso aparentemente sencillo y transparente para el individuo (en este caso, el conductor) que constituye, sin embargo, el resultado de un conjunto de mecanismos evolutivos extremadamente complejos a nivel óptico y neuronal.
Enseñarle a un robot a reproducir cada uno de estos pasos para lograr que aprenda a identificar las partes más relevantes de su entorno requiere igualmente de numerosas e intrincadas técnicas (algunas de ellas inspiradas en modelos humanos), que una vez incorporadas permiten resolver uno de los problemas más frecuentes en el ámbito de la inteligencia artificial: la presencia de ruido (o exceso de información).
El modelo AWS permite filtrar ese ruido y detectar las partes más relevantes de las imágenes. El trabajo que ha dado lugar a este algoritmo, desarrollado en el marco del Programa de Visión Artificial del centro, fue calificado en 2013 como “el mejor del mundo” en un estudio realizado por la University of Southern California.