Vigilantes robóticos aprenden a patrullar mediante la teoría de juegos

Un equipo del Grupo de Investigación de Robótica y Cibernética de la Universidad Politécnica de Madrid ha ensayado un sistema en que robots dotados de inteligencia artificial establecen sus propias rutas sin un coordinador central. El sistema está inspirado en un modelo matemático de aprendizaje de la teoría de juegos.

El aspecto de los robots es la de un coche pequeño de cuatro ruedas, que incluye actuadores, sensores, sistemas de comunicación y una unidad de procesamiento. / UPM

UPM

La Universidad Politécnica de Madrid (UPM), a través del Grupo de Investigación de Robótica y Cibernética (RobCib), está ensayando un sistema de patrullaje multirrobot que se basa en un modelo matemático de aprendizaje de la teoría de juegos denominado jugadas ficticias suaves y selectivas (SSFP, en sus siglas en inglés).

La principal característica de esta propuesta es que cada uno de los robots de seguridad establece sus propias rutas sin un coordinador central. Es decir, el patrullaje solo está determinado por la inteligencia artificial del propio robot.

La inteligencia y la autonomía de los robots se establecen sobre la base de que cada unidad participa en un juego que, de acuerdo con la teoría de juegos, se determina en función de tres factores: jugadores, acciones y beneficios. En este modelo, los jugadores son los robots, las acciones son las selecciones para ir a otro punto de interés del entorno y los beneficios o los estímulos son los valores numéricos que, por ejemplo, reflejan la distancia que debe recorrerse, el consumo de energía o el tiempo invertido.

El aspecto de estos robots es la de un coche pequeño de cuatro ruedas, que incluye actuadores, sensores, sistemas de comunicación y una unidad de procesamiento. Cuando participan en el juego que se ha definido para ellos, solo necesitan saber lo que han hecho otros compañeros mecánicos en una anterior partida. Aquí radica su autonomía. Aprenden a resolver juegos con cierta racionalidad basándose principalmente en los beneficios que obtiene cada jugador a través del tiempo. Es decir, un robot percibe que hace las cosas bien en función de si recibe más o menos beneficio.

Evitar la infiltración de atacantes

Para subir una escala más y hacer que los robots aprendan a patrullar con cierta racionalidad y evitar la infiltración de un atacante, se debe diseñar toda una solución que dé prioridades a ciertos puntos de interés de la infraestructura que se protege. Esta tarea es uno de los factores más relevantes en esta investigación y actualmente se encuentra en desarrollo.

La idea principal es asignar prioridades a los puntos de interés definidos dentro de la infraestructura protegida. De este modo, puede darse más importancia a aquellas zonas que son más sensibles a un ataque, y junto al objetivo de garantizar que todas las zonas sean visitadas, añadir la prioridad a las más necesitadas de vigilancia.

Erik Hernández Serrato, investigador del Centro de Automática y Robótica (CAR) que participa en este trabajo, subraya que los autómatas deben dispersarse en el entorno para que la tarea de patrullaje no se centre solo en algunas zonas del entorno protegido. Por esta razón, es necesario definir un juego para que los robots decidan visitar un punto de interés diferente al seleccionado por los demás compañeros mecánicos.

“Imaginemos que definimos el juego en un punto de interés, como la sala de recogida de equipajes de la terminal 4 del aeropuerto de Barajas”, propone el investigador. “Supongamos que los robots A y B juegan y que cada robot tiene dos opciones: ir al acceso de autobuses y taxis o ir a la sala de facturación. Además supongamos que el robot A casi siempre ha decidido ir al acceso de autobuses y taxis. Por tanto, por la definición del juego, habría más probabilidad de que el robot B decida ir a la sala de facturación”.

No se trata de que las unidades mecánicas detengan a los 'malos' como en las películas, sino que su misión consiste en realizar tareas de patrullaje para detectar irregularidades en el entorno que protegen. Si encontraran alguna anomalía, sería necesario realizar un análisis de lo que el robot observa a través de sus cámaras y sensores. El fin último sería evitar un escenario crítico con la detención de los intrusos, aunque esa sería otra línea de investigación que englobaría un sistema de seguridad completo, dice Hernández Serrato.

El investigador recuerda que es de vital importancia para cualquier país garantizar la seguridad de sus infraestructuras. Por ello, han ensayado las simulaciones, además de en el aeropuerto de Barajas, en centrales nucleares, plantas químicas o límites fronterizos.

Su misión consiste en realizar tareas de patrullaje para detectar irregularidades en el entorno que protegen

Detección de drogas y explosivos

También la adaptación de los robots ha ido un paso más allá. En este momento, los investigadores contemplan nuevas líneas de investigación que intentan dotarlos con dispositivos capaces de detectar, por ejemplo, drogas o explosivos mediante narices electrónicas, o con detectores de fuego a través de cámaras térmicas.

Edificios como el de las Naciones Unidas en Nueva York o infraestructuras como el aeropuerto de Los Ángeles utilizan modelos parecidos, aunque en el segundo caso las rutas aleatorias de vigilancia están centralizadas y realizadas por vigilantes con unidades caninas. En la solución propuesta por el Grupo de Investigación de Robótica y Cibernética (RObCib) de la UPM, a diferencia de lo que sucede en el aeropuerto californiano, no existe un programa informático central que defina trayectorias, sino que los robots generan sus rutas de patrullaje conforme vigilan.

Es como si cada vez que la unidad canina llegara a un punto de control decidiera cuál es el siguiente que visitar, según su criterio, desconociendo de antemano el próximo objetivo de vigilancia. La otra diferencia fundamental es que, en vez de perros, el patrullaje lo llevarían a cabo robots.

Los investigadores de la UPM proyectan para el futuro coordinar sus robots móviles terrestres con drones. En este planteamiento, por ejemplo, el robot volador, con un campo de visión más amplio, podría tomar una imagen de todo el entorno, para posteriormente determinarse los puntos de interés que los robots terrestres deberían proteger a través de tareas de patrullaje.

Hernández Serrato considera que la repercusión más importante de la investigación radica en el hecho de que este tipo de modelo de patrullaje puede adaptarse comercialmente para generar diferentes soluciones de seguridad en función de las infraestructuras y que es válido tanto para sistemas robotizados como para los que, de manera convencional, se realizan mediante vigilantes humanos.

Además, apunta a otro valor del trabajo desarrollado por este grupo de investigación de la UPM. “Cada nación debe contar con su propia tecnología para proteger sus infraestructuras en lugar de utilizar una solución universal”, afirma. ¿Es congruente que una nación o institución confíe su seguridad a intereses ajenos? Pensamos que no, y que lo mejor es desarrollar y utilizar tecnología local.”

Fuente: UPM

Derechos: UPM

Claves