Las redes neuronales profundas permiten obtener voces sintéticas cada vez más realistas, lo cual puede generar desinformación cuando se usa, por ejemplo, para suplantar voces de personalidades públicas y políticos. Un equipo de la la Universidad de Granada y de la empresa española Monoceros Labs ha desarrollado un sistema que ayuda a discernir cuando la grabación es real o falsa.
Investigadores de la Universidad de Granada (UGR), han diseñado un método con el que se puede saber si un audio de voz es real o está generado mediante algoritmos de Inteligencia Artificial (IA). En la actualidad, los avances en el uso de redes neuronales profundas para la síntesis de audio permite obtener voces sintéticas (generadas mediante IA) cada vez más realistas.
Esto tiene grandes ventajas, ya que permite dotar de voces más inteligibles a los sistemas automáticos (por ejemplo, lectores de texto, asistentes virtuales, robots…), así como controlar sus características para hacerlas más expresivas y diversas (con aplicaciones por ejemplo en la producción de contenido multimedia).
Pero, por otro lado, la síntesis de habla también se puede utilizar para crear o manipular grabaciones de audio para fines maliciosos, como la suplantación de identidad en estafas telefónicas o la generación de noticias falsas.
Hasta ahora, el audio ha sido un problema menor en las redacciones en comparación con otros tipos de fake, como las fotografías o los vídeos. Sin embargo, en los últimos dos años han aumentado los casos, por lo que es preciso contar con herramientas que ayuden a la detección de audios falsos y puedan servir a los periodistas como una nueva fuente para la verificación de noticias.
La investigación, dirigida por los profesores Zoraida Callejas y David Griol, se ha realizado en el contexto de la Cátedra RTVE-UGR, en la que ambos investigadores participan junto con RTVE y la empresa Monoceros Labs.
Las líneas del estudio se han aplicado en este caso a la verificación de audios para combatir la desinformación. “Hemos generado una herramienta que integra soluciones propias y de terceros para discernir si un audio es real o está generado con algoritmos de inteligencia artificial”, explican los investigadores.
“Una de las novedades que introduce esta herramienta es que no sólo integra modelos generales, sino también modelos específicos generados en la UGR para voces de personalidades que son objetivo frecuente de desinformación”, destacan.
Durante la presentación del proyecto, los investigadores han puesto como ejemplo voces clonadas mediante técnicas de IA para la conversión y clonación de voz de Monoceros pertenecientes al Rey Felipe VI; el presidente del Gobierno, Pedro Sánchez, o la vicepresidenta Yolanda Díaz.
“Nuestro objetivo no es generar estas voces sintéticas de manera artificial, sino entrenar a nuestra IA mediante estas voces generadas por nosotros para que así el sistema pueda identificar si una voz es falsa o no con una alta precisión”, señalan los desarrolladores.
Actualmente, el equipo trabaja para ir más allá de la verificación y desarrollar herramientas para los periodistas basadas en IA conversacional, que proporcionen interactividad, accesibilidad y personalización de contenidos informativos.