Un programa informático desarrollado en la Facultad de Informática de la Universidad Politécnica de Madrid permite al Centro de Investigaciones Sociológicas (CIS) organizar de forma efectiva su histórico de preguntas para formular nuevas encuestas en menos tiempo y de forma automática. El programa, cuya fiabilidad es del 96%, ha ahorrado al CIS cuatro años de trabajo de una persona dedicada específicamente a esta labor.
Investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un programa informático para el Centro de Investigaciones Sociológicas de España (CIS) que ahorra 4 años de trabajo a una persona en la gestión de la base de datos de sus encuestas.
El Centro de Investigaciones Sociológicas, dependiente del Ministerio de Presidencia, lleva 50 años recogiendo la opinión de la sociedad española sobre los más diversos temas de interés social. En ese periodo ha generado un total de 87.221 preguntas, con sus correspondientes respuestas.
Para realizar nuevas encuestas, el CIS no necesita formular nuevas preguntas, sino aprovechar las numerosas preguntas acumuladas para actualizarlas y descubrir así el estado de la opinión a día de hoy sobre esas cuestiones.
Con la finalidad de aprovechar ese histórico de preguntas, el CIS ha acometido la labor de homogenizar la estructura de las preguntas, lo que implica titular las encuestas para poder organizarlas y aprovecharlas de cara a nuevas encuestas y generar series temporales de cuestiones.
El CIS había destinado inicialmente a dos personas a esta labor de clasificación de preguntas y a homogenizar los títulos de las encuestas, consiguiendo agrupar manualmente 39.257 cuestiones en torno a determinados títulos.
El programa informático, desarrollado en dos meses por el Grupo de Validación y Aplicaciones Industriales de la Facultad, ha conseguido agrupar 22.347 preguntas, casi la mitad de las que faltaban, así como las ha clasificado con sus respectivos títulos. Asimismo, ha generado un 96% de títulos correctos, según la evaluación técnica realizada sobre la legibilidad y presencia de información relevante en las preguntas analizadas.
Los resultados de esta investigación fueron presentados por la profesora Carolina Gallardo en la conferencia Flexible Query Answering Systems, celebrada recientemente en Bélgica, y han sido publicados en los proceedings de dicha conferencia.
Referencia bibliográfica:
Carolina Gallardo Pérez y Jesús Cardeñosa. Knowledge Extraction for Question Titling. Flexible Query Answering Systems, LNAI 7022, 9th Internacional Conference EQAS 2011, Ghent, Belgium, October 26-28, 2011, Proceedings, páginas 119 y ss.