Diseñan un sistema de transcripción que permite una recuperación más rápida de documentos antiguos y manuscritos

Agilizar la recuperación y preservación de los documentos antiguos y manuscritos que forman parte del patrimonio cultural es uno de los objetivos del nuevo sistema de transcripción asistida para texto escrito, State, desarrollado por el grupo de investigación de percepción y aprendizaje computacionales del departamento de Lenguajes y Sistemas Informáticos de la Universitat Jaume I en colaboración con investigadores de la Universidad Politécnica de Valencia.

Diseñan un sistema de transcripción que permite una recuperación más rápida de documentos antiguos y manuscritos
State permite el ahorro de hasta un 50% del tiempo invertido en la transcripción y corrección de los textos.

Frente a los tradicionales reconocedores ópticos de caracteres que generan problemas en la transcripción y ofrecen resultados con numerosas erratas que el editor debe corregir, State se presenta como un sistema de transcripción que integra diferentes herramientas que permiten el procesado de imágenes para eliminar ruido y limpiar la imagen original, la detección de la estructura de la página, el reconocimiento del texto y la corrección rápida y cómoda de los errores con herramientas interactivas como un lápiz electrónico aplicado directamente sobre el texto. “Se trata de una solución práctica al problema de transcripción supervisada que permite aligerar la fase más intensiva en tiempo, que es la edición de la transcripción automática para que ésta sea realmente fiel al original” explica Andrés Marzal, uno de los investigadores del proyecto.

De esta manera, State permite el ahorro de hasta un 50% del tiempo invertido en la transcripción y corrección de textos antiguos o manuscritos en función de la tasa de error que ofrezca el Reconocedor Óptico de Caracteres (ROC) utilizado, lo que supone muchas horas en el caso de la digitalización de grandes fondos documentales. Una de las aportaciones del proyecto State es la arquitectura del sistema: el motor de reconocimiento se ejecuta en una máquina diferente a la de los usuarios, que se conectan a ella simultáneamente a través de Internet y acceden al reconocedor vía servicio web al que se suscriben para obtener transcripciones bajo demanda. Otra de las ventajas del nuevo sistema es la utilización de un servidor adaptativo, es decir, que aprende de los ejemplos. Así, una forma de trabajo natural es que lo que uno de los transcriptores considera que merece la pena ser aprendido se envía al servidor, que puede producir una versión mejorada del ROC que pasa a estar inmediatamente disponible para el resto de usuarios.

“Estamos ante una herramienta muy flexible y versátil puesto que permite que en una misma sesión los usuarios puedan conectarse a más de un motor de reconocimiento o adaptar el motor a las peculiaridades de un tipo de documento. También facilita modelos de negocio en los que se pueda facturar por volumen de transcripción” apunta Andrés Marzal.

Finalmente, los investigadores también han trabajado en un interfaz multimodal que facilite a los transcriptores humanos manejar la herramienta. Actualmente usa teclado ratón y pantalla sensible a lápiz electrónico, pero está planeado incluir otros dispositivos de interacción. “La interacción debe ser lo más natural posible, sobre todo teniendo en cuenta que los usuarios pueden hacer jornadas de varias horas. Ofrecer un interfaz intuitivo resulta muy conveniente” explica el investigador.

El prototipo diseñado por los investigadores se encuentra en versión alfa, por lo que ya es utilizable. De hecho, recientemente se ha instalado en la Biblioteca Virtual Miguel de Cervantes y se usará en el Arxiu Jaume I para la transcripción de documentos antiguos. El grupo de investigación de percepción y aprendizaje computacionales de la UJI se plantea como líneas de trabajo la implementación de otros reconocedores, especializados en algunas tipografías frecuentes en textos antiguos. Además, a medio plazo, se prevé integrar nuevos dispositivos en la aplicación como pantallas touch o multitouch o voz. “Debemos tender hacia lo que la tecnología nos ofrece a coste razonable: pantallas sensibles al tacto o la inclusión de voz para ejecutar comandos” afirma Marzal.

Frente a los tradicionales reconocedores ópticos de caracteres que generan problemas en la transcripción y ofrecen resultados con numerosas erratas que el editor debe corregir, State se presenta como un sistema de transcripción que integra diferentes herramientas que permiten el procesado de imágenes para eliminar ruido y limpiar la imagen original, la detección de la estructura de la página, el reconocimiento del texto y la corrección rápida y cómoda de los errores con herramientas interactivas como un lápiz electrónico aplicado directamente sobre el texto. “Se trata de una solución práctica al problema de transcripción supervisada que permite aligerar la fase más intensiva en tiempo, que es la edición de la transcripción automática para que ésta sea realmente fiel al original” explica Andrés Marzal, uno de los investigadores del proyecto.

De esta manera, State permite el ahorro de hasta un 50% del tiempo invertido en la transcripción y corrección de textos antiguos o manuscritos en función de la tasa de error que ofrezca el Reconocedor Óptico de Caracteres (ROC) utilizado, lo que supone muchas horas en el caso de la digitalización de grandes fondos documentales. Una de las aportaciones del proyecto State es la arquitectura del sistema: el motor de reconocimiento se ejecuta en una máquina diferente a la de los usuarios, que se conectan a ella simultáneamente a través de Internet y acceden al reconocedor vía servicio web al que se suscriben para obtener transcripciones bajo demanda. Otra de las ventajas del nuevo sistema es la utilización de un servidor adaptativo, es decir, que aprende de los ejemplos. Así, una forma de trabajo natural es que lo que uno de los transcriptores considera que merece la pena ser aprendido se envía al servidor, que puede producir una versión mejorada del ROC que pasa a estar inmediatamente disponible para el resto de usuarios.

“Estamos ante una herramienta muy flexible y versátil puesto que permite que en una misma sesión los usuarios puedan conectarse a más de un motor de reconocimiento o adaptar el motor a las peculiaridades de un tipo de documento. También facilita modelos de negocio en los que se pueda facturar por volumen de transcripción” apunta Andrés Marzal.

Finalmente, los investigadores también han trabajado en un interfaz multimodal que facilite a los transcriptores humanos manejar la herramienta. Actualmente usa teclado ratón y pantalla sensible a lápiz electrónico, pero está planeado incluir otros dispositivos de interacción. “La interacción debe ser lo más natural posible, sobre todo teniendo en cuenta que los usuarios pueden hacer jornadas de varias horas. Ofrecer un interfaz intuitivo resulta muy conveniente” explica el investigador.

El prototipo diseñado por los investigadores se encuentra en versión alfa, por lo que ya es utilizable. De hecho, recientemente se ha instalado en la Biblioteca Virtual Miguel de Cervantes y se usará en el Arxiu Jaume I para la transcripción de documentos antiguos. El grupo de investigación de percepción y aprendizaje computacionales de la UJI se plantea como líneas de trabajo la implementación de otros reconocedores, especializados en algunas tipografías frecuentes en textos antiguos. Además, a medio plazo, se prevé integrar nuevos dispositivos en la aplicación como pantallas touch o multitouch o voz. “Debemos tender hacia lo que la tecnología nos ofrece a coste razonable: pantallas sensibles al tacto o la inclusión de voz para ejecutar comandos” afirma Marzal.

Fuente: Universitat Jaume I
Derechos: Creative Commons
Artículos relacionados