La filología, las palabras y los bits

Como siempre hubo un amante de la palabra que cuidó del rollo en papiro, de las páginas del códice, de la exactitud de las palabras para la imprenta, hoy también los filólogos necesitan las bases de datos y las herramientas electrónicas para seguir cuidando la lectura y la escritura, al tiempo que las nuevas webs necesitan integrar las técnicas, datos y herramientas filológicas y lingüísticas para llegar a desarrollarse plenamente. Así lo prueba el interés de Google por las nuevas Humanidades Digitales. Esta empresa concede premios a la investigación en esta área. En su última convocatoria el Google's Digital Humanities Research Award 2010 recayó sobre doce grupos de investigación de todo el mundo, uno de los cuales pertenece a la Facultad de Filología de la Universidad Complutense de Madrid (UCM).

La filología, las palabras y los bits. . Foto: UCM
El grupo de Estudios de Prosa Hispánica Bajomedieval y Renacentista . Foto: UCM
El grupo LEETHI. Foto: UCM
La filología, las palabras y los bits. . Foto: UCM
El grupo de Estudios de Prosa Hispánica Bajomedieval y Renacentista . Foto: UCM
El grupo LEETHI. Foto: UCM
La filología, las palabras y los bits. . Foto: UCM
El grupo de Estudios de Prosa Hispánica Bajomedieval y Renacentista . Foto: UCM
El grupo LEETHI. Foto: UCM

Uno de los retos más apasionantes que se plantean cuando uno tiene un texto en sus manos está en descubrir cómo es, o cómo fue, la comunidad de personas a las que pertenece el autor o autores de ese texto. Por ejemplo, con un texto del antiguo testamento, o un texto de la Grecia clásica, o incluso, un texto de una wiki de internet ¿podemos encontrar en él claves sobre cómo pensaban los antiguos judíos, griegos o cómo piensan los actuales “internautas”?, ¿cuáles eran y son sus costumbres, sus normas, y, en definitiva cuál es su cultura? Ésa es una de las tareas tradicionales de los filólogos pero, ahora que las palabras y los textos no son sólo de tinta y son también señales eléctricas que se pueden manipular automáticamente y que pueden viajar por todo el mundo, el filólogo se enfrenta a un nuevo reto: trabajar con los nuevos textos digitales creados en un espacio inabarcable manualmente y en continua evolución.

Tras el rastro de las opiniones, sentimientos, pensamientos

"Tome la llave y reconstruya lo que allí puede haber pasado, a veces la filología se hace presente de inmediato, sin avisarnos, y es cuando ustedes [sorbonianos] se quedan perplejos" José Lezama Lima, Paradiso, 1966

La filología estudia las lenguas y sus literaturas para poder reconstruir y explicar cómo son las comunidades que hablan y escriben en esas lenguas. El filólogo estudia las palabras y reconstruye con ellas la forma de pensar, sentir y vivir de las sociedades. Es, por lo tanto, un rastreador que busca pistas en los textos hasta llegar a averiguar lo que realmente esconden. En nuestra sociedad actual, conocer cómo piensa un determinado grupo de personas - los jóvenes, los internautas, los españoles- es clave para las empresas, las organizaciones o, incluso, para la policía,…, que necesitan esta información para diseñar estrategias que mejoren sus resultados de ventas, de imagen o de control de los delitos.

Dónde están las palabras

Para empezar a trabajar el filólogo necesita acceder a los textos y, hasta hace no mucho tiempo, éstos se encontraban casi exclusivamente en las bibliotecas, en soportes tangibles como papel, papiro, madera, etc. A pesar de ello, encontrar estos textos puede ser una tarea complicada, porque no siempre se conoce su paradero, o es necesario desplazarse de lugar a otro hasta reunir todo el material, frecuentemente disperso, e, incluso, restringido su acceso por el mal estado de conservación y deterioro.

Recolectar los textos tangibles, por lo tanto, puede ser una actividad larga y costosa. Pero ahora, además, las palabras pueden ser también intangibles, electrónicas y estar guardadas en máquinas, ordenadores y dispositivos electrónicos diseminados por todo el mundo. Cada carácter de una palabra es un grupo de bits –actualmente 16-. Un bit es una especie de celda de la memoria del ordenador que tiene valor 1 ó 0 dependiendo si tiene corriente o no.

Estos bits, además, como son señales eléctricas, pueden viajar a gran velocidad por la red de cables (o sin cables) y ordenadores que es internet. Esto significa que las palabras pueden propagarse instantáneamente por todo el mundo. Esto es una revolución –la revolución de internet- que en las sociedades actuales está cambiando nuestra forma de relacionarnos, de actuar, de informarnos, de aprender y, lógicamente también está transformando el trabajo de los filólogos.

Las palabras en el ciberespacio

Los filólogos ya no trabajan con un repertorio cerrado de textos consagrados. El filólogo actual se adentra en las bibliotecas “reales”, en las bibliotecas digitales acreditadas como el World Heritage de la UNESCO, Hathi Trust con sus más de ocho millones de volúmenes digitalizados, o en Open Library, en Europeana, en Google Books, Google Print, Schoogle... Busca en el espacio real y en el ciberespacio, estudia el uso de las lenguas en el mundo real y en los mundos virtuales. Su campo de trabajo es inmenso y en permanente cambio con: 1) nuevas formas de texto, 2) nuevos espacios de creación textual y 3) nuevas formas de interacción social:

Nuevas formas de texto: el hipertexto multimedia.

El texto (textum, tejido) se puede construir ahora con una riqueza de formas y contenidos mucho mayor: puede contener imágenes, sonido, vídeo y múltiples relaciones a otros textos (hipertexto) mediante enlaces y conexiones instantáneas. Las posibilidades de creación son ilimitadas: el texto puede estar en proceso de redacción continua, permanentemente inacabado y actualizado como en los blogs; puede construirse entre todos, colaborativamente, como Wikipedia; puede traducirse instantáneamente a múltiples lenguas; puede tener versiones múltiples hasta ahora relegadas por falta de espacio; puede contener multitud de anotaciones y comentarios generados por los lectores. El texto en el ciberespacio es infinito en sus posibles formas, diverso, descentralizado, plural y, a veces, difícil de asimilar y entender.

Nuevos espacios de creación textual.

Internet y la web han permitido crear el ciberespacio: un conjunto de espacios virtuales -que son básicamente páginas web con varias herramientas informáticas de comunicación- para la interacción interpersonal, la compartición y generación de información conectados entre sí sin límites geográficos ni temporales. El ciberespacio permite la literatura digital que es la versión electrónica de los textos literarios en soporte papel y también nuevas formas de creación textual como la ciberliteratura. La ciberliteratura es la creación literaria colaborativa, hipertextual e hipermedia en la que el lector puede ser, a la vez, autor -y modificar o continuar un argumento-; puede recorrer múltiples caminos de lectura en un ciberlibro que, además del texto, puede contener audio, imágenes o vídeos.

Nuevas formas de interacción social: la web 2.0.

El ciberespacio, construido con aplicaciones informáticas y de telecomunicaciones, está en continua evolución. En sus orígenes las herramientas de comunicación entre los cibernautas ofrecían pocas posibilidades de interactuar y expresarse. Únicamente se podía intercambiar mensajes por correo electrónico y, los más pudientes, podían publicar sus textos en un “servidor web”. Actualmente, sin embargo, se han incorporado herramientas que permiten la comunicación instantánea y multimedia entre personas, compartir información en forma de texto, imágenes o vídeos, crear y publicar textos colaborativamente y, además, crear comunidades y redes sociales. Estas nuevas herramientas sociales constituyen la web 2.0, el germen de nuevas formas de interacción social, de nuevas formas del lenguaje y de nuevas formas de creación literaria.

Ninguna generación anterior a la nuestra ha tenido que organizar y explotar un flujo casi inagotable de datos producidos por colectividades humanas del presente y del pasado de una tal variedad cultural. El desafío del ciberespacio para los filólogos consiste en aumentar su capacidad colectiva de categorización de esos datos para poder acceder a toda esa información: si todo ese material, no se puede encontrar, si es inaccesible, entonces simplemente no existirá. Pero incluso en el supuesto caso de que fuera posible para cualquier ser humano (de cualquier perfil económico, social y político) acceder a toda la información almacenada, ésta no serviría de nada si antes no la reorganizamos de forma que deje de ser información y pase a ser conocimiento.

--------------------------------------------------------------

La nueva investigación filológica UCM

En la Facultad de Filología de la UCM existen, actualmente, 46 grupos de investigación reconocidos, algunos de los cuales trabajan en estos nuevos territorios conquistados por las palabras. Entre las líneas de investigación de la Facultad que combinan técnicas filológicas e informáticas podemos citar: la digitalización y clasificación de textos antiguos, la extracción automática o semiautomática en textos digitales del conocimiento que contienen, el estudio de los modelos de lectura y escritura en el ciberespacio, la creación de nuevos espacios virtuales que faciliten el aprendizaje y la creación de vocabularios electrónicos.

La digitalización, clasificación y publicación en el ciberespacio de los textos que constituyen el legado cultural humano, tiene como objetivo preservar y difundir el saber evitando que se pierda para siempre por ser inaccesible o por el envejecimiento de los soportes no digitales. Así, el grupo de Estudios de Prosa Hispánica Bajomedieval y Renacentista trabaja en la localización, recopilación, edición y estudio filológico, histórico-lingüístico e histórico-literario de los textos de diálogos hispánicos desde su nacimiento hasta la actualidad. Con ellos se ha creado la Biblioteca Digital de Diálogo Hispánico (BDDH), que actualmente comprende los siglos XV a XVII y que puede ser consultada desde la web de la Biblioteca de la UCM: http://www.ucm.es/BUCM/fll/31668.php. Otros estupendos trabajos de recopilación, digitalización y estudio y documentación son el Banco de Imágenes del Quijote, http://www.qbi2005.com/, el Archivo Rubén Darío, http://www.ucm.es/BUCM/atencion/17651.php o el Álbum de copistas de manuscritos griegos en España http://www.ucm.es/info/copistas/. Este esfuerzo en el cambio de soporte de textos valiosísimos y su documentación produce un enorme beneficio no sólo para la comunidad investigadora y educativa, sino para toda la sociedad que puede acceder a materiales y conocimientos antes inaccesibles o en peligro de desaparición por el deterioro de los soportes.

La segunda línea de investigación se ocupa de la extracción, por medios informáticos, de información lingüística, literaria y cultural de los textos ya digitalizados y clasificados en cualquier lengua. Los investigadores crean y utilizan herramientas informáticas para poder explorar automáticamente miles de textos con millones de palabras. Con estas herramientas pueden extraer datos como la lista de todas las palabras, la frecuencia y lugar de aparición, los patrones de palabras estadísticamente frecuentes, los contextos de una palabra,… y todo esto ayuda a interpretar los textos, a entender qué transmiten. Estos estudios, además, son la base para abordar cuestiones tan actuales como el análisis de opiniones en internet, el seguimiento de campañas de marketing, especialmente en redes sociales y blogs – o la gestión de la reputación online a las que dedican sus servicios muchas empresas.

En la explotación de corpus textuales están trabajando, entre otros, el grupo de Investigación Funcional de Filología Inglesa I y el grupo creador del programa Análisis Unificado de Textos Hebreos con Ordenador (AUTHOR).

La tercera línea de investigación se adentra en el ciberespacio para estudiar cómo es la escritura y la lectura en este nuevo mundo. El grupo LEETHI, por ejemplo, está particularmente interesado en aplicar sus estudios a lo que denominan la alfabetización digital, es decir a que las personas aprendan a utilizar los instrumentos electrónicos para aumentar sus capacidades de lectura y, sobre todo, a establecer cómo deben presentarse los textos electrónicos para facilitar el trabajo de interpretación y de apropiación de los textos.

La cuarta línea de trabajo investigador también explora cómo el ciberespacio y la web 2.0 han cambiado la forma de aprender, extrayendo lo mejor de estos cambios para construir nuevos espacios virtuales de aprendizaje donde sea más fácil enseñar y aprender. Los espacios virtuales e-learning son páginas web que incorporan varias herramientas software para que los estudiantes y profesores se puedan comunicar, publicar materiales docentes, hacer trabajos, e incluso examinarse. El grupo de la Facultad de FilologíaLaboratorio de Lingüística Aplicada”, por ejemplo, diseña y aplica modelos cognitivos lingüísticos para crear y evaluar aulas virtuales de trabajo cooperativo en la web sin las limitaciones que imponen los horarios de clase y la necesidad de estar en las aulas.

Finalmente, la quinta línea de investigación de la Facultad de Filología UCM es la creación de vocabularios electrónicos. En concreto, nuestros investigadores se han centrado en los diccionarios electrónicos multilingües que recogen el conocimiento léxico de las diferentes lenguas -que en la Facultad son 22 además de las lenguas de signos para personas con discapacidad auditiva- para su consulta interactiva. Los glosarios electrónicos académicos que son glosarios especializados en una disciplina y sirven para ayudar a los estudiantes a entender y aprender los conceptos básicos y el lenguaje de especialidad. Los tesauros y taxonomías que son vocabularios de palabras relacionadas por el significado como por ejemplo los sinónimos. Este último tipo tiene una aplicación directa en el ciberespacio para ayudar a las personas a categorizar y localizar la información y los recursos electrónicos de la web.

En definitiva… se incorpora una nueva filología digital

En definitiva, como el Cardenal Cisneros supo aunar la creación de la Universidad Complutense (1499) con una tecnología puntera (la imprenta) para crear obras intelectuales refinadas (la Biblia Políglota Complutense) ayudado de los más cuidadosos, sabios y plurales humanistas, así los filólogos actuales saben que deben servirse de todas las tecnologías, de todas las iniciativas, de todos los saberes para continuar creando, recogiendo, estudiando y difundiendo el conocimiento de las lenguas y los textos en espacios tangibles y … digitales.

Fuente: Universidad Complutense de Madrid
Derechos: Creative Commons
Artículos relacionados