El sistema sigue el rastro que los contenidos dejan en internet

Un ‘detective web’ permite recuperar el 81% de los enlaces rotos

Para acabar con el molesto problema de los links erróneos, un grupo de investigadores de la UNED ha desarrollado un sencillo sistema basado en seguir la pista que este contenido deja en la web. Según los investigadores, la nueva herramienta permite recuperar hasta el 81% de los enlaces obsoletos.

El 67% de las direcciones de Internet se convierten en erróneas tras cuatro años. Imagen: Jeffrey Beall / Fausto Fernós.
Un ‘detective web’ permite recuperar el 81% de los enlaces rotos. Foto: Jeffrey Beall / Fausto Fernós / SINC

Para acabar con el molesto problema de los links erróneos, investigadores de la UNED han desarrollado un sencillo y rápido sistema. Basado en seguir la pista que este contenido deja en la web, la nueva herramienta permite recuperar hasta el 81% de los enlaces obsoletos.

Algunos estudios calculan que el 67% de las direcciones de Internet se convierten en erróneas tras un período de cuatro años de vida. En algunas ocasiones, el enlace es incorrecto porque la página ha desaparecido y, en otros casos, porque la información ha sido movida de sitio. Investigadores de la UNED han desarrollado un sistema que hace la función de un ‘detective privado’ para encontrar las pistas de ese contenido y seguir así su rastro.

“Estas pistas consisten en referencias y enlaces obsoletos en motores de búsqueda, librerías digitales, servicios web y redes sociales”, explica Juan Martínez-Romo, investigador del grupo de procesamiento de lenguaje natural y recuperación de Información de la UNED y autor principal del proyecto.

Recabadas las pistas, el sistema al que se ha denominado Detective Brooklynk elabora dinámicamente una estrategia para encontrar la página desaparecida o una equivalente de la forma más eficiente, es decir, consumiendo los mínimos recursos y el menor tiempo. De este modo, insertando el link erróneo, el programa devuelve al usuario una lista de enlaces en los que puede estar la información que busca, ya sea de la misma página o bien de otras que lo hayan recogido.

Detective Brooklynk elabora dinámicamente una estrategia para encontrar la página desaparecida o una equivalente

Para comprobar la efectividad de la herramienta, cuyo desarrollo se ha publicado en la revista Information Processing and Management los investigadores seleccionaron aleatoriamente un conjunto de páginas con enlaces rotos e intentaron recuperar su contenido. “Con el sistema que hemos desarrollado, conseguimos recuperar el 81% de los links erróneos”, asegura Martínez-Romo.

Los motores de búsqueda penalizan

El problema de los enlaces obsoletos es una de las asignaturas pendientes de Internet, y perjudica tanto a usuarios como a creadores. “Es evidente que, de cara a un internauta, encontrar este tipo de problemas dificulta y entorpece sus búsquedas, pero, además, esto repercute en una perdida de fiabilidad y prestigio para el dueño de la página”, comenta el investigador.

A estas molestias se suma el hecho de que los motores de búsqueda penalizan a las páginas a la hora de mostrarlas en la lista de resultados. En los últimos años, han aparecido algoritmos que proponen la modificación del PageRank (algoritmo de ranking utilizado por los motores de búsqueda) para que tenga en cuenta esa clase de errores.

El sistema desarrollado por la UNED evitaría esta penalización, explica el responsable del proyecto. A la espera de su versión definitiva, es un prototipo que utiliza parte de las estrategias presentadas en el artículo.

Referencia bibliográfica:

Juan Martínez-Romo, Lourdes Araujo. “Updating broken web links: An automatic recommendation system”. Information Processing and Management, 48 (2012) DOI: 10.1016/j.ipm.2011.03.006

Fuente: divulgaUNED
Derechos: Creative Commons

Solo para medios:

Si eres periodista y quieres el contacto con los investigadores, regístrate en SINC como periodista.

Artículos relacionados