A la búsqueda de 'Googles' más eficientes

Investigadores de la Escuela Politécnica Superior de la Universidad Autónoma de Madrid (UAM) están tratando de mejorar el rendimiento de los buscadores web para que permitan la obtención de la información deseada de una manera mucho más eficiente.

Ejemplo de búsqueda con contexto. En este caso, el contexto está formado por las carpetas de trabajo de un investigador en informática. Se buscan fotos relacionadas con la palabra operación. A la izquierda se muestran los resultados conseguidos con google images sin contexto, a la derecha los resultados conseguidos utilizando el contexto.

UAM

Internet es el contenedor de información más completo y omnipresente de todos los tiempos pero, a menudo, es difícil y a veces, incluso, imposible explotar todas sus posibilidades plenamente.

La información que buscamos casi seguro que se encuentra en un rincón u otro de la vasta red pero obtenerla es, con frecuencia, un problema. Los buscadores tales como Google, aunque representan una gran ayuda, no son perfectos.

Les damos unas palabras que representan nuestros deseos y buscan documentos que las contienen. Sin embargo, a veces nos dejan frustrados: ¿por qué no entienden lo que de verdad queremos decir con la palabra que acabamos de insertar?

Un ejemplo claro sería el siguiente: alguien busca información sobre virus; ¿quién es ese alguien, un biólogo o un informático? Los resultados que esperan recibir uno y otro son muy diferentes. El problema es que los buscadores saben mucho de datos y de la red, pero no saben nada de nosotros; no saben nada del contexto en el que se empieza una búsqueda: qué se está haciendo, de qué se ocupa la persona en cuestión, cuáles son sus intereses, etc.

Un proyecto que se está llevando a cabo por Simone Santini y Alexandra Dumitrescu en la Escuela Politécnica Superior de la Universidad Autónoma de Madrid (UAM) pretende cambiar todo esto. Para ello, están intentando ajustar los buscadores al contexto en que cada persona trabaja y se divierte con su ordenador, y a las actividades a las que se está dedicando en el momento de la búsqueda.

El principio viene de lejos. Tiene sus raíces en la tradición del pensamiento filosófico europeo del siglo XX, empezando por Heidegger, Gadamer y la tradición hermenéutica, hasta llegar a Roland Barthes y Umberto Eco. El significado de un documento (texto, imagen, etc.) nace de un proceso de interpretación y depende tanto del intérprete del documento como de su contenido.

El contexto en que se lee dicho documento es determinante para darle un significado: “no hay hechos, sólo hay interpretaciones”, dicen los hermenéutas. Hasta ahora, tanto en la web como en la nueva web semántica y en la web 2.0, el significado de los documentos se ha intentado formalizar en origen, basándose sólo en sus contenidos y sin tener en cuenta el contexto en que estos documentos iban a ser interpretados. En la escuela Politécnica Superior de la UAM se quiere cambiar todo esto, llevando al usuario, en lugar de a los documentos, al centro de la búsqueda.

En el estudio que llevado a cabo por Santini y Dumitrescu se pretende que los buscadores consideren no sólo lo que interesa a la persona en un sentido general, sino también lo que le interesa en el momento de la búsqueda porque, en un sentido muy real, cada individuo puede ser alguien diferente según la situación: el informático que busca virus en su trabajo no busca las mismas respuestas que cuando está tratando de verificar los síntomas de su gripe.

Muchas de las actividades que se desarrollan hoy en día se hacen, por lo menos en parte, con la ayuda de un ordenador y se pueden caracterizar analizando los ficheros que en el curso de ellas se producen. Dejan, como definen Santini y Dumitrescu, una huella digital.

En el proyecto desarrollado en la UAM y recientemente presentado a los congresos International Conference on Semantic Computing y International Conference on Semantics and Media Computing se analizan los contenidos de las carpetas del ordenador del usuario y se construye una representación de las distintas actividades que tienen lugar en el ordenador.

Esta representación se usa para añadir a las consultas información sobre su contexto. Si un informático, durante la preparación de un documento en la carpeta “trabajo” hace una consulta con la palabra “virus”, el sistema analizará el contenido de la carpeta de trabajo y añadirá a la consulta palabras y otra información para dirigir al buscador hacia páginas sobre virus informáticos y no sobre virus biológicos. La información detallada sobre las actividades del usuario no abandona nunca el ordenador y la privacidad está garantizada.

Pruebas realizadas en los laboratorios de la Escuela Politécnica Superior han demostrado que, simplemente con una representación aproximada del contexto y con el uso de buscadores comerciales como google, el número de documentos irrelevantes que retornan como resultado de una búsqueda se reduce a menos de la mitad. Se conseguirán resultados mucho mejores en la segunda fase del proyecto, con el uso de buscadores especializados que aprovecharán más eficazmente la información sobre dicho contexto.

Fuente: Universidad Autónoma de Madrid (UCCUAM)

Derechos: Creative Commons

Claves