Falta de privacidad en los documentos PDF

Investigadores de la Universidad Politécnica de Madrid (UPM) han recopilado las amenazas a la seguridad y privacidad, tanto del autor como del lector, de los documentos PDF, el formato más popular para la publicación del documento digital.

Falta de privacidad en los documentos PDF

La publicación de documentos digitales a través de Internet plantea graves amenazas de seguridad y privacidad tanto para el autor como para el lector. Actualmente, el estándar de facto para el intercambio de documentos digitales es el formato PDF, y se estima que miles de millones de documentos en formato PDF son publicados o descargados cada día.

Después de estudiar las filtraciones de información en los documentos de Microsoft Office, investigadores de la Facultad de Informática de la UPM se han centrado ahora en las asociadas al formato de documentos PDF. Su objetivo es hacer que el usuario sea consciente de los riesgos que corre cada vez que un documento ha sido publicado a través de Internet, así como proporcionar directrices eficaces para minimizar las fugas de información sensible [1, 2].

Desde el punto de vista del autor, los documentos publicados pueden llevar asociados datos relacionados con su nombre de usuario, la localización del documento en su máquina o incluso partes del documento que se eliminaron antes de su publicación.

Parte de esta información, como el nombre de usuario o el último día en el que el documento fue editado, se denominan meta-datos y son utilizados por una aplicación del lector o del autor para mejorar la experiencia del usuario. Sin embargo, podría dar lugar a violaciones de la intimidad, sobre todo porque muchos autores no son conscientes de su divulgación junto con la publicación del documento. Además, hay otra información confidencial que se puede filtrar por el mal diseño del formato del documento. Por ejemplo, cuando un párrafo de un documento es eliminado, las aplicaciones de edición de PDF no quitan el párrafo sino que lo marcan como "invisible", de manera que la aplicación del lector no lo visualiza cuando el documento se abre para su lectura. Por lo tanto, los datos eliminados se mantienen junto con el documento y pueden ser leídos por cualquier usuario malintencionado que sepa dónde y cómo buscarlos. Para evitar esto, los investigadores de la UPM han desarrollado varias herramientas para extraer información de documentos PDF que no son accesibles con lectores de documentos estándar.

Hay incidentes famosos donde la publicación de un documento ha puesto de manifiesto mucha más información que la que se estaba dispuesto a comunicar. Por ejemplo, en mayo de 2005, la Autoridad Provisional de la Coalición en Irak publicó un documento PDF sobre el rescate de la periodista italiana Giuliana Sgrena [3]. Se utilizaron cuadros negros para ocultar los nombres de algunas personas involucradas en el incidente, pero todos ellos se dieron a conocer fácilmente al copiar el texto del documento original en un editor. Este tipo de sucesos han llevado a que empresas e instituciones hayan distribuido directrices para evitar la fuga de información en los documentos publicados después de que los medios de comunicación sacaran noticias a partir de documentos publicados en la web que contenían información sensible, que no debería hacerse pública.

Desde el punto de vista de lector, la apertura de un documento PDF descargado de Internet también puede exponer información sensible como la dirección IP de su máquina, su nombre de usuario y, potencialmente, cualquier otra información que se almacena en la máquina donde se abre el documento. Esto se debe a las características interactivas de las aplicaciones PDF. Cada vez que un PDF se abre para su lectura, varias acciones como la conexión a un sitio web o leer datos desde el disco pueden ser activados automáticamente. En teoría, el usuario debería ser advertido de la acción que se realiza y se le debería pedir confirmación. Nuestra investigación ha puesto de manifiesto que en muchos lugares, especialmente al abrir documentos PDF dentro de un navegador de Internet, las acciones descritas se realizan sin notificación al usuario, ni su consentimiento. El trabajo de la UPM también detalla cómo evitar esta vulneración de los datos del usuario al descargar el documento.

El formato de documentos PDF es un medio poderoso para el intercambio de documentos, sin embargo el usuario debe ser consciente de los riesgos que corre cada vez que un documento ha sido publicado a través de Internet y para ello, los investigadores proporcionan directrices eficaces para minimizar las fugas de información sensible.

[1] A. Castiglione and A. De Santis and C. Soriente. Security and privacy issues in the Portable Document Format Journal of Systems and Software 83:10, pp 1813-1822, 2010.

[2] A. Castiglione and A. De Santis and C. Soriente. Taking advantages of a disadvantage: Digital forensics and steganography using document metadata, Journal of Systems and Software 80:5, pp 750-764, 2007

[3] http://en.wikipedia.org/wiki/Rescue_of_Giuliana_Sgrena#Military_reports

Fuente: Universidad Politécnica de Madrid
Derechos: Creative Commons
Artículos relacionados