Un borrador para un código de anonimización de datos

Aunque no tengo muy claro que ha pasado con él me pareció interesante el borrador: [PDF] Draft. Anonymisation code of practice. Sobre todo porque es algo en lo que no siempre se piensa y puede tener sus consecuencias negativas. Más ahora en la que las políticas de datos abiertos podrían tener en algunos casos consecuencias inesperadas.

This code describes ways of assessing and mitigating the risks that may arise, particularly in terms of assessing whether other information is available that is likely to facilitate re-identification.

Los motivos son claros:

As explained above, it can be difficult to assess the risk of reidentification by a member of the public because different members of the public – and indeed different organisations – have access to different information resources, potentially much richer ones, than the general public.

Eso es, no sabemos quién hay ‘ahí afuera’ mirando los datos.

El tamaño importa:

It is clear, though, that the more complete a postcode – or the more precise a piece of geographical information – the more possible it becomes to analyse it or combine it with other information, resulting in personal data being disclosed. The approach you should take to postcodes and other spatial information will also be guided by the size of the dataset you have; in some cases you can consider the position on a postcode by postcode basis.

. The larger the number of properties or occupants in a mapping area, the lower the privacy risk.

Cuidado con la información estadística:

The situation becomes more complex where statistical information is involved, because there may be various statistical data sets publicly available which, if matched in a particular way, could result in reidentification. Pen-testing for this type of vulnerability can require a great deal of specialist knowledge and cannot be described fully in this code of practice.

Se presentan algunos ejemplos prácticos de técnicas de anonimización, que
incluyen el borrado de variables (columnas de datos), filas (registros
fáciles de identificar), recodificación de los datos (por ejemplo, pasar de
valores concretos a rangos), eliminación de datos concretos (para registros
que podrían identificarse de manera única, eliminar algún dato
conflictivo), microagregación (sustituir datos de algunas columnas por la
media -sería parecido a los rangos, pero fijando un valor-), intercambio de
datos (por ejemplo entre dos registros, la edad, u otro valor),
aleatorización (para algún campo concreto), añadir ruido (cambiar los
valores por otros parecidos pero que no permitan asociarlos a nadie
concreto porque no son exactos); yendo más allá, se puede estudiar la
distribución y generar valores que la sigan sustituyéndolos luego en el
conjunto de datos.

Es un problema conocido desde hace tiempo, en Computer Security and Statistical Databases podemos ver una descripción más ligera del problema.
Pero siempre viene bien recordarlo.

La versión moderna sería la desanonimización de datos en la red a través de análisis de redes sociales y otras cuestiones relacionadas, hemos hablado de vez en cuando de ello: Sobre la desanonimización de la gente en internet.

Lo guardaremos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s