GUÍA BÁSICA DE TÉCNICAS DE SEUDONIMIZACIÓN PARA EL SECTOR SANITARIO

La Agencia de la Unión Europea para la Ciberseguridad (ENISA) es la agencia de la Unión Europea cuya misión es contribuir a la consecución de un nivel alto en materia de ciberseguridad. En esta ocasión, la Agencia Española de Protección de Datos ha traducido la Guía básica de técnicas de seudonimización para el sector sanitario, que busca promover y concienciar sobre su uso y aplicación, si bien nosotros vamos a ir un paso más allá, incluyendo alguna técnica más enfocada a complejos hospitalarios o al ámbito de la investigación.

Conforme avanza la inclusión de las nuevas tecnologías en el sector sanitario, como la generalización en el uso de aplicaciones sanitarias y dispositivos electrónicos, surgen nuevos horizontes en materia de protección de datos.

Ejemplos de ellos los encontramos con la Historia Clínica Electrónica, cuyos registros sirven de base a los profesionales sanitarios para el diagnóstico de las posible patología del paciente, pero también encontramos otros usos de la información personal sanitaria, como el cálculo de las primas en el ámbito de los seguros de salud o para el progreso científico canalizado a través de la investigación clínica y biomédica. Todas estas actividades generan exorbitantes cantidades de datos, no sólo resultado de la recopilación de datos identificativos directos, sino también de los inferidos tras su explotación ulterior.

Ahora bien, no todos los actores que intervienen en los procesos necesitan acceso a la totalidad de datos médicos, por ejemplo como regla general los investigadores no necesitan acceder a los datos identificativos, pero sí a los marcadores genéticos o a los síntomas secundarios que ha provocado un medicamento durante su administración; razón por la que, dentro de las posibles medidas técnicas y organizativas a desplegar, la guía se centra en la seudonimización, que es una técnica que procura el correcto tratamiento de los datos personales de los pacientes en aras de garantizar sus derechos y libertades.

La seudonimización, tal y como veíamos en este artículo, ayuda a ocultar la identidad que se encuentra detrás de esos datos dentro de un conjunto, si bien esto no significa que todas las técnicas cumplan con el concepto, motivo por el debemos buscar siempre la más adecuada para cada caso.

No debemos perder de vista la definición que hace el Reglamento General de Protección de Datos (RGPD) en cuanto al término. La seudonimización es “el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable

Para poder implementar cualquier técnica, antes de nada, debemos concretar cual es la finalidad y qué roles se van a ver involucrados, haciendo hincapié en el sujeto que va a seudonimizar los datos. Es decir, en función del caso, podremos encontrarnos con que dicha tarea la realizar el propio responsable de los datos, un encargado del tratamiento, un Tercero de Confianza o incluso el propio interesado.

Dentro de las técnicas a valorar, la guía propone:

  • Contador: Es una fórmula sencilla para conjuntos de datos no complejos consistente en la sustitución de los identificadores por un número escogido, concatenándose el resto de forma ordenada progresivamente. Entre las ventajas destaca su simpleza a la hora de implementarse, así como la ruptura de toda conexión con identificador primario. Entre los inconvenientes se encuentra la falta de escalabilidad en su aplicación.
  • Generador de números aleatorios (RNG): La diferencia respecto al anterior radica en que aquí la asignación del número es aleatoria, lo que añade robustez al impedir extraer información a partir del inicial. Entre los contras, encontramos la posibilidad de que se generen colisiones que impliquen dos salidas iguales a distintas entradas de datos.
  • Función hash criptográfica: Son aquellas que cifran la entrada de datos de forma unidireccional. A diferencia de la anterior, estas se encuentran libres de colisiones, si bien no están libres de inconvenientes, pues pueden ser revertidas mediante ataques de fuerza bruta.
  • Código de autenticación de mensajes (MAC): En estos casos el seudónimo se genera a partir de una función hash criptográfica y una clave secreta, de modo que sin este segundo elemento no es posible mapear los identificadores y seudónimos. Es una técnica más robusta porque entra en juego un segundo factor, si bien se requiere diligencia en el almacenamiento de claves.
  • Cifrado simétrico: en este caso utilizamos la misma clave para cifrar y recuperar la información cifrada. Dentro de este grupo, podemos encontrar cifrados de flujos (bit a bit) o cifrados de bloque (cada k bits se cifra). El riesgo en estos casos está en las posibilidades de reversión del seudónimo, incluso cuando no habría necesidad.

Por ejemplo, un paciente diabético tiene una bomba de insulina conectada a una app de su móvil que lee los resultados. El médico ha determinado unos valores previos a partir de los cuales se emiten notificaciones a ambas partes. Aquí el cifrado puede utilizarse para cifrar la transmisión de los mismos, lo que refuerza la confidencialidad.

Estas son las técnicas más básicas, pero como os aludíamos al inicio del artículo, vamos a introducirnos en técnicas más avanzadas que se abren a soluciones más sofisticadas, aunque todas se basan siempre en criptográficas originarias.

  • Cifrado asimétrico: propiedades interesantes que también podrían respaldar la minimización de datos y el principio de necesidad de saber, al tiempo que brinda una protección sólida. El cifrado asimétrico, al contrario del simétrico, se compone de dos claves diferentes: una clave pública (con la que se pueden crear los seudónimos) y una privada (la que permite revertir el proceso). La ventaja principal es que se mejora el control de accesos a la información, si bien no está libre de problemas, aconsejando utilizar esquemas de encriptación aleatoria para cada encriptación con la finalidad de mitigar el riesgo predictivo. Ejemplos de ello lo encontramos con las firmas digitales.

Trasladándolo al ámbito sanitario, un hospital puede poner a disposición de un proveedor la clave pública con la que recopilar y seudonimizar los identificadores, de modo que sólo el hospital podría acceder a dicha información a partir de la clave secreta. También este tipo de técnicas pueden utilizarse para el diseño de las capas subyacentes de los sistemas de gestión de Historias Clínicas.

En general, con el uso de los cifrados se realiza un control de acceso incluso dentro del propio centro médico, de modo que en función del perfil asignado (por ejemplo, asistencial o investigador) se puede acceder a los identificativos del paciente o a los seudonimizados en función de la necesidad.

  • Prueba de conocimiento cero (ZKP): Se trata de un protocolo en el que un actor tiene la capacidad de probar sin revelar ninguna información a un segundo actor que una declaración es cierta. Dentro de estos, podemos encontrar los interactivos, en los que probador y verificador deben estar presentes durante la ejecución del protocolo, y las no interactivas, en los que no se requiere.

A pesar de que esta tecnología todavía tiene un alto coste, dentro de unos años la podríamos ver integrada para otorgar acceso a sitios o servicios que requieren una verificación de edad previa, como tiendas web del sector vinícola, sin que la propia entidad pueda conocer la identidad del sujeto, pues el tercero de confianza sólo le trasladaría si es o no mayor de edad.

En todos los casos, los responsables del tratamiento deben definir una política clara sobre el tipo de seudonimización. Entre los ítems a valorar, se encuentra el tipo de seudonimización (determinista, parcial o totalmente aleatoria), dónde y bajo qué condiciones se va a almacenar la tabla con los identificadores y seudónimos o si va a ser compartida y por qué, quién va a realizar el proceso de seudonimización, bajo qué datos personales y cuál es el riesgo inherente y mitigable.

Por ejemplo, si un paciente visita por primera vez una clínica, se realiza una recopilación de datos personales (nombre, dirección, etc) y contextuales (patologías, medicación, etc). Posteriormente, se le asigna al conjunto de datos un identificador, razón por la cual previamente se habrá tenido que definir bajo qué parámetros se realiza.

Meses más tarde, la paciente solicita enviar una analítica a un segundo centro para buscar un segundo diagnóstico. El primer centro debe decidir si en la documentación aparece o no el identificador, pues de hacerlo la seudonimización perdería toda eficacia.

También pueden usarse para detectar correlaciones y patrones estadísticos en síntomas y medicamentos sin necesidad de acceder a la información identificación mediante la comparación de seudónimos, pues en teoría (y siempre que esté libre de colisiones) a un mismo conjunto de datos bajo el mismo texto y formato resulta un mismo seudónimo. Si queremos reforzar las garantías de imposibilidad de reversión, podemos repetir la operación en cascada.

En definitiva, a lo largo del presente post hemos expuesto como la seudonimización tiene un importante valor añadido para el sector sanitario y, aunque no existe una única solución, la protección que otorga y la flexibilidad en su escalabilidad, refuerza la confianza de los interesados.