Data koppelen op een veilige, FAIRe manier

Het Personal Health Train project heeft als doel data over een patiënt, die opgeslagen zijn bij verschillende partijen, op een veilige manier te koppelen, zodat wetenschappers er uitgebreidere analyses op los kunnen laten. In de pilotfase worden data van deelnemers aan een diabetesstudie gekoppeld aan hun gegevens bij het Centraal Bureau voor de Statistiek (CBS). Die bevat informatie over leefomgeving en sociaaleconomische omstandigheden. Door de koppeling kan men meer te weten komen over de risicofactoren voor diabetes.

Alles draait om de privacy

Johan van Soest heeft een achtergrond in de medische informatiekunde en is als UM-onderzoeker betrokken bij de Personal Health Train (PHT). Die rijdt FAIR, zo legt hij uit, volgens het principe dat data vindbaar (Findable), toegankelijk (Accessible), combineerbaar (Interoperable) en herbruikbaar (Reusable) moeten zijn.

“Bij het koppelen van databases die persoonlijke informatie bevatten, draait alles om de privacy. Binnen de UM-Community for Data Driven Insights (CDDI), waaronder dit project valt, gaat het altijd over techniek, wetenschap en maatschappelijke en juridische belangen. De techniek is vaak niet het ingewikkeldste onderdeel. De meeste tijd gaat zitten in de administratieve, politieke en ethische discussie.”

Dus veel aandacht voor ethische en juridische vragen

Want als je de database van de Maastricht Studie, over duizenden Limburgers met en zonder diabetes type-2, kunt verrijken met CBS-gegevens over dezelfde populatie, dan is het technisch ook mogelijk om bijvoorbeeld de bonuskaart van de supermarkt te koppelen aan gezondheidsgegevens.

De vraag is of dat wenselijk is en in hoeverre mensen individueel toestemming moeten geven voor het koppelen van data op deze manier. Daarom zit bijvoorbeeld ook professor David Townend in de projectgroep, de hoogleraar Recht en Juridische Filosofie, gespecialiseerd in databeveiliging en privacy in medisch onderzoek.

Van gedistribueerd leren wordt software alleen maar betrouwbaarder

De testfase van het project is inmiddels afgerond en nu kan het werken met de echte data beginnen. “We hopen de koppeling werkend te hebben tegen het voorjaar van 2020. Daarna kunnen dan wetenschappelijke vragen beantwoord worden met behulp van de data.” Het doel is dat de infrastructuur en de analyses door iedereen gebruikt kunnen worden.

“Dat is het principe van gedistribueerd leren, waarvan software alleen maar beter en betrouwbaarder wordt”, aldus Van Soest. “Dat voelt voor sommige onderzoekers nu nog een beetje als inleveren van vrijheid. Veel mensen kunnen nog moeilijk inschatten wat open science gaat betekenen voor hun onderzoek.”

FAIR bouwt voort op wat al bestond als wetenschappelijke uitdaging

Wat Van Soest betreft gaat open science om zo transparant mogelijk zijn over wat je hebt gedaan in je onderzoek. “In essentie bouwt het FAIR maken van data voort op waar we al twintig jaar mee bezig zijn: het kunnen werken met data van collega’s. FAIR vraagt een extra investering, bijvoorbeeld het digitaal beschrijven wat bepaalde data betekenen. En onderzoekers willen hun onderzoek natuurlijk graag zo snel mogelijk afronden en doen graag wat bekend is.”

Een tip voor onderzoekers die ook Open Science willen nastreven

Als je als onderzoeker wilt weten hoe je open science en FAIR kunt toepassen op jouw werk, raadt Van Soest aan om contact te zoeken met collega’s die er al wat ervaring mee hebben. “En ben niet te bang om het gewoon een keer te proberen. Terug naar het bekende kun je altijd nog.”

Femke Kools (text)