Synthetische data, digitale tweelingen en Amerikaans geld

Sense the Science at the Faculty of Science and Engineering 8

Kunstmatige intelligentie kan betrouwbaar genoeg zijn voor de medische wereld. Je moet het systeem dan wel trainen met hoogwaardige data van een grote en diverse groep patiënten. Maar wat doe je als er te weinig gegevens zijn van bijvoorbeeld mensen met zeldzame aandoeningen? Michel Dumontier en zijn team in Maastricht en de Verenigde Staten werken aan een oplossing. Ze combineren echte en synthetische data om betrouwbare KI-systemen te ontwikkelen. In oktober ontvingen ze hiervoor een Amerikaanse subsidie van 8 miljoen dollar.

 


Hoe wordt een biochemicus een computerwetenschapper? Dumontier legt het uit: “Tijdens mijn promotieonderzoek werkte ik in een massaspectrometrie-laboratorium. Toen al mijn collega’s vertrokken om een bedrijf te starten, had ik twee keuzes: leren hoe ik de apparaten moest onderhouden of iets heel anders doen. Mijn begeleider stelde voor om bio-informatica te proberen”, vertelt Dumontier. Die keuze leidde uiteindelijk tot zijn huidige rol als universiteitshoogleraar Data Science aan de Universiteit Maastricht.


Complete controle

Dumontier ontdekte dat computer- en datawetenschap hem goed bevielen. “Bij biochemie onderzoek je de onderdelen en het gedrag van een levend systeem. Experimenten mislukken vaak, zonder dat je weet waarom. Bij computerwetenschap bouw je het systeem zelf. Als het niet werkt, heb je zelf iets fout gedaan. Dat geeft veel controle en is heel bevredigend, zeker als je uit de chaos van de biologie komt”, legt hij uit.
 

Hoewel hij biochemie achter zich heeft gelaten, blijft Dumontier werken in de biologie, vooral in de biomedische wereld. “Ons doel is om KI-methoden en tools te ontwikkelen die de medische wetenschap en praktijk vooruithelpen”, zegt hij. Artsen gebruiken vooral hun ervaring, kennis en richtlijnen om patiënten te behandelen. KI kan daarbij helpen door grote hoeveelheden patiëntgegevens te analyseren en aanbevelingen te doen, vooral bij zeldzame of complexe ziekten die lastig te diagnosticeren of behandelen zijn.


Technisch

Een KI-systeem moet voor iedereen nauwkeurige voorspellingen leveren, benadrukt Dumontier. Stel dat je een KI-systeem ontwikkelt met medische gegevens van mensen uit Maastricht dat precies kan voorspellen welke behandeling het beste werkt. Werkt het systeem dan ook voor mensen uit andere delen van de wereld?
 

Michel Dumontier at work with his students

“Om betrouwbaar te zijn, moet KI voor iedereen, ongeacht achtergrond, accuraat zijn. Technisch krijg je dit alleen voor elkaar door de KI te trainen met data van alle subgroepen mensen die je met de KI wil helpen”, legt hij uit. Maar genoeg gegevens verzamelen is een grote uitdaging, vooral als het gaat om zeldzame aandoeningen of zeldzame genetische eigenschappen. Onderzoekers gebruiken daarom synthetische data: door een computer gegenereerde gegevens die lijken op echte gegevens. Dit roept vragen op. Hoe weet je zeker dat deze gegevens de werkelijkheid goed nabootsen?

Accurater

Dumontier en zijn collega’s gebruiken een nieuwe methode voor het genereren van synthetische data. “Bij traditionele methoden geef je de computer vooraf instructies. Wij laten de machine zelf leren hoe deze optimale synthetische data kan maken, waarbij alle mogelijke variabelen worden meegenomen”, legt hij uit. Uiteindelijk maken synthetische data het KI-systeem nauwkeuriger dan mogelijk zou zijn zonder deze data. 

Michel Dumontier sitting with his laptop

Het uiteindelijke doel van Dumontier is een KI-systeem dat zo precies is dat het een digitale tweeling van een patiënt kan maken. “Artsen kunnen zo’n tweeling gebruiken om vragen te beantwoorden, zoals: Wat gebeurt er als ik behandeling A of B geef? Wanneer profiteert de patiënt het meest?” Deze technologie tilt gepersonaliseerde geneeskunde naar een nieuw niveau. Behandelingen kunnen eerst op de digitale tweeling worden getest voordat ze worden toegepast op de echte patiënt. Dit vermindert risico’s en verbetert de resultaten.

 

Tekts: Patrick Marx

Fotografie: Brian Megens

Synthetische kopie

Dumontier en zijn team toonden aan dat synthetische data echte gegevens nauwkeurig kan nabootsen. Ze maakten een synthetische versie van de data uit de Maastricht Studie, een groot lokaal gezondheidsonderzoek.

“In deze synthetische versie zitten geen persoonlijke gegevens van deelnemers. Ook toonden we aan dat een KI-systeem de data niet kan herleiden tot individuen”, zegt Dumontier. Onderzoekers kunnen met de synthetische gegevens hun onderzoeksvraag testen. Pas als ze daarna toegang willen tot de echte data, hoeven ze de tijdrovende aanvraag voor toegang te starten. Dit versnelt medisch onderzoek en beschermt tegelijkertijd de privacy.

 

Lees meer Sense the Science verhalen