Synthetische data & AI

Een synthetisch gevoel van betrouwbaarheid

Dani Shanley en Joshi Hogenboom over synthetische data, de voors en tegens van interdisciplinariteit, en waarom AI er waarschijnlijk niet voor zal zorgen dat we kunnen stoppen met het bestuderen van de wereld waarin we leven.

Synthetische data is informatie die wordt gegenereerd door algoritmen die zijn getraind op bestaande gegevenssets, die zijn verkregen door het verzamelen van data in de echte wereld. De gegenereerde data hebben vergelijkbare statistische eigenschappen en kunnen de originele gegevenssets aanvullen of diversifiëren. Dit is nuttig voor het valideren van wiskundige modellen, technische prototypes of het trainen van modellen voor machinelearning. Toch kleven er ernstige ethische en praktische bezwaren aan synthetische data.

"De mogelijkheden worden flink gehypet – en daarmee ook loze beloftes,”, zegt Dani Shanley. "Er waren ook een paar kritische stemmen, maar we vonden dat wetenschappers een serieuze dialoog moesten aangaan over de risico's en hoe we die kunnen beperken." Vlak voor haar zwangerschapsverlof zette Shanley's collega Flora Lysen een interdisciplinaire samenwerking op tussen FASoS en UM-onderzoekers van de afdeling Clinical Data Science van het Maastricht UMC+ en Maastro Clinic. Dat resulteerde in een publicatie in de prestigieuze EMBO Reports.

Gratis, anoniem en zo divers als een regenboog

Joshi Hogenboom is een epidemioloog en biomedisch onderzoeker. Hij is gespecialiseerd in het vergaren van kennis uit geografisch verspreide data, waarbij individuele privacy de hoogste prioriteit heeft. Hij experimenteerde met geavanceerde modelling en deep learning om data te synthetiseren die echte data uit de gezondheidszorg nabootsen, in die zin dat ze dezelfde kenmerken hebben. Hogenboom legt uit dat technologische vooruitgang heeft geleid tot een grotere beschikbaarheid en tegen een zeer lage prijs. "De kosten voor klinisch onderzoek kunnen in de miljoenen lopen; synthetische data kosten bijna niets omdat ze gegenereerd worden uit bestaande data."

Daardoor zijn synthetische data een bruikbare oplossing voor een groot aantal problemen. Ze zouden privacy garanderen: de nieuwe dataset kan worden gebruikt om processen te testen zonder de werkelijke patiëntgegevens zichtbaar te maken. Je kunt er ook een gebrek aan gegevens mee omzeilen. "Als je gegevens hebt van slechts tien patiënten, maar je hebt er tienduizend nodig voor je statistische toets, dan kun je synthetische data genereren met vergelijkbare eigenschappen. Als alle honderd patiënten hier uit het ziekenhuis komen, kun je nog geavanceerdere technieken gebruiken om de diversiteit van de dataset kunstmatig te vergroten."

Gaten vullen

Maar door gaten te vullen om data representatiever te maken, ontstaat het gevaar dat we de problemen van vandaag negeren, zoals dat bij veel van de futuristische beloftes van AI het geval is. "In plaats van een probleem op te lossen, maskeren we het," waarschuwt Shanley. "Als we om socio-materiële en historische redenen geen data hebben van ondervertegenwoordigde groepen, zullen de synthetische data een wereld vertegenwoordigen die niet bestaat – terwijl impliciet wordt gesuggereerd dat deze representatief is.” Ze vergelijkt het met spreken in andermans naam: zelfs als je het met de beste bedoelingen doet, heeft de ander geen echte, eigen stem.

"We zien nu al dat bedrijven te veel vertrouwen op synthetische data en bijvoorbeeld ecosystemen voor patiëntenzorg ontwikkelen die niet zijn afgestemd op de echte wereld," zegt Hogenboom. Over de belofte van privacy zegt hij: "We hebben gezien dat modellen echte patiëntgegevens genereren als ze niet met uiterste voorzichtigheid worden toegepast. Mensen zouden privacy als een gegeven beschouwen omdat de data synthetisch zijn."

Er is een kans dat data uit de echte wereld vervuild raken.
Joshi Hogenboom

Wat is nog echt?

Een ander probleem is dat hoe complexer deep learning-modellen zijn, hoe onduidelijker het is hoe ze tot hun resultaten komen. Veel van de synthetisch gegenereerde datasets worden gebruikt om andere deep learning-modellen te trainen, die op hun beurt datasets kunnen genereren die worden gebruikt om andere algoritmen te trainen, totdat er een matroesjka van black boxes ontstaat. Hogenboom: "Afhankelijk van hoe geavanceerd ze zijn kunnen sommige AI's synthetische data als zodanig herkennen, bijvoorbeeld in het geval van beeldgeneratie. Maar we zijn al op het punt aanbeland dat dat niet langer een gegeven is. Er is een kans dat data uit de echte wereld vervuild raken."

Waarmee we weer terug zijn bij het probleem dat de data ons niets nieuws meer leren – of erger. Volgens Shanley worden de inherente vertekeningen en gebreken in data alleen maar groter. "Te veel vertrouwen op de beloften van AI is een nog groter gevaar; het is als een tovermiddel dat ons verlost van de noodzaak van grondig kwalitatief onderzoek, dat duur en tijdrovend is. Maar dat soort onderzoek blijft nodig om fenomenen echt te begrijpen."

Hogenboom MUMC

Joshi Hogenboom is promovendus bij Clinical Data Science, een gezamenlijke afdeling van Maastricht University, Maastricht UMC+ en Maastro Clinic. Hij studeerde Biomedical Sciences and Epidemiology aan de UM.

Silo-overstijgende samenwerking

In hun stuk bekijken Shanley en zijn collega’s synthetische data vanuit de AI-ethische kernbegrippen verantwoordelijkheid, non-maleficence, privacy en transparantie, en rechtvaardigheid, eerlijkheid en billijkheid. Het was zeker niet hun bedoeling om zich vijandig uit te laten over technologische vooruitgang of te lobbyen voor een moratorium; de potentiële voordelen zijn duidelijk. "Deze bijna binaire benadering van óf ongebreideld enthousiasme óf dystopische angst helpt niet," legt Shanley uit. "We wilden de gemeenschap waarschuwen dat dit met ons op de loop zou kunnen gaan, dus we moeten zo vroeg mogelijk nadenken over mechanismen om verantwoord gebruik te garanderen. Naast de technische aspecten moeten we duidelijk zijn over waar we dit voor willen gebruiken, en hoe."

Het is enigszins teleurstellend dat er geen knop is waarop je kunt klikken om een algoritme in de ontwerpfase ethisch te maken. Daarom vond Shanley samenwerking met technische experts cruciaal. "Allemaal leuk en aardig om tegen ontwikkelaars te zeggen dat ze transparante algoritmen moeten maken, maar hoe en in hoeverre kun je deze concepten daadwerkelijk operationeel maken? In de sociale wetenschappen hebben we abstracte gesprekken over deze concepten, dus we vonden het geweldig om een duidelijker idee te krijgen van hoe transparantie implementeren eigenlijk in zijn werk gaat – om maar een voorbeeld te noemen." 

Ontwikkelaars moeten begrijpen dat ze elke dag ethische beslissingen nemen, of ze dat nu bewust doen of niet.
Dani Shanley

Geïntegreerde ethiek

Hogenboom geeft lachend toe dat zijn technobabbel soms moeilijk te volgen was, maar Shanley benadrukt dat "wanneer je over disciplines heen werkt, je elkaars taal voldoende moet leren spreken om argumenten te kunnen doorgronden en een dialoog aan te gaan. Dat is echt een hoop werk." Ze waarschuwt voor mooipraterij van bedrijven en vindt, net zoals ze meer technische training voor FASoS-studenten zou toejuichen, dat ethiek een integraal onderdeel zou moeten zijn van technische curricula, in plaats van een enkele verplichte cursus. "Ontwikkelaars moeten begrijpen dat ze elke dag ethische beslissingen nemen, of ze dat nu bewust doen of niet."

Hogenboom is het daarmee eens: "De samenwerking heeft me echt de waarde doen inzien van ethiek, niet alleen als een bijkomstigheid, maar als een integraal onderdeel in elke fase van onderzoek en ontwikkeling." Hij herinnert aan het Nederlandse kinderopvangtoeslagschandaal en het Britse Post Office-schandaal en waarschuwt dat de technologische mogelijkheden ons niet blind mogen maken voor de mogelijke gevolgen van zowel de tools zelf als de overdreven verwachtingen ervan. "Technologie genereert een gevoel van zekerheid dat heel gevaarlijk is."

Tekst: Florian Raith

Lees ook

  • De belangrijkste les die rechtspsycholoog Jenny Schell-Leugers haar studenten meegeeft? Als je ooit onschuldig wordt vastgehouden door de politie, neem een advocaat en zwijg. Denk niet: ik heb niks te verbergen en leg het wel uit. De praktijk leert dat iedereen het slachtoffer kan worden van een...

  • UMagazine

    AI en de wet

    Mag AI ons iedere dag manipuleren? Mag het getraind worden met onze gegevens zonder ons medeweten of onze toestemming? Hoe kunnen we wetten rond AI, privacy en concurrentie handhaven? Konrad Kollnig probeert met RegTech4AI antwoorden te krijgen op deze en andere vragen.

  • Wie A zegt, moet ook B zeggen. Daarom ging bijzonder hoogleraar herstelrecht en universitair hoofddocent straf(proces)recht Jacques Claessen vrijwillig aan de enkelband.