Op zoek naar toverspreuken in Harry Potter

Hoeveel toverspreuken gebruiken de personages in de zeven Harry Potter-boeken? Dat wilden Mortiz Haine en Markus Dienstknecht, masterstudenten Data Science for Decision Making, onderzoeken ter ere van het twintigjarige jubileum van Harry Potter. Om hun vraag te beantwoorden maakten ze gebruik van text mining, een techniek die vaak binnen de computerwetenschap wordt gebruikt om informatie te zoeken.

Antwoorden vinden
Het project was deel van het vak Information Retrieval and Text Mining, gegeven door prof. Jan Scholtes, die een buitengewone leerstoel bekleedt in Text Mining aan het Department of Data Science and Knowledge Engineering. “Elk jaar hebben we een verplichte praktische opdracht waarbij studenten text mining-algoritmes moeten toepassen op een eigen gekozen tekst. Het doel is om patronen uit een tekst te halen en antwoord te krijgen op de vragen ‘wie’, ‘wanneer’, ‘waar’, ‘wat’, ‘waarom’, ‘hoe’, ‘hoe vaak’ of op ‘welke manier’. Hieronder valt ook het opsporen van abstractere begrippen, zoals emoties, gevoelens of concepten”, legt prof. Scholtes uit.

Magie
Moritz en Markus werden geïnspireerd door een aantal eerdere projecten met populaire fantasy literatuur. Moritz: “In voorgaande jaren hebben studenten bijvoorbeeld gekeken naar Lord of the Rings, Star Wars en Game of Thrones. Maar tot onze verbazing ontbrak Harry Potter nog. Aangezien de boeken over magie gaan, besloten we dat het leuk zou zijn om alle spreuken te identificeren en de ‘tovenaars’ die de meeste spreuken gebruiken.”

Expelliarmus: ‘Verban het wapen’
Al binnen 25 minuten hadden ze 41 verschillende tovenaars gevonden, 64 verschillende spreuken en 253 spreuken in totaal, met behulp van een computer met een Core i7 processor en 16GB RAM. Moritz: “Zoals je zou verwachten, spreekt Harry Potter zelf de meeste spreuken uit in de hele boekenserie, 108 in totaal. Hij gebruikt Stupefy, Expelliarmus en Accio het meest – alle drie 11 keer. Dat is logisch, aangezien Expelliarmus de meest voorkomende spreuk is, gebruikt om de tegenstander te ontwapenen.”
De redenen voor het uitspreken van een bepaalde spreuk waren niet uit de data te halen, maar waren te herleiden uit de betekenis van de spreuken zelf. Door Stupefy, of de verdovingsspreuk, raakt het slachtoffer bewusteloos en komen voorwerpen tot stilstand, terwijl Accio gebruikt wordt om voorwerpen naar je toe te laten zweven. Moritz wijst erop dat ze zich alleen gericht hebben op uitgesproken spreuken, terwijl de krachtigste tovenaars ook spreuken kunnen gebruiken zonder ze te noemen. Ze denken dat dit de reden is dat Perkamentus (schoolhoofd van de toverschool Zweinstein) of Harry Potters aartsvijand Voldemort niet zo hoog scoren als Harry zelf. Aan het eind van hun project brachten Moritz en Markus alle verbanden tussen spreuken en personages in kaart en presenteerden hun resultaten aan de andere studenten, wat voor prof. Scholtes “altijd het hoogtepunt” is.

Spells
Kaart van de tovenaars en spreuken

Creativiteit
Scholtes merkt dat het werken aan interessante onderwerpen een goede manier is om studenten te betrekken en hen enthousiast te maken over text mining. Hij hoopt altijd aan de hand van de creatiefste projecten uit voorgaande jaren hun creativiteit te stimuleren probeert en de studenten uit te dagen het beter te doen. “Bij de afsluiting van het vak zeggen veel studenten tegen me dat het één van de interessantste en leukste projecten was waar ze aan hebben gewerkt. Sommigen besluiten zelfs om af te studeren op een onderwerp rondom text mining of om op dat gebied stage te lopen.”

Wat is text mining?
Text mining verwijst doorgaans naar het proces om interessante en niet-triviale informatie en kennis te vinden in een ongestructureerde tekst. Het omvat verschillende disciplines binnen de computerwetenschap, maar richt zich vooral op aspecten van kunstmatige intelligentie, waaronder patroonherkenning, neurale netwerken, natuurlijke taalverwerking, information retrieval en machine learning. Een belangrijk verschil met standaard information retrieval-technieken is dat een gebruiker daarbij moet weten waar hij of zij naar op zoek is, terwijl bij text mining juist wordt geprobeerd om informatie te ontdekken binnen een patroon dat vooraf niet bekend is. Dit is bijvoorbeeld erg relevant in strafrechtelijke onderzoeken, juridische ontdekkingen, bedrijfsdata, klinisch onderzoek of zorgvuldigheidsonderzoeken.

Door Dunja Bajic

 Lees meer over het masterprogramma Data Science for Decision Making
 Bekijk een video van een interactieve kaart gemaakt door studenten van het Game of Thrones project  

Lees ook

  • Zelfstandig besluiten nemen bij vergelijkbare situaties doen computers al volop. Maar kunnen zij ook kennis toepassen op nieuwe feiten? Mark Winands, de kersverse hoogleraar Machine Reasoning bij het Department of Advanced Computing Sciences (DACS), ontwikkelt rationeel handelende computerprogramma...

  • Zou het milieu erbij gebaat zijn als we plastic vervangen door papier of glas? Nee, is het verrassende antwoord van Kim Ragaert, hoogleraar Circular Plastics. Zij pleit voor een alternatieve aanpak, gericht op meer bewustwording en kennis op het gebied van recycling.

  • Twee afvalproducten uit eieren krijgen bij startup EGGXPERT een nieuwe bestemming bij de productie van gezichtsmaskers en wondpleisters. Chang Liu is een van de oprichters van het bedrijf. Ze hoorde bij de eerste afgestudeerden van de master Biobased Materials van de Faculteit of Science and...