Marokkaans Arabisch, een flinke klus voor computers en onderzoekers

Sense the Science at the Faculty of Science and Engineering 21

Vertaalsoftware zoals die op je telefoon heeft moeite met Darija, het Marokkaans-Arabische dialect. Het dialect verschilt net zoveel van Standaard Arabisch als het Limburgs van ABN. Abder Issam zette zijn tanden in machinevertaling van Darija en kijkt ook naar het Limburgs.

Dialecten en accenten zijn een probleem voor vertaalsoftware. Of het nu om gesproken Darija of geschreven Limburgs gaat, de uitkomst van de vertaling is niet ideaal. Hoe meer een taal gesproken wordt, hoe meer data er beschikbaar is om een computermodel mee te trainen. Daar schuilt de crux, van Darija of Limburgs is er veel minder data beschikbaar en is die training dus moeilijk.

Vertalen met wiskunde

De meeste vertaalsoftware gebruikt neurale netwerken: computermodellen geïnspireerd op ons brein. Deze netwerken bestaan uit elektronische ‘zenuwcellen’ (neuronen) die patronen leren herkennen in data, zoals teksten. Ze passen zich aan op basis van de input en zoeken samen naar het beste antwoord: de vertaling.

Promovendus bij het Departement of Advanced Computing Sciences, Abder Issam legt het in meer detail uit: “Een neuraal vertaalnetwerk heeft twee belangrijke onderdelen: een encoder en een decoder. De encoder zet de oorspronkelijke zin (bijvoorbeeld Engels) om in een wiskundige weergave: een matrix met getallen. Elke zin wordt dus een reeks cijfers. De decoder zoekt een nieuwe matrix die past bij de oorspronkelijke matrix, maar dan in de doeltaal (bijvoorbeeld Darija). Door wiskundige berekeningen ontstaat zo een vertaalde zin.”

Mensenwerk

Net als een peuter die leert praten door te luisteren, leert ook een neuraal netwerk van vele voorbeelden die het krijgt aangereikt. De data waar het netwerk van leert, zijn paren van zinnen in beide talen. In Abders onderzoek zijn dat Darija en Engels. Abder: “Grote taalmodellen leren van honderdduizenden voorbeelden. Toen we begonnen, beschikten we over een dataset met 10 duizend zinnen in het Engels en Darija. Dankzij het werk van vele vrijwilligers is deze open source-dataset uit Marokko inmiddels 45 duizend zinnen groot. Het maken van een taalmodel is dus echt mensenwerk.”

Werken met een beperkte dataset leidt tot kwalitatief minder goede vertalingen. Abder vergeleek diverse technieken voor de vertaling en ontdekte zo een combinatie die de beste resultaten oplevert. Hij valideerde zijn model met onder meer het Nieuwe Testament in Darija. “Die kwaliteit bereken je door 1000-2000 zinnen te vertalen en dan het resultaat te vergelijken met de al bestaande vertaling. Een goed model haalt een score van meer dan 40. Ons model haalt bijna 27 voor de vertaling van Darija naar Engels en 10 voor Engels naar Darija.”

collection of Arabic and French Moroccan newspapers Photo by Moussa Idrissi — Collectie Arabische en Franse kranten uit Marokko Foto door Moussa Idrissi

Talen van Marokko.

De oorspronkelijke taal van Marokko is het Tamazight (Berbers). Door Arabische invloeden ontstond een nieuwe taal, Darija ofwel Marokkaan-Arabisch. Later beïnvloedden ook het Frans, Spaans en recent, het Engels de taal. In Marokko is Standaard Arabisch de taal die bij officiële zaken en in de media gebruikt wordt. Daarnaast spreken bijna alle Marokkanen ook Darija en/of Tamazight.

Het verschil tussen de twee vertalingen verbaasde de onderzoekers. “Het laat zien hoe belangrijk een grote dataset is. Engels is een taal waarvan veel data beschikbaar is, daarom lukt het vertalen naar het Engels beter dan andersom.”

Maar er is nog een reden voor het verschil. Darija is geen uniforme taal. “Ook binnen Darija zijn er dialecten, In Noord-Marokko is de invloed van het Spaans groot, in centraal Marokko juist het Frans. Daarom schrijven Marokkanen een zin met dezelfde betekenis op verschillende manieren. Daar komt bij dat leenwoorden soms in hun originele versie geschreven worden of soms omgezet in Arabisch schrift.”

Meer mensenwerk

Hoe valt de kwaliteit van de vertaling te verbeteren? “De eenvoudigste manier is met meer data. Gelukkig is er in Marokko een groeiende groep mensen die hieraan werkt, waaronder onderzoekers die nieuwe, betere taalmodellen proberen te ontwikkelen. Ze kunnen hun modellen vergelijken met het onze en zien of ze beter scoren. Dat is ook het doel van ons onderzoek: een basis neerzetten waarop anderen voort kunnen bouwen.” Abder en zijn collega’s waren een van de eersten, zo niet de eersten, die op academisch niveau naar taalmodellen voor Darija keken.

De diversiteit van talen is het onderwerp van Abders promotieonderzoek. Hij kijkt naar de moeilijkheid van het vertalen van taal gesproken met een accent, bijvoorbeeld door mensen die een dialect spreken of juist een voor hen vreemde taal. Denk aan het Limburgs accent of het Nederlandse accent van iemand die Engels spreekt. Naast Darija is ook het Limburgs onderwerp van zijn onderzoek. “Limburgs is heel divers. Daarom werken we eerst aan een computermodel dat lokale varianten van het Limburgs kan herkennen.”

De digitale toekomst van talen als Darija en Limburgs hangt niet alleen af van algoritmes, maar vooral van de mensen die ze spreken en van onderzoekers die er alles aan doen om ze een plek te geven in de digitale wereld.

Lees meer: Low-Resource Machine Translation for Moroccan Arabic

Alexei Rosca, Abderrahmane Issam, Gerasimos Spanakis

Tekst: Patrick Marx

Lees meer Sense the Science verhalen