Limburgs op de digitale kaart
Het Limburgs kampt al jaren met een groot tekort aan digitale middelen en technische systemen om de taal en al haar dialecten te ondersteunen, bestuderen en toegankelijk te maken. Dit gebrek belemmert niet alleen wetenschappelijk onderzoek, maar ook de ontwikkeling van digitale toepassingen zoals spraakherkenning, machinevertaling en andere AI-gebaseerde technologieën.
Een nieuw project, uitgevoerd door Andreas Simons onder leiding van Leonie Cornips (leerstoel Taalcultuur in Limburg) en gesubsidieerd door het Hoes veur ’t Limburgs, zet zich nu in om daar verandering in te brengen.
Waarom een Limburgs Corpus?
Moderne technologieën en wetenschappelijk onderzoek op taalgebied zijn afhankelijk van zogenaamde ‘corpora’: grote databases met bronmateriaal zoals boeken, poëzie, internetblogs en gesprekken. Het Limburgs behoort echter tot de slechtst gedocumenteerde Germaanse talen. Dit zorgt ervoor dat de taal nauwelijks toegankelijk is voor onderzoekers, ontwikkelaars, onderwijs en overheden. Het gebrek aan digitale beschikbaarheid leidt tot een vicieuze cirkel waarin de zichtbaarheid, het gebruik en het prestige van het Limburgs verder afnemen.
Ondanks deze uitdagingen is er een groeiende belangstelling voor het Limburgs. Jongeren gebruiken de taal steeds vaker op sociale media, en er bestaan diverse bronnen zoals lokale literatuur, dialectwoordenboeken en theaterscripts. Wat ontbreekt, is een centrale en openbaar toegankelijke opslagplaats voor dit materiaal.
Digitale Infrastructuur in het Hoes veur ’t Limburgs
In een jaar tijd wordt een digitale infrastructuur (digitale middelen en technische systemen om de taal op te slaan, te beheren en toegankelijk te maken) opgezet om een Limburgs Corpus te verzamelen, beheren en aan te vullen. Aan het einde van het project zal een basisversie van het corpus beschikbaar zijn voor verder wetenschappelijk onderzoek en toepassingen in de industrie. Een bewerkte versie van het corpus wordt openbaar beschikbaar gesteld, zodat onderzoekers, studenten en ontwikkelaars met de data aan de slag kunnen. Dit zal een sneeuwbaleffect creëren voor verder onderzoek en het Limburgs positioneren als een ‘bestudeerbare’ taal.
De infrastructuur zal bovendien eenvoudig uitbreidbaar zijn, zodat toekomstige projecten het corpus kunnen aanvullen en verder ontwikkelen. Dit maakt de weg vrij voor het trainen van taalmodellen en andere toepassingen, vergelijkbaar met initiatieven voor andere minderheidstalen.
Foto gemaakt door: Laura Knipsael
Lees ook
-
Meer dan een studentenbaan: vijf alumni over hun unieke rol in baanbrekend vaatonderzoek
Hoe is het om als student deel te nemen aan baanbrekend vaatonderzoek, in de operatiekamer te staan en direct verantwoordelijk te zijn voor het verwerken van patiëntmateriaal? Vijf alumni van het Maastrichtse MAPEX-studententeam delen wat zij hebben geleerd, welke uitdagingen zij zijn tegengekomen...
-
KlankLab
Op 19 september 2025 introduceerde het MCICM een nieuwe vorm van interactieve publieksparticpatie, het KlankLab.
-
9 december protestactie hoger onderwijs in Amsterdam
Met de aanvullende onderwijsbezuinigingen uit de voorjaarsnota nog vers in het geheugen en de kabinetsformatie in volle gang, organiseren AOb, FNV, LSVb, and WOinActie* op 9 december opnieuw een protestactie. Het CvB steunt het doel van dit protest: om te voorkomen dat Nederland op achterstand wordt...