Website van Alex Reuneker over taal, hardlopen, wielrennen en reizen

Lexicale diversiteit en herhaling: compressieratio

— Posted in Taal & Literatuur by

De Lexical Diversity Calculator berekent nu ook de zogenaamde compression rate; de ratio tussen de lengte van een gecomprimeerde tekst en die van de originele, ongecomprimeerde versie van een tekst. Het idee daarachter is vrij simpel: door een tekst te comprimeren, verklein je het aantal tekens of bytes dat nodig is om de tekst op te slaan. Dat werkt ongeveer als volgt.

Een tekst bestaat uit woorden en de meeste woorden bestaan uit meerdere tekens. Het woord langeafstandsloper bijvoorbeeld is opgebouwd uit achttien letters. Als dat woord tien keer voorkomt in een tekst, ‘kost’ je dat dus 180 tekens/bytes. Als je een tekst comprimeert, schrijf je een soort woordenboekje bij een tekst, waarin bijvoorbeeld staat dat de letter a eigenlijk staat voor langeafstandsloper. Dat kost je initieel wat opslag, maar elke keer dat het woord daarna voorkomt, bespaar je maar liefst zeventien tekens. Dat scheelt aanzienlijk. Je neemt in dit voorbeeld immers achttien keer de letter a op in plaats van langeafstandsloper en dat kost je in totaal achttien bytes, een stuk minder dan de 180 bytes in de originele tekst.

Terug naar het nut van een compressiealgoritme in het licht van lexicale diversiteit; het idee in onderzoek naar herhaling in tekst, zie bijvoorbeeld Parada-Cabaleiro et al. (2024) en Nunes, Ordanini en Valsesia (2017), is dat je herhaling kunt ‘meten’ door de compressieratio te berekenen. Hoe meer een tekst gecomprimeerd kan worden, hoe meer herhaling erin moet zitten. Dit is uiteraard best een grove maat van herhaling, maar het voordeel is dat je niet hoeft te bepalen of herhaling zich voordoet op woord-, zins- of een nog ander niveau – die vraag is immers lastiger te beantwoorden dan je misschien zou denken en er zitten theoretisch ook nog wel wat haken en ogen aan.

enter image description here

Photo by Jackie Alexander on Unsplash

De compressieberekening in de Lexical Diversity Calculator wordt uitgevoerd met de deflatie-functie uit zlib in plaats van gzcompress, omdat die laatste functie metadata (headers) toevoegt die korte teksten onevenredig ‘straffen’. Die overhead maakt in relatieve zin namelijk een groter deel uit van het geheel van de gecomprimeerde tekst. De resultaten zijn vergelijkbaar met die van de zlib-library in Python die wordt gebruikt door Parada-Cabaleiro et al. (2024) en met de compress-functie in de R-package zlib, die dan ook gebruikt zijn om de ratio’s te evalueren, overigens bij een standaardcompressieniveau van 6 (1-9).

In de nabije toekomst wil ik ook het Lempel-Ziv-Welch-algoritme implementeren, zoals dat wordt gebruikt in het onderzoek waarover het Nature-artikel van Parada-Cabaleiro et al. (2024) gaat. Wordt vervolgd dus.

Woordenschat en zinslengte in 'De brief voor de koning' en 'Kinderen van moeder aarde'

— Posted in Taal & Literatuur by

Bij het eerstejaarsvak Taal & Media van de opleiding Nederlandse Taal & Cultuur aan de Universiteit Leiden schrijven studenten een paper over een klein onderzoekje naar een van de besproken onderwerpen. Niet zelden willen ze dan een bepaalde indicatie van tekstniveau vergelijken tussen twee corpora, zoals pop- en rapteksten, verschillende jaren van Kinderen voor Kinderen of examenteksten. Ze meten dan lexicale diversiteit in termen van bijvoorbeeld type-token-ratio en/of MTLD.

Om van dergelijke vergelijkingen te kunnen zeggen of verschillen tussen twee corpora significant zijn, kun je de t-toets gebruiken. Om studenten in staat te stellen dat te doen zonder uitgebreide statistiek-software te hoeven gebruiken, heb ik een online toegankelijke t-toets-calculator gemaakt. Die waren er natuurlijk al, maar het leek me wel geschikt er een in het Nederlands te maken, die een nette rapportage van de resultaten geeft. Uiteraard moeten studenten in hun paper wel uitleggen hoe die resultaten tot stand zijn gekomen en vooral wat ze betekenen.

Als voorbeeld kijken we naar jeugdliteratuur. Naast lexicale diversiteit wordt ook zinslengte gekoppeld aan tekstniveau; teksten die geschikt zijn voor lagere niveaus zouden minder verschillende woorden bevatten (minder 'lexicaal divers' zijn) en bovendien kortere zinnen bevatten. Dat staat bijvoorbeeld bij de niveaus op Lezen voor de lijst, maar ook in dit stuk in Tekstblad. In dit stukje vergelijken we daarom de lexicale diversiteit en zinslengte in twee klassieke jeugdromans: Tonke Dragts De brief voor de koning, ingeschaald op niveau 1 en Thea Beckmans Kinderen van moeder aarde, ingeschaald op niveau 3. Het eerste boek zou, in principe, minder verschillende woorden en minder lange zinnen moeten bevatten dan het tweede. Dat gaan we toetsten.

enter image description here

De brief voor de koning en Kinderen van moeder aarde

Om te bepalen in hoeverre boeken op niveaus 1 en 3 verschillen in lexicale diversiteit, nam ik uit beide romans vijftien samples van 500 woorden en ik berekende daar de type-token-ratio's (ttr) van. De nulhypothese is dat beide samples niet van elkaar verschillen in type-token-ratio; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in type-token-ratio. Tonke Dragts boek leverde een gemiddelde ttr op van 0.52 (op een schaal van 0-1); voor Thea Beckmans boek was het gemiddelde 0.56.

enter image description here

Uitkomsten van de t-toets (type-token-ratio)

Er lijkt dus inderdaad een verschil te zijn tussen de twee boeken, maar is het verschil significant? De t-toets-calculator laat zien van wel, getuige de onderstaande rapportage.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in type-token-ratio tussen De brief voor de koning (m = 0.52; sd = 0.03) en Kinderen van moeder aarde (m = 0.56; sd = 0.03) is significant (t (28) = 4.13; p < 0.05). Het (negatieve) effect is zeer groot (Cohen's d = 1.51; Cohen, 1988).

De standaarddeviatie is klein en er blijkt een significant verschil te zijn tussen de romans wat betreft lexicale diversiteit. Dat effect is, volgens de effectmaat Cohen's d, groot; een Cohen's d van -1.51 komt erop neer dat de type-token-ratio van een gemiddelde zin in De brief voor de koning 1.5 standaarddeviaties lager is dan die van een gemiddelde zin in Kinderen van moeder aarde. Belangrijk daarbij is dus ook wat tussen haakjes staat: het effect is negatief, wat wil zeggen dat het gemiddelde van de eerste steekproef, Tonke Dragts boek, lager is dan dat van de tweede steekproef, Thea Beckmans boek. Dat is uiteraard ook wat we verwachtten.

Nu de zinslengte; het eerste boek bevat 13.352 zinnen en het tweede boek 11.530. Dat is wat veel voor een t-toets (je riskeert dan overmatige invloed van corpusgrootte op significantie). Voor een inzichtelijk voorbeeld nemen we daarom uit beide boeken 100 willekeurig geselecteerde zinnen. De nulhypothese is dat beide samples niet van elkaar verschillen in zinslengte; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in zinslengte – een zogenaamde non-directionele hypothese, want we spreken geen verwachting uit over de richting van een mogelijk verschil.

In de steekproef uit Tonke Dragts boek is de gemiddelde zinslengte 10.84 woorden, met een standaarddeviatie van 7.52. Dat zegt dat er flink wat variatie in zinslengtes is. In de steekproef uit Thea Beckmans boek is de gemiddelde zinslengte 12.07 woorden, met een standaarddeviatie van 9.06. We zien dus dat de zinnen in het boek op niveau 3 inderdaad gemiddeld langer zijn. Maar is het verschil groot genoeg om daar conclusies aan te verbinden?

enter image description here

Uitkomsten van de t-toets (zinslengte)

De t-toets geeft een waarde van 1.04 en dat is, gegeven de steekproeven, niet genoeg voor een significant verschil. De onderstaande rapportage, gegenereerd door de calculator, maakt dit duidelijk.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in zinslengte tussen De brief voor de koning (m = 10.84; sd = 7.52) en Kinderen van moeder aarde (m = 12.07; sd = 9.06) is niet significant (t (197) = 1.04; p >= 0.05). Het effect is verwaarloosbaar (Cohen's d = -0.15; Cohen, 1988).

Dit resultaat heeft uiteraard met de hoge standaarddeviatie te maken: er is te veel verschil binnen de twee boeken om te kunnen zeggen dat er ook een verschil tussen de boeken is. We concluderen daarom dat we de nulhypothese, namelijk dat er geen verschil is in zinslengte tussen beide boeken, niet kunnen verwerpen.

Samenvattend kunnen we stellen dat De brief voor de koning – een boek op niveau 1 – minder lexicaal divers is dan Kinderen van moeder aarde – een boek op niveau 3, maar dat het niveauverschil zich niet laat zien in zinslengte. Uiteraard is dit maar een voorbeeld met een beperkt corpus, dus verdere conclusies moeten we hier zeker niet aan verbinden, maar als illustratie van zinslengte, lexicale diversiteit en de t-toets volstaat het wel, lijkt me.

Wil je de calculator zelf gebruiken? Ga dan naar https://www.reuneker.nl/t.

Van kinderlied tot flexe beat

— Posted in Taal & Literatuur by

Tijdens de Zomerschool voor internationele onderzoekers uit de neerlandistiek verzorgden Vivien Waszink en ik de workshop ‘ Van kinderlied tot flexe beat: analyse van lexicale diversiteit en keywords in Nederlandstalige popmuziek’. We vertelden daarin over onze onderzoeken naar de taal van Nederlandse pop en hiphop (zie https://www.reuneker.nl), waarbij we focusten op de gebruikte technieken: het meten van lexicale diversiteit (woordenschat) en het extraheren van trefwoorden (keyword analysis).

enter image description here

Zo’n vijftien internationale neerlandici deden mee en analyseerden met behulp van de tools op https://www.reuneker.nl/#corpus hun eigen pop- of hiphopfavoriet, waarbij we van alles voorbij zagen komen, van Wim Sonnneveld tot S10.