Website van Alex Reuneker over taal, hardlopen, wielrennen en reizen

Taal & Literatuur

Posts over taal en literatuur

Woordenschat en zinslengte in 'De brief voor de koning' en 'Kinderen van moeder aarde'

— Posted in Taal & Literatuur by

Bij het eerstejaarsvak Taal & Media van de opleiding Nederlandse Taal & Cultuur aan de Universiteit Leiden schrijven studenten een paper over een klein onderzoekje naar een van de besproken onderwerpen. Niet zelden willen ze dan een bepaalde indicatie van tekstniveau vergelijken tussen twee corpora, zoals pop- en rapteksten, verschillende jaren van Kinderen voor Kinderen of examenteksten. Ze meten dan lexicale diversiteit in termen van bijvoorbeeld type-token-ratio en/of MTLD.

Om van dergelijke vergelijkingen te kunnen zeggen of verschillen tussen twee corpora significant zijn, kun je de t-toets gebruiken. Om studenten in staat te stellen dat te doen zonder uitgebreide statistiek-software te hoeven gebruiken, heb ik een online toegankelijke t-toets-calculator gemaakt. Die waren er natuurlijk al, maar het leek me wel geschikt er een in het Nederlands te maken, die een nette rapportage van de resultaten geeft. Uiteraard moeten studenten in hun paper wel uitleggen hoe die resultaten tot stand zijn gekomen en vooral wat ze betekenen.

Als voorbeeld kijken we naar jeugdliteratuur. Naast lexicale diversiteit wordt ook zinslengte gekoppeld aan tekstniveau; teksten die geschikt zijn voor lagere niveaus zouden minder verschillende woorden bevatten (minder 'lexicaal divers' zijn) en bovendien kortere zinnen bevatten. Dat staat bijvoorbeeld bij de niveaus op Lezen voor de lijst, maar ook in dit stuk in Tekstblad. In dit stukje vergelijken we daarom de lexicale diversiteit en zinslengte in twee klassieke jeugdromans: Tonke Dragts De brief voor de koning, ingeschaald op niveau 1 en Thea Beckmans Kinderen van moeder aarde, ingeschaald op niveau 3. Het eerste boek zou, in principe, minder verschillende woorden en minder lange zinnen moeten bevatten dan het tweede. Dat gaan we toetsten.

enter image description here

De brief voor de koning en Kinderen van moeder aarde

Om te bepalen in hoeverre boeken op niveaus 1 en 3 verschillen in lexicale diversiteit, nam ik uit beide romans vijftien samples van 500 woorden en ik berekende daar de type-token-ratio's (ttr) van. De nulhypothese is dat beide samples niet van elkaar verschillen in type-token-ratio; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in type-token-ratio. Tonke Dragts boek leverde een gemiddelde ttr op van 0.52 (op een schaal van 0-1); voor Thea Beckmans boek was het gemiddelde 0.56.

enter image description here

Uitkomsten van de t-toets (type-token-ratio)

Er lijkt dus inderdaad een verschil te zijn tussen de twee boeken, maar is het verschil significant? De t-toets-calculator laat zien van wel, getuige de onderstaande rapportage.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in type-token-ratio tussen De brief voor de koning (m = 0.52; sd = 0.03) en Kinderen van moeder aarde (m = 0.56; sd = 0.03) is significant (t (28) = 4.13; p < 0.05). Het (negatieve) effect is zeer groot (Cohen's d = 1.51; Cohen, 1988).

De standaarddeviatie is klein en er blijkt een significant verschil te zijn tussen de romans wat betreft lexicale diversiteit. Dat effect is, volgens de effectmaat Cohen's d, groot; een Cohen's d van -1.51 komt erop neer dat de type-token-ratio van een gemiddelde zin in De brief voor de koning 1.5 standaarddeviaties lager is dan die van een gemiddelde zin in Kinderen van moeder aarde. Belangrijk daarbij is dus ook wat tussen haakjes staat: het effect is negatief, wat wil zeggen dat het gemiddelde van de eerste steekproef, Tonke Dragts boek, lager is dan dat van de tweede steekproef, Thea Beckmans boek. Dat is uiteraard ook wat we verwachtten.

Nu de zinslengte; het eerste boek bevat 13.352 zinnen en het tweede boek 11.530. Dat is wat veel voor een t-toets (je riskeert dan overmatige invloed van corpusgrootte op significantie). Voor een inzichtelijk voorbeeld nemen we daarom uit beide boeken 100 willekeurig geselecteerde zinnen. De nulhypothese is dat beide samples niet van elkaar verschillen in zinslengte; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in zinslengte – een zogenaamde non-directionele hypothese, want we spreken geen verwachting uit over de richting van een mogelijk verschil.

In de steekproef uit Tonke Dragts boek is de gemiddelde zinslengte 10.84 woorden, met een standaarddeviatie van 7.52. Dat zegt dat er flink wat variatie in zinslengtes is. In de steekproef uit Thea Beckmans boek is de gemiddelde zinslengte 12.07 woorden, met een standaarddeviatie van 9.06. We zien dus dat de zinnen in het boek op niveau 3 inderdaad gemiddeld langer zijn. Maar is het verschil groot genoeg om daar conclusies aan te verbinden?

enter image description here

Uitkomsten van de t-toets (zinslengte)

De t-toets geeft een waarde van 1.04 en dat is, gegeven de steekproeven, niet genoeg voor een significant verschil. De onderstaande rapportage, gegenereerd door de calculator, maakt dit duidelijk.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in zinslengte tussen De brief voor de koning (m = 10.84; sd = 7.52) en Kinderen van moeder aarde (m = 12.07; sd = 9.06) is niet significant (t (197) = 1.04; p >= 0.05). Het effect is verwaarloosbaar (Cohen's d = -0.15; Cohen, 1988).

Dit resultaat heeft uiteraard met de hoge standaarddeviatie te maken: er is te veel verschil binnen de twee boeken om te kunnen zeggen dat er ook een verschil tussen de boeken is. We concluderen daarom dat we de nulhypothese, namelijk dat er geen verschil is in zinslengte tussen beide boeken, niet kunnen verwerpen.

Samenvattend kunnen we stellen dat De brief voor de koning – een boek op niveau 1 – minder lexicaal divers is dan Kinderen van moeder aarde – een boek op niveau 3, maar dat het niveauverschil zich niet laat zien in zinslengte. Uiteraard is dit maar een voorbeeld met een beperkt corpus, dus verdere conclusies moeten we hier zeker niet aan verbinden, maar als illustratie van zinslengte, lexicale diversiteit en de t-toets volstaat het wel, lijkt me.

Wil je de calculator zelf gebruiken? Ga dan naar https://www.reuneker.nl/t.

T-toets-calculator

— Posted in Taal & Literatuur by

Aangezien ik voorzie dat een aantal van mijn studenten verzamelingen van metingen van lexicale diversiteit wil gaan vergelijken, leek het me handig een t-toets-calculator te maken die gemakkelijk te gebruiken is en de juiste rapportage geeft van zowel significantie als effectgrootte (in termen van Cohen's d). Een en ander kan nog wat opgepoetst worden, maar de pagina is wel functioneel.

enter image description here Online t-toets-calculator

Je kunt 'm gebruiken op https://www.reuneker.nl/files/t/ en als je nog geen data hebt om te testen, dan kun je door middel van een druk op de knop een voorbeeldonderzoekje tevoorschijn roepen.

Hapax en dis legomena

— Posted in Taal & Literatuur by

Hapax legomena, woorden die maar eenmaal voorkomen in een tekst, worden onder andere gebruikt om auteurschap van een tekst te bepalen. Hoewel daar tegenwoordig andere, robuustere manieren voor bestaan, worden hapax legomena nog wel gebruikt in corpusonderzoek en daarbuiten – zo laat onderzoek van Hernández-Domínguez et al. (2018) zien dat de frequentie van hapax en dis legomena (woorden die respectievelijk een- en tweemaal voorkomen) gecorreleerd is aan cognitieve stoornis (zie ook Alegria & Radanovic, 2019).

Voor vertalingen van bijbelteksten en (andere) klassieke teksten vormen hapax legomena een moeilijkheid; de betekenis van de woorden is moeilijk te achterhalen, omdat dat meestal gebeurt door verschillende gebruiken/contexten met elkaar te vergelijken en bij hapaxen kan dat niet.

Hoe dan ook, op https://www.reuneker.nl/ld kun je zelf de hapaxen uit een tekst halen. Wist je bijvoorbeeld dat het woord koffiegod precies een keer voorkomt in de Max Havelaar, namelijk in de onderstaande passage?

Scherp en onverwacht is de wending waar Droogstoppel wordt weggedoemd: verdwijn, stik in koffie, en waar de schrijver zelf optreedt; en wilder en demonischer dan eenige andere bladzij Nederlandsch is de woede kreet, de laatste toon die klinkt van dit veelsnarig instrument. Dat boek tastte Nederland aan in een van zijn idioten, den koffiegod van 't batig slot.

enter image description here

Hapax Legomena in de Max Havelaar

Hapax Legomena added to Lexical Diversity tool

— Posted in Taal & Literatuur by

In mailing back and forth with one of the researchers over at the Max Planck Institute, there was some confusion over the use of the term unique words in the Lexical Diversity tool. Unique words are not hapax legomena, which is the term in corpus linguistics for words that only occur once. Unique words are simply types and count up to the number of different words in a text. A word might occur once, twice or twenty times, but in all three cases, it would count as one unique word. This measure is also used for calculating the type-token-ratio. As the researcher was interested in how many words occur only once in a text, I've added this count. You can use the new feature here right away!

enter image description here

Hapax legomena in the Lexical Diversity tool

Digital Humanities Small Grant - Results

— Posted in Taal & Literatuur by

The two projects subsidised through the Leiden University Centre for Digital Humanities Small Grant are nearly finished, and the grant webpage of the overarching project entitled 'D or t? Using Big Data to Explore Linguistic Factors in Dutch Verb Spelling' has been updated accordingly.

Using big data, we were able to enhance the academic knowledge of two specific factors in verb-spelling errors and to offer evidence-based solutions to long-lasting and persistent problem in Dutch language education.

enter image description here

Writing and verb spelling

For more info on the two projects ('Study 1: The spelling of homophonic verbs preceding the reduced possessive and personal pronoun je' and 'The spelling of the imperative mood in secondary education'), visit https://www.universiteitleiden.nl/en/humanities/centre-for-digital-humanities/projects/small-grants-2024-research-projects#alex-reuneker.

Pagina 3 of 8