lexicale diversiteit - Alex Reuneker

De taal van een dichter: lexicale diversiteit in de genres van Lieke Marsman

In samenwerking met Livia Rijkels voor Jong Neerlandistiek. Dit stuk is een bewerking van een paper dat Livia schreef voor de eerstejaarscursus Taal & Media, onderdeel van de bachelor Nederlandse Taal & Cultuur aan de Universiteit Leiden.

Lieke Marsman, voormalig Dichter des Vaderlands (2021-2023), overleed deze week op vijfendertigjarige leeftijd. Ze schreef meerdere dichtbundels, een roman en een filosofische essaybundel, die allemaal geprezen werden om de experimentele stijl en creatieve omgang met taal.

De volgende scan duurt vijf minuten

Gedichten en een essay in Marsmans 'De volgende scan duurt vijf minuten' (2018). Afbeelding van Uitgeverij Pluim.

Vaak wordt gedacht dat poëtisch taalgebruik afwijkend en ingewikkeld is (Van Alphen, Duyvendak, Meijer & Peperkamp, 1996). Marsmans diverse oeuvre nodigt uit om te bekijken in hoeverre de woordenschat in haar dichtwerk afwijkt van haar proza en essayistisch werk. Om dat te onderzoeken, stelde ik voor het eerstejaarsvak Taal & Media drie kleine steekproeven samen: willekeurige selecties van steeds tien pagina’s uit de dichtbundel In mijn mand (2021), de roman Het tegenovergestelde van een mens (2017) en de essaybundel Op een andere planeet kunnen ze me redden (2025). Voor elke pagina in de steekproeven berekende ik de lexicale diversiteit in termen van MTLD of Measure of Textual Lexical Diversity, een maat die goed bestand is tegen verschillen in tekstlengte en lokale woordherhaling (zie Reuneker, Waszink & Van der Wouden, 2017). De metingen vergeleek ik door middel van een ANOVA-toets, om te kijken of ze, per genre in Marsmans werk, verschilden. In figuur 1 zie je dat er inderdaad verschillen zijn, maar die blijken (net) niet significant (F(2, 27) = 2.84, p = 0.07).

MTLD-scores in Marsmans poëzie, roman en essays

Figuur 1. MTLD-scores in Marsmans poëzie, roman en essays

Het verraste me enigszins dat Marsmans dichtwerk in In mijn mand het laagst scoort op lexicale diversiteit (81,72), gevolgd door de roman Het tegenovergestelde van een mens (102,18) en de essays in Op een andere planeet kunnen ze me redden (114,67). In figuur 1 is echter te zien dat de waarden in de steekproeven flinke variatie vertonen en dat de genres overlappen. Uit post-hocvergelijkingen blijkt dan ook dat de drie genres bij Marsman onderling niet significant verschillen in woordenschat.

De resultaten van dit kleine onderzoekje plaatsen een (eveneens kleine) kanttekening bij het idee dat poëtisch taalgebruik wezenlijk anders is dan ‘ander taalgebruik’. Het werk van Marsman laat dat, ook in de week van haar veel te vroege dood, goed zien. Zij leek zich niet te conformeren aan genreconventies: in haar dichtwerk noemt ze filosofen en hun denkwijzen, in de roman staan sommige hoofdstukken in dichtvorm en zowel de roman als de essaybundel bevat persoonlijke dagboekfragmenten, wederom met filosofische mijmeringen.

Wat de resultaten wellicht laten zien, is niet de afwezigheid van verschillen in woordenschat tussen genres, maar de aanwezigheid van Marsmans eigen, consistente stijl die door genregrenzen heen breekt. Zo schreef NRC vandaag dat haar poëzie ‘altijd helder, fris en toegankelijk’ was, ‘zonder daarbij hoge barrières of drempels op te werpen. […] Voor haar essayistiek gold hetzelfde […].’ Hoewel woordgebruik invloed heeft op de beeldvorming van literatuur, liet Lieke Marsman in haar werk zien dat je je niet hoeft te houden aan genreconventies, dat je de grenzen zelf bepaalt. Dat woorden essentieel zijn, zei ze zelf misschien wel het treffendst in De volgende scan duurt vijf minuten (2018):

Op andere momenten word ik overspoeld door wanhoop van de ergste soort, de soort die zich karakteriseert door een gebrek aan woorden: wanhoop die je alleen nog maar kunt omschrijven met het woord wanhoop.

De waarde van een tekst zit niet in het meetbare, in een toch enigszins afstandelijke benadering als lexicale diversiteit, maar in de daadwerkelijke, individuele lezing. In Zomergasten (2022) zei Marsman: ‘Ik wil een oproep tot leven zijn’. Laat dit stukje, ter nagedachtenis aan Lieke Marsman, een bescheiden oproep tot lezen zijn, een oproep haar werk – gedicht, verhaal of essay – er dit weekend nog eens bij te pakken en de woorden, haar woorden, op ons in te laten werken.

Livia Rijkels is student Nederlandse Taal en Cultuur aan de Universiteit Leiden. Dit artikel is bewerking die zij met Alex Reuneker maakte van ze een paper dat zij schreef voor zijn eerstejaarscursus Taal & Media.

De brief en de kinderen: zelf lexicale diversiteit berekenen (Neerlandistiek)

25 July 2025 in Taal & Literatuur
lexicale diversiteit mtld ttr beckman dragt neerlandistiek

Op Neerlandistiek verscheen vandaag 'De brief en de kinderen: zelf lexicale diversiteit berekenen', een stukje van mijn hand over woordenschat of 'lexicale diversiteit'. Aangezien er door studenten de laatste tijd aardig wat over geschreven is – zie Luca Lenstra's stuk over klassiekers in de kinderliteratuur, Hannah de Wildts stuk over Donald Duck en het meest recente stuk van Lilith Nugteren over mannelijke en vrouwelijke auteurs – vroeg Neerlandistiek me een stukje te schrijven dat op praktische wijze te laat zien hoe je zelf, als neerlandicus of andere geïnteresseerde, aan de slag kunt met het berekenen van lexicale diversiteit en maten als TTR en MTLD.

'De brief en de kinderen: zelf lexicale diversiteit berekenen' op Neerlandistiek

'De brief en de kinderen: zelf lexicale diversiteit berekenen' op Neerlandistiek

Lees het gehele stuk op https://neerlandistiek.nl/2025/07/de-brief-en-de-kinderen.

Klassiekers uit de klas! (Jong Neerlandistiek)

03 July 2025 in Taal & Literatuur
taal media kinderboeken jeugdliteratuur lexicale diversiteit mtld

Voor het vak Taal & Media dat ik geef bij de studie Nederlandse Taal en Cultuur aan de Universiteit Leiden voeren eerstejaarsstudenten een corpusonderzoekje uit. Zonde om de mooie inzichten die daaruit voortkomen niet te delen! Daarom herschreven studenten tijdens een workshop van Ronny Boogaart en ondergetekende hun paper tot een inspirerende blog voor Jong Neerlandistiek. Luca Lenstra trapt af met een stuk over woordenschat in kinderboeken op De Grote Vriendelijke 100-lijst: zijn klassieke of juist recente jeugdboeken beter voor de woordenschat van kinderen? Lees het op https://neerlandistiek.nl/2025/07/klassiekers-uit-de-klas!

Klassiekers uit de klas!

Klassiekers uit de klas! door Luca Lenstra

Gemiddelde woord- en zinslengte

12 June 2025 in Taal & Literatuur
zinslengte woordlengte woorden letter lexicale diversiteit calculator

Nog een kleine toevoeging aan de Lexical Diversity Calculator: je krijgt nu, na het analyseren van je tekst, ook de gemiddelde zinslengte (in woorden) en de gemiddelde woordlengte (in letters/tekens). (Ook de standaarddeviaties worden daarbij gerapporteerd. Zie overigens Grzybek, 2014 voor een interessant literatuuroverzicht over woordlengte.) Voor sommige onderzoekers is dat nuttig, bijvoorbeeld om te kijken of kinderen steeds langere woorden en zinnen kunnen begrijpen (zie bijvoorbeeld George & Tomasello, 1984 en, een stuk recenter, Potratz, Gildersleeve-Neumann & Redford, 2022).

Een simpel voorbeeldje. Zowel de website van de NOS als de website van het Jeugdjournaal rapporteert over de bekendmaking van het nieuwe goede doel van 3FM Serious Request.

(Afbeelding verwijderd.)

De gemiddelde zinslengte in het NOS-artikeltje is 15.89 woorden en in het Jeugdjournaal-artikeltje 10.75 woorden. Wat betreft woordlengte is die bij de NOS 5.15 letters, bij het Jeugdjournaal 4.76 letters.

Analyse van Jeugdjournaal-tekstje

Analyse van het Jeugdjournaal-tekstje over 3FM Serious Request

Zinnen en woorden in teksten voor volwassen lijken dus inderdaad langer dan in teksten voor kinderen. De artikeltjes zijn echter veel (en veel!) te kort om echte uitspraken op te kunnen baseren (niet representatief, hoge standaarddeviatie uiteraard), maar dit was dan ook slechts een simpel en klein voorbeeldje.

Lexicale diversiteit en herhaling: compressieratio

06 June 2025 in Taal & Literatuur
lexicale diversiteit compressie ratio zlib

De Lexical Diversity Calculator berekent nu ook de zogenaamde compression rate; de ratio tussen de lengte van een gecomprimeerde tekst en die van de originele, ongecomprimeerde versie van een tekst. Het idee daarachter is vrij simpel: door een tekst te comprimeren, verklein je het aantal tekens of bytes dat nodig is om de tekst op te slaan. Dat werkt ongeveer als volgt.

Een tekst bestaat uit woorden en de meeste woorden bestaan uit meerdere tekens. Het woord langeafstandsloper bijvoorbeeld is opgebouwd uit achttien letters. Als dat woord tien keer voorkomt in een tekst, ‘kost’ je dat dus 180 tekens/bytes. Als je een tekst comprimeert, schrijf je een soort woordenboekje bij een tekst, waarin bijvoorbeeld staat dat de letter a eigenlijk staat voor langeafstandsloper. Dat kost je initieel wat opslag, maar elke keer dat het woord daarna voorkomt, bespaar je maar liefst zeventien tekens. Dat scheelt aanzienlijk. Je neemt in dit voorbeeld immers achttien keer de letter a op in plaats van langeafstandsloper en dat kost je in totaal achttien bytes, een stuk minder dan de 180 bytes in de originele tekst.

Terug naar het nut van een compressiealgoritme in het licht van lexicale diversiteit; het idee in onderzoek naar herhaling in tekst, zie bijvoorbeeld Parada-Cabaleiro et al. (2024) en Nunes, Ordanini en Valsesia (2017), is dat je herhaling kunt ‘meten’ door de compressieratio te berekenen. Hoe meer een tekst gecomprimeerd kan worden, hoe meer herhaling erin moet zitten. Dit is uiteraard best een grove maat van herhaling, maar het voordeel is dat je niet hoeft te bepalen of herhaling zich voordoet op woord-, zins- of een nog ander niveau – die vraag is immers lastiger te beantwoorden dan je misschien zou denken en er zitten theoretisch ook nog wel wat haken en ogen aan.

enter image description here

Photo by Jackie Alexander on Unsplash

De compressieberekening in de Lexical Diversity Calculator wordt uitgevoerd met de deflatie-functie uit zlib in plaats van gzcompress, omdat die laatste functie metadata (headers) toevoegt die korte teksten onevenredig ‘straffen’. Die overhead maakt in relatieve zin namelijk een groter deel uit van het geheel van de gecomprimeerde tekst. De resultaten zijn vergelijkbaar met die van de zlib-library in Python die wordt gebruikt door Parada-Cabaleiro et al. (2024) en met de compress-functie in de R-package zlib, die dan ook gebruikt zijn om de ratio’s te evalueren, overigens bij een standaardcompressieniveau van 6 (1-9).

In de nabije toekomst wil ik ook het Lempel-Ziv-Welch-algoritme implementeren, zoals dat wordt gebruikt in het onderzoek waarover het Nature-artikel van Parada-Cabaleiro et al. (2024) gaat. Wordt vervolgd dus.