juni 2025 - Alex Reuneker

Gemiddelde woord- en zinslengte

12 June 2025 — Posted in Taal & Literatuur by Alex

Nog een kleine toevoeging aan de Lexical Diversity Calculator: je krijgt nu, na het analyseren van je tekst, ook de gemiddelde zinslengte (in woorden) en de gemiddelde woordlengte (in letters/tekens). (Ook de standaarddeviaties worden daarbij gerapporteerd. Zie overigens Grzybek, 2014 voor een interessant literatuuroverzicht over woordlengte.) Voor sommige onderzoekers is dat nuttig, bijvoorbeeld om te kijken of kinderen steeds langere woorden en zinnen kunnen begrijpen (zie bijvoorbeeld George & Tomasello, 1984 en, een stuk recenter, Potratz, Gildersleeve-Neumann & Redford, 2022).

Een simpel voorbeeldje. Zowel de website van de NOS als de website van het Jeugdjournaal rapporteert over de bekendmaking van het nieuwe goede doel van 3FM Serious Request.

(Afbeelding verwijderd.)

De gemiddelde zinslengte in het NOS-artikeltje is 15.89 woorden en in het Jeugdjournaal-artikeltje 10.75 woorden. Wat betreft woordlengte is die bij de NOS 5.15 letters, bij het Jeugdjournaal 4.76 letters.

Analyse van Jeugdjournaal-tekstje

Analyse van het Jeugdjournaal-tekstje over 3FM Serious Request

Zinnen en woorden in teksten voor volwassen lijken dus inderdaad langer dan in teksten voor kinderen. De artikeltjes zijn echter veel (en veel!) te kort om echte uitspraken op te kunnen baseren (niet representatief, hoge standaarddeviatie uiteraard), maar dit was dan ook slechts een simpel en klein voorbeeldje.

Lempel-Ziv-Welch-algoritme in de Lexical Diversity Calculator

11 June 2025 — Posted in Taal & Literatuur by Alex

In een vorige post over compressieratio's gaf ik aan dat ik, na een algemene compressieratio, ook de compressieratio op basis van het Lempel-Ziv-Welch-algoritme wilde implementeren, zoals dat wordt gebruikt in het onderzoek waarover dit Nature-artikel van Parada-Cabaleiro et al. (2024) gaat. Dat is inmiddels gelukt – de Lexical Diversity Calculator berekent nu dus ook de LZW-compressieratio.

Welch (1984)

Welch (1984)

Over het algoritme zelf kun je meer lezen op Geeks for Geeks of, als je echt zin hebt, in het originele artikel van Welch (1984). Natuurlijk kun je de de functie gelijk proberen met de Lexical Diversity Calculator.

Lexicale diversiteit en herhaling: compressieratio

06 June 2025 — Posted in Taal & Literatuur by Alex

De Lexical Diversity Calculator berekent nu ook de zogenaamde compression rate; de ratio tussen de lengte van een gecomprimeerde tekst en die van de originele, ongecomprimeerde versie van een tekst. Het idee daarachter is vrij simpel: door een tekst te comprimeren, verklein je het aantal tekens of bytes dat nodig is om de tekst op te slaan. Dat werkt ongeveer als volgt.

Een tekst bestaat uit woorden en de meeste woorden bestaan uit meerdere tekens. Het woord langeafstandsloper bijvoorbeeld is opgebouwd uit achttien letters. Als dat woord tien keer voorkomt in een tekst, ‘kost’ je dat dus 180 tekens/bytes. Als je een tekst comprimeert, schrijf je een soort woordenboekje bij een tekst, waarin bijvoorbeeld staat dat de letter a eigenlijk staat voor langeafstandsloper. Dat kost je initieel wat opslag, maar elke keer dat het woord daarna voorkomt, bespaar je maar liefst zeventien tekens. Dat scheelt aanzienlijk. Je neemt in dit voorbeeld immers achttien keer de letter a op in plaats van langeafstandsloper en dat kost je in totaal achttien bytes, een stuk minder dan de 180 bytes in de originele tekst.

Terug naar het nut van een compressiealgoritme in het licht van lexicale diversiteit; het idee in onderzoek naar herhaling in tekst, zie bijvoorbeeld Parada-Cabaleiro et al. (2024) en Nunes, Ordanini en Valsesia (2017), is dat je herhaling kunt ‘meten’ door de compressieratio te berekenen. Hoe meer een tekst gecomprimeerd kan worden, hoe meer herhaling erin moet zitten. Dit is uiteraard best een grove maat van herhaling, maar het voordeel is dat je niet hoeft te bepalen of herhaling zich voordoet op woord-, zins- of een nog ander niveau – die vraag is immers lastiger te beantwoorden dan je misschien zou denken en er zitten theoretisch ook nog wel wat haken en ogen aan.

enter image description here

Photo by Jackie Alexander on Unsplash

De compressieberekening in de Lexical Diversity Calculator wordt uitgevoerd met de deflatie-functie uit zlib in plaats van gzcompress, omdat die laatste functie metadata (headers) toevoegt die korte teksten onevenredig ‘straffen’. Die overhead maakt in relatieve zin namelijk een groter deel uit van het geheel van de gecomprimeerde tekst. De resultaten zijn vergelijkbaar met die van de zlib-library in Python die wordt gebruikt door Parada-Cabaleiro et al. (2024) en met de compress-functie in de R-package zlib, die dan ook gebruikt zijn om de ratio’s te evalueren, overigens bij een standaardcompressieniveau van 6 (1-9).

In de nabije toekomst wil ik ook het Lempel-Ziv-Welch-algoritme implementeren, zoals dat wordt gebruikt in het onderzoek waarover het Nature-artikel van Parada-Cabaleiro et al. (2024) gaat. Wordt vervolgd dus.

Loopband 'uitgespeeld' – nu echt

05 June 2025 — Posted in Sport by Alex

Toen bleek dat mijn loopband, een Finnlo Technum IV, er na honderd minuten mee stopt (zie deze post), heb ik toch maar even contact met de fabrikant gezocht. De contactpersoon aldaar heeft wat navraag gedaan en gaf uiteindelijk aan dat 'the maximum preset workout time for this model is 100 mins. It cannot be adjusted.' Ik was er al een beetje bang voor, maar echt erg is het natuurlijk ook weer niet.

enter image description here

Run end... of toch niet?

Ik wilde vandaag iets langer lopen dan honderd minuten en wat bleek? Je kunt de melding wegdrukken door vijf seconden op de stoptoets te drukken. Als je daarna op Go drukt en snel de snelheid instelt met een preset, dan ben je in een paar seconden weer up and running.

MATTR added to the Lexical Diversity Calculator

04 June 2025 — Posted in Taal & Literatuur by Alex

Last week, I implemented the calculation of MATTR (Moving Average TTR) into the Lexical Diversity Calculator. MATTR calculates the mean TTR for successive windows of a text (Covington & McFall, 2010), getting, at least that is the idea, a more stable indication of lexical diversity. While that’s not entirely the case (see Bestgen, 2025), you can still test it at https://www.reuneker.nl/ld.

enter image description here

Photo by Sean Nufer on Unsplash

Next: implementing a compression-rate measure to operationalize text repetiveness for what hopefully becomes a project together with Vivien Waszink!