Website van Alex Reuneker over taal, hardlopen, wielrennen en reizen

Taal & Literatuur

Posts over taal en literatuur

Lexicale diversiteit en herhaling: compressieratio

— Posted in Taal & Literatuur by

De Lexical Diversity Calculator berekent nu ook de zogenaamde compression rate; de ratio tussen de lengte van een gecomprimeerde tekst en die van de originele, ongecomprimeerde versie van een tekst. Het idee daarachter is vrij simpel: door een tekst te comprimeren, verklein je het aantal tekens of bytes dat nodig is om de tekst op te slaan. Dat werkt ongeveer als volgt.

Een tekst bestaat uit woorden en de meeste woorden bestaan uit meerdere tekens. Het woord langeafstandsloper bijvoorbeeld is opgebouwd uit achttien letters. Als dat woord tien keer voorkomt in een tekst, ‘kost’ je dat dus 180 tekens/bytes. Als je een tekst comprimeert, schrijf je een soort woordenboekje bij een tekst, waarin bijvoorbeeld staat dat de letter a eigenlijk staat voor langeafstandsloper. Dat kost je initieel wat opslag, maar elke keer dat het woord daarna voorkomt, bespaar je maar liefst zeventien tekens. Dat scheelt aanzienlijk. Je neemt in dit voorbeeld immers achttien keer de letter a op in plaats van langeafstandsloper en dat kost je in totaal achttien bytes, een stuk minder dan de 180 bytes in de originele tekst.

Terug naar het nut van een compressiealgoritme in het licht van lexicale diversiteit; het idee in onderzoek naar herhaling in tekst, zie bijvoorbeeld Parada-Cabaleiro et al. (2024) en Nunes, Ordanini en Valsesia (2017), is dat je herhaling kunt ‘meten’ door de compressieratio te berekenen. Hoe meer een tekst gecomprimeerd kan worden, hoe meer herhaling erin moet zitten. Dit is uiteraard best een grove maat van herhaling, maar het voordeel is dat je niet hoeft te bepalen of herhaling zich voordoet op woord-, zins- of een nog ander niveau – die vraag is immers lastiger te beantwoorden dan je misschien zou denken en er zitten theoretisch ook nog wel wat haken en ogen aan.

enter image description here

Photo by Jackie Alexander on Unsplash

De compressieberekening in de Lexical Diversity Calculator wordt uitgevoerd met de deflatie-functie uit zlib in plaats van gzcompress, omdat die laatste functie metadata (headers) toevoegt die korte teksten onevenredig ‘straffen’. Die overhead maakt in relatieve zin namelijk een groter deel uit van het geheel van de gecomprimeerde tekst. De resultaten zijn vergelijkbaar met die van de zlib-library in Python die wordt gebruikt door Parada-Cabaleiro et al. (2024) en met de compress-functie in de R-package zlib, die dan ook gebruikt zijn om de ratio’s te evalueren, overigens bij een standaardcompressieniveau van 6 (1-9).

In de nabije toekomst wil ik ook het Lempel-Ziv-Welch-algoritme implementeren, zoals dat wordt gebruikt in het onderzoek waarover het Nature-artikel van Parada-Cabaleiro et al. (2024) gaat. Wordt vervolgd dus.

MATTR added to the Lexical Diversity Calculator

— Posted in Taal & Literatuur by

Last week, I implemented the calculation of MATTR (Moving Average TTR) into the Lexical Diversity Calculator. MATTR calculates the mean TTR for successive windows of a text (Covington & McFall, 2010), getting, at least that is the idea, a more stable indication of lexical diversity. While that’s not entirely the case (see Bestgen, 2025), you can still test it at https://www.reuneker.nl/ld.

enter image description here

Photo by Sean Nufer on Unsplash

Next: implementing a compression-rate measure to operationalize text repetiveness for what hopefully becomes a project together with Vivien Waszink!

'Op slot, buit eruit' – oude wijn in nieuwe zakken?

— Posted in Taal & Literatuur by

In 2017 schreef ik in Onze Taal over het onderstaande verkeersbord met de tekst 'Op slot, buit eruit.' Als kind al vond ik dat een fascinerend bord – ik begreep niet wat ermee bedoeld werd en ik begreep ook niet waarom ik dat niet begreep. (Als je het originele stukje wilt lezen, kan dat op de website van Onze Taal en op Taaluniebericht.)

enter image description here

Het standaardbord 'Op slot, buit eruit'

Nu ging ik onlangs wielrennen met een vriend die in Nijmegen woont en we spraken zo ongeveer in het midden af – in Meteren, net onder Geldermalsen. Op de parkeerplaats van het restaurant 3 Zussen zag ik tot mijn verbazing het volgende bord.

enter image description here

Een variant van het standaardbord 'Op slot, buit eruit'

Of het een verbetering is, mag je natuurlijk zelf bepalen, maar de argumenten tegen het bord, dat, zoals elk verkeersbord, natuurlijk in één oogopslag duidelijk moet zijn, gelden eigenlijk ook voor dit bord. De vorm lijkt nieuw, maar de inhoud is vrijwel ongewijzigd; alleen de afwezigheid van de 'achtergrondpijl' zou een verbetering kunnen zijn, want daarmee zou de suggestie van een oorzakelijk verband weg kunnen vallen.

Kortom: oude wijn in nieuwe zakken.

Improvements to the Lexical Diversity Calculator

— Posted in Taal & Literatuur by

In the last couple of days, I've been implementing various improvements to the Lexical Diversity Calculator. Not only did I fix a problem in the calculation of MTLD, which resulted in numbers that were slightly off, but I've also streamlined the calculations and added the calculation of Moving average TTR (MATTR).

enter image description here

Photo by Siora Photography on Unsplash.

Updates

  • 2025-05-29: Added choice to use natural logarithm or base 10 in calculation Maas's a2, Dugast's U2, and Herdan's C.
  • 2025-05-29: Various improvements to calculations and algorithms; added MATTR.
  • 2025-05-26: Important change to the calculation of MTLD, which was slightly off before due to not averaging the forward and backward algorithm.

Next to this, I'm also working on an R-package to easily calculate several measures of lexical diversity, primarily for a research project I'm envisioning for the near future. Stay tuned! For now, please see the online calculator at https://www.reuneker.nl/ld for the newest version.

Langs het Pykeswegje

— Posted in Taal & Literatuur by

Onlangs fietste ik van Schiedam naar Kapelle, Zeeland om (oud-)collega en sportvriendin Louise Cornelis te bezoeken. Van tevoren zag ik op de kaart dat ik praktisch langs het Pykeswegje 1 in Goes zou komen – het huis waar dichter Hans Warren vanaf 1957 woonde. Ik las er het onderstaande gedicht en schreef er een stukje over op dé website over Hans Warren.

Verval
Hier was het. Rust is weergekeerd.
Mijn drift die al tot weemoed wordt
heeft, hoop ik, je niet meer bezeerd.
De bloemen zijn al lang verdord,
je beeld is als een kiek vergeeld,
je naam stierf in ‘t bladergeruis.
Hier hebben we ons geluk verspeeld,
kijk: mos woekert al over ‘t huis.

Zie de hele blogpost op http://www.hanswarren.nl/langs-het-pykeswegje/.

enter image description here

Even tot rust komen aan het Pykeswegje 1

Pagina 1 of 9