Website van Alex Reuneker over taal, hardlopen, wielrennen en reizen

Flesch-Kincaid Reading Ease Score (FLES) added to Lexical Diversity Tool

I added the Flesch-Kincaid Reading Ease Score (FRES) to the Lexical Diversity Tool. This metric calculates the difficulty of a texts based on the number of syllables, words and sentences in a text. The lower the score, the more difficult a text is to read. In the screenshot below you'll see the Flesch-Kincaid Reading Ease Score for the text Minder eten weggegooid dan eerdere jaren for a Dutch news text for children (Jeugdjournaal). Compared to the news text for the same topic, but written for Dutch adults, the Flesch-Kincaid Reading Ease Score is much higher (73.41 vs 46.65 respectively).

Flesch-Kincaid Reading Ease Score

Flesch-Kincaid Reading Ease Score

The tool now also list the number of sentences in a text, as well as the average word length in number of syllables, and (optionally) a list of words and their number of syllables. The measure only works for Dutch texts (for now), because the (still imperfect, but good enough) splitting up of words into their syllables is based on the Dutch language. You can check it out now at https://www.reuneker.nl/files/ld.

A last note is that I am contemplating taking readability measures like this out of the Lexical Diversity Tool, because lexical diversity and readability are related, but certainly not the same. The tool also becomes a bit chaotic and cluttered, so the more reason to give readability its own calculator page some day.

De taal van een dichter: lexicale diversiteit in de genres van Lieke Marsman

In samenwerking met Livia Rijkels voor Jong Neerlandistiek. Dit stuk is een bewerking van een paper dat Livia schreef voor de eerstejaarscursus Taal & Media, onderdeel van de bachelor Nederlandse Taal & Cultuur aan de Universiteit Leiden.

Lieke Marsman, voormalig Dichter des Vaderlands (2021-2023), overleed deze week op vijfendertigjarige leeftijd. Ze schreef meerdere dichtbundels, een roman en een filosofische essaybundel, die allemaal geprezen werden om de experimentele stijl en creatieve omgang met taal.

De volgende scan duurt vijf minuten

Gedichten en een essay in Marsmans 'De volgende scan duurt vijf minuten' (2018). Afbeelding van Uitgeverij Pluim.

Vaak wordt gedacht dat poëtisch taalgebruik afwijkend en ingewikkeld is (Van Alphen, Duyvendak, Meijer & Peperkamp, 1996). Marsmans diverse oeuvre nodigt uit om te bekijken in hoeverre de woordenschat in haar dichtwerk afwijkt van haar proza en essayistisch werk. Om dat te onderzoeken, stelde ik voor het eerstejaarsvak Taal & Media drie kleine steekproeven samen: willekeurige selecties van steeds tien pagina’s uit de dichtbundel In mijn mand (2021), de roman Het tegenovergestelde van een mens (2017) en de essaybundel Op een andere planeet kunnen ze me redden (2025). Voor elke pagina in de steekproeven berekende ik de lexicale diversiteit in termen van MTLD of Measure of Textual Lexical Diversity, een maat die goed bestand is tegen verschillen in tekstlengte en lokale woordherhaling (zie Reuneker, Waszink & Van der Wouden, 2017). De metingen vergeleek ik door middel van een ANOVA-toets, om te kijken of ze, per genre in Marsmans werk, verschilden. In figuur 1 zie je dat er inderdaad verschillen zijn, maar die blijken (net) niet significant (F(2, 27) = 2.84, p = 0.07).

MTLD-scores in Marsmans poëzie, roman en essays

Figuur 1. MTLD-scores in Marsmans poëzie, roman en essays

Het verraste me enigszins dat Marsmans dichtwerk in In mijn mand het laagst scoort op lexicale diversiteit (81,72), gevolgd door de roman Het tegenovergestelde van een mens (102,18) en de essays in Op een andere planeet kunnen ze me redden (114,67). In figuur 1 is echter te zien dat de waarden in de steekproeven flinke variatie vertonen en dat de genres overlappen. Uit post-hocvergelijkingen blijkt dan ook dat de drie genres bij Marsman onderling niet significant verschillen in woordenschat.

De resultaten van dit kleine onderzoekje plaatsen een (eveneens kleine) kanttekening bij het idee dat poëtisch taalgebruik wezenlijk anders is dan ‘ander taalgebruik’. Het werk van Marsman laat dat, ook in de week van haar veel te vroege dood, goed zien. Zij leek zich niet te conformeren aan genreconventies: in haar dichtwerk noemt ze filosofen en hun denkwijzen, in de roman staan sommige hoofdstukken in dichtvorm en zowel de roman als de essaybundel bevat persoonlijke dagboekfragmenten, wederom met filosofische mijmeringen.

Wat de resultaten wellicht laten zien, is niet de afwezigheid van verschillen in woordenschat tussen genres, maar de aanwezigheid van Marsmans eigen, consistente stijl die door genregrenzen heen breekt. Zo schreef NRC vandaag dat haar poëzie ‘altijd helder, fris en toegankelijk’ was, ‘zonder daarbij hoge barrières of drempels op te werpen. […] Voor haar essayistiek gold hetzelfde […].’ Hoewel woordgebruik invloed heeft op de beeldvorming van literatuur, liet Lieke Marsman in haar werk zien dat je je niet hoeft te houden aan genreconventies, dat je de grenzen zelf bepaalt. Dat woorden essentieel zijn, zei ze zelf misschien wel het treffendst in De volgende scan duurt vijf minuten (2018):

Op andere momenten word ik overspoeld door wanhoop van de ergste soort, de soort die zich karakteriseert door een gebrek aan woorden: wanhoop die je alleen nog maar kunt omschrijven met het woord wanhoop.

De waarde van een tekst zit niet in het meetbare, in een toch enigszins afstandelijke benadering als lexicale diversiteit, maar in de daadwerkelijke, individuele lezing. In Zomergasten (2022) zei Marsman: ‘Ik wil een oproep tot leven zijn’. Laat dit stukje, ter nagedachtenis aan Lieke Marsman, een bescheiden oproep tot lezen zijn, een oproep haar werk – gedicht, verhaal of essay – er dit weekend nog eens bij te pakken en de woorden, haar woorden, op ons in te laten werken.

Livia Rijkels is student Nederlandse Taal en Cultuur aan de Universiteit Leiden. Dit artikel is bewerking die zij met Alex Reuneker maakte van ze een paper dat zij schreef voor zijn eerstejaarscursus Taal & Media.

Lexical coverage added to Lexical Diversity Tool

I added a measure (somewhat) known as 'lexical coverage' to the Lexical Diversity Tool. This measure represents the percentage of words that occur in a list words from all Dutch newspaper texts in the SoNaR-500 corpus that, together, make up for 77 percent of all tokens in that corpus (although other corpora are used, see Staphorsius, 1994; Kraf, Lentz & Pander Maat, 2011). The higher this percentage, the easier the text, because more words may be supposed to be read before and thus 'known'. Although this definitely says something about the lexical diversity (perhaps indirectly) of a text, it is used primarily to assess the reading difficulty of a text (see also Adolphs & Schmitt, 2003; Van Zeeland & Schmitt, 2013).

Lexical coverage added to Lexical Diversity Tool

Lexical coverage added to Lexical Diversity Tool

Because I have used of the (Dutch newspaper subcorpus of the) SoNaR-500 as a reference corpus, the measure only works for Dutch texts – for now at least. Although the implementation is still a bit rough, it is workable and correct, but be aware it is still in development.

New Boards of Canada album out

  in Overig
 

The new record by Boards of Canada, as Scottish music duo, is out today! I've been a fan a long time, altough I'm not as obsessed as some others, who search for mathematical patterns in the music, trace all samples et cetera. I did, however, ponder over going to Berlin last week for the so-called 'pre-release' party, but I decided not to. Instead, yesterday the 28th of May, I went to a 'listening party' at Sounds in Delft.

Boards of Canada display at Sounds, Delft

Boards of Canada display at Sounds, Delft

It was a great experience listening to the album, Inferno, in full together with other enthusiasts. As with most Boards of Canada albums, it probably has to grow on me, but it certainly did not disappoint.

After listening to the full album, a canvas photo was handed out in a draw.

After listening to the full album, a canvas photo was handed out in a draw. (I didn't win, it didn't matter.)

Although sitting on the hard floor for the full length of the double LP wasn't very comfortable with a broken colar bone and sling to support my arm and shoulder, it was still worth it – I had nice, music-nerdy conversations with others and we got some nice goodies from the friendly record store owners/label.

As I had already ordered my vinyl directly from Bleep, the record label, I took the Friday night to sit down in our study, put on a pair of really good headphones, and listen to the whole album on vinyl again, in all the peace and quietness of our home.

A nice place to listen to the record

A nice place to listen to the record

As the music is kind (?) of esoteric, and I'm, unfortunately, still a bit hazey from the painkillers, it was easy to get in the mood and thoroughly experience in the album in full. Call me a nerd, but I really enjoyed it and I felt grateful for that.

Referentiecorpus SoNaR-500 toegevoegd aan Keyword Analysis-tool

Gisteren en vandaag was ik bezig met een woordfrequentielijst van het SoNaR-corpus (Oostdijk et al., 2013). Die lijst heb ik nodig om de Lexical Diversity-tool uit te breiden, maar ik heb het SoNaR vast als referentiecorpus toegevoegd aan de Keyword Analysis-tool.

Je kunt nu dus kiezen om trefwoorden in je (Nederlandse) tekst op te sporen door de tekst te vergelijken met het toch wel oude en veel kleinere CONDIV-corpus, of met het SoNaR-corpus. Andere beschikbare referentiecorpora zijn het BNC voor het (Brits) Engels, een Nederlandstalig popcorpus en een eveneens Nederlandstalig rapcorpus. Je kunt uiteraard ook nog steeds zelf een referentiecorpus toevoegen – dat is makkelijker dan je wellicht denkt!

In de onderstaande afbeelding kun je zien dat bijvoorbeeld het woord herkomstlanden significant vaker voorkomt in het NOS-artikel Onderzoek: deel collectie Oranjes mogelijk onrechtmatig verkregen dan in het SoNaR-corpus en dus iets zegt over de het artikel; het is een trefwoord of keyword.

Trefwoorden in vergelijking met het SoNaR-corpus

Trefwoorden in vergelijking met het SoNaR-corpus

Opmerkingen bij deze toevoeging zijn dat alleen Nederlandse krantenteksten zijn gebruikt voor de frequentielijst en, met het oog op processing in JavaScript en bestandsgroottes, alleen woorden die tien keer of vaker voorkwamen zijn meegenomen.

Je kunt de uitgebreide tool uiteraard direct gebruiken op https://www.reuneker.nl/files/keyword.

Pagina 1 of 71