Website van Alex Reuneker over taal, hardlopen, wielrennen en reizen

Gemiddelde woord- en zinslengte

— Posted in Taal & Literatuur by

Nog een kleine toevoeging aan de Lexical Diversity Calculator: je krijgt nu, na het analyseren van je tekst, ook de gemiddelde zinslengte (in woorden) en de gemiddelde woordlengte (in letters/tekens). (Ook de standaarddeviaties worden daarbij gerapporteerd. Zie overigens Grzybek, 2014 voor een interessant literatuuroverzicht over woordlengte.) Voor sommige onderzoekers is dat nuttig, bijvoorbeeld om te kijken of kinderen steeds langere woorden en zinnen kunnen begrijpen (zie bijvoorbeeld George & Tomasello, 1984 en, een stuk recenter, Potratz, Gildersleeve-Neumann & Redford, 2022).

Een simpel voorbeeldje. Zowel de website van de NOS als de website van het Jeugdjournaal rapporteert over de bekendmaking van het nieuwe goede doel van 3FM Serious Request.

Nieuwsbericht van het Jeugdjournaal

Nieuwsbericht van het Jeugdjournaal

De gemiddelde zinslengte in het NOS-artikeltje is 15.89 woorden en in het Jeugdjournaal-artikeltje 10.75 woorden. Wat betreft woordlengte is die bij de NOS 5.15 letters, bij het Jeugdjournaal 4.76 letters.

Analyse van Jeugdjournaal-tekstje

Analyse van het Jeugdjournaal-tekstje over 3FM Serious Request

Zinnen en woorden in teksten voor volwassen lijken dus inderdaad langer dan in teksten voor kinderen. De artikeltjes zijn echter veel (en veel!) te kort om echte uitspraken op te kunnen baseren (niet representatief, hoge standaarddeviatie uiteraard), maar dit was dan ook slechts een simpel en klein voorbeeldje.

MATTR added to the Lexical Diversity Calculator

— Posted in Taal & Literatuur by

Last week, I implemented the calculation of MATTR (Moving Average TTR) into the Lexical Diversity Calculator. MATTR calculates the mean TTR for successive windows of a text (Covington & McFall, 2010), getting, at least that is the idea, a more stable indication of lexical diversity. While that’s not entirely the case (see Bestgen, 2025), you can still test it at https://www.reuneker.nl/ld.

enter image description here

Photo by Sean Nufer on Unsplash

Next: implementing a compression-rate measure to operationalize text repetiveness for what hopefully becomes a project together with Vivien Waszink!

Improvements to the Lexical Diversity Calculator

— Posted in Taal & Literatuur by

In the last couple of days, I've been implementing various improvements to the Lexical Diversity Calculator. Not only did I fix a problem in the calculation of MTLD, which resulted in numbers that were slightly off, but I've also streamlined the calculations and added the calculation of Moving average TTR (MATTR).

enter image description here

Photo by Siora Photography on Unsplash.

Updates

  • 2025-05-29: Added choice to use natural logarithm or base 10 in calculation Maas's a2, Dugast's U2, and Herdan's C.
  • 2025-05-29: Various improvements to calculations and algorithms; added MATTR.
  • 2025-05-26: Important change to the calculation of MTLD, which was slightly off before due to not averaging the forward and backward algorithm.

Next to this, I'm also working on an R-package to easily calculate several measures of lexical diversity, primarily for a research project I'm envisioning for the near future. Stay tuned! For now, please see the online calculator at https://www.reuneker.nl/ld for the newest version.

Boxplots bij de t-toets

— Posted in Taal & Literatuur by

Wilt u een boxplot bij de t? Flauw, I know, maar dat mag ook wel een keertje. De t-toets-calculator is uitgebreid met boxplots, dus bij elke vergelijking die je nu maakt, verschijnt netjes een grafiek zoals de onderstaande, die hoort bij een vergelijking van (fictieve) examenresultaten.

enter image description here

Boxplot bij een vergelijking van (fictieve) examenresultaten

Het verschil in de scores op het examen Nederlands van 2VA (m = 7.13; sd = 1.3) en 2VB (m = 5.79; sd = 1.37) is significant (t (27) = 2.71; p < 0.05). Het effect is groot (Cohen's d = 1.01; Cohen, 1988). Dat kun je ook mooi in de grafiek zien; de medianen liggen niet in het bereik van de eerste twee kwartielen (de boxes) en de verdere spreiding (de whiskers) wijken aardig van elkaar af.

Kleine updates voor de chikwadraatcalculator

— Posted in Taal & Literatuur by

De chikwadraattoetscalculator heeft een paar kleine updates ondergaan.

  • 15-4-2025: De resultatentabel wordt omgezet naar ASCII-formaat en meegekopieerd met de rapportage.
  • 12-4-2025: Een p-waarde lager dan 0.001 wordt, conform APA, als p < 0.001 gerapporteerd. Ook is er een knop toegevoegd om voorbeeldwaarden in te voeren.

enter image description here

Naast de nette HTML-tabel nu ook een te kopiëren tabel in platte tekst (ASCII).

Je kunt de chikwadraatcalculator eenvoudig gebruiken op https://www.reuneker.nl/chi.

Pagina 1 of 3