Website van Alex Reuneker over taal, hardlopen, wielrennen en reizen

Mann-Whitney-U-toets

Onlangs voegde ik aan de T-toets-en-Cohen's-d-calculator de Lilliefors-toets toe (zie https://www.reuneker.nl/2026/04/lilliefors-toets-toegevoegd-aan-t-toets-calculator), om te toetsen op een voorwaarde van de t-toets, namelijk of de data een normaaldistributie volgen. Het leek me handig om er echter ook gevolg aan te geven, want hoewel de Lilliefors-resultaten netjes werden gerapporteerd, werd ook bij niet voldoen aan de bovenstaande voorwaarde toch de parametrische t-toets uitgevoerd.

Vanaf nu geeft de calculator, naast de resultaten van de parametrische t-toets, ook de resultaten van de non-parameterische Mann-Whitney-U-toets weer, met daarbij de effectgrootte in Rank-Biserial-correlatie en Cliff's Delta, en wordt de rapportage aangepast op de resultaten van de Lilliefors-toets.

Resultaten van de Mann-Whitney-U-toets

Resultaten van de Mann-Whitney-U-toets

Lilliefors-toets toegevoegd aan t-toets-calculator

Omdat mijn eerstejaarscollege over onder andere de t-toets er weer aankomt, heb ik de code van de T-toets-en-Cohen's-d-calculator nog eens goed bekeken en er wat verbeteringen in aangebracht. Een grote wijziging is de toevoeging van een toets voor normaalverdeling van de data. Ik wilde daarvoor, zoals gebruikelijk is, de Shapiro-Wilk-toets implementeren, maar dat blijkt in PHP nogal lastig te zijn, omdat de berekening afhankelijk is van allerlei matrices en statistieken die niet in PHP ingebed zijn. Daarom heb ik de Lilliefors-toets toegevoegd, die, qua uitkomst althans, ongeveer hetzelfde doet.

De Lilliefors-toets is een variant van de Kolmogorov-Smirnov-toets die wordt gebruikt om te toetsen of data afkomstig zijn uit een normaalverdeling wanneer het gemiddelde en de standaarddeviatie uit de data zelf worden geschat. Het is belangrijk zo'n toets te doen voordat je een t-toets op je data loslaat, omdat die toets uitgaat van normaal verdeelde data. Als die aanname niet klopt, kunnen de resultaten van de t-toets onbetrouwbaar zijn.

Rapportage van onder andere de Lilliefors-toets

Rapportage van onder andere de Lilliefors-toets

Nou ja, een enigszins technisch verhaal, maar gelukkig doet de T-toets-en-Cohen's-D-calculator al het werk en krijg je netjes een rapportage waarin de resultaten van zowel de Lilliefors-toets als de t-toets, waar het uiteindelijk toch om draait, inclusief referenties staan vermeld. Zie https://www.reuneker.nl/files/t.

Tijdsvoorspellingen Zestig van Texel

De laatste looptraining voor de Zestig van Texel zit erop – vanmorgen deed ik een nog korte intervaltraining (6 keer 400 meter op 3:40) en ik voelde me aan het einde best gretig. Dat is wel een goed teken, denk ik.

Zoals eerder geschreven zijn de twee taperweken niet ideaal. Zo had ik veel last van een wortelkanaalbehandeling en uiteindelijk het trekken van kies. Vooral de naweeën van die laatste ingreep, die uiteindelijk beter door een kaakchirurg dan door een tandarts uitgevoerd had kunnen worden, duren nog steeds voort, maar de pijn neemt inmiddels wel wat af en ik neem alleen nog in de avond pijnstillers. Daarbij komt dat ik een ontsteking van de peesschede in mijn linkeronderbeen heb en al is die nog niet verdwenen – het gaat wel de goede kant op. We gaan het zien op Texel.

Lastig is te bedenken op welk tempo ik aanstaande zondag wegga. Uiteindelijk zullen het parcours en de omstandigheden een grote rol spelen, maar het is toch wel fijn iets van een richttempo/-tijd hebben, denk ik. Op de website van de Zestig van Texel geeft Gerrit van Rotterdam in zijn trainingsgids de onderstaande tabel met verwachte eindtijden op basis van (weg)marathontijden.

Verwachte eindtijden Zestig van Texel (bron: Van Rotterdam, Gerrit. Trainen voor de Zestig van Texel.

Verwachte eindtijden Zestig van Texel (bron: Van Rotterdam, Gerrit. Trainen voor de Zestig van Texel.

Omdat er een beperkt aantal marathontijden in staat, heb ik een klein calculatortje gemaakt dat op basis van een zelf in te voeren marathontijd een voorspelling geeft die overeenkomt met de genoemde tabel.

Zestig van Texel-calculator

Zestig van Texel-calculator

Het gaat expliciet om schattingen. Ik houd me dus niet verantwoordelijk voor de voorspellingen of de gevolgen daarvan. Kijk uit en staar je niet blind op de voorspelde tijd! Dat prent ik mezelf ook in.

Je kunt de calculator gebruiken op https://www.reuneker.nl/files/zestig.

Gemiddelde woord- en zinslengte

Nog een kleine toevoeging aan de Lexical Diversity Calculator: je krijgt nu, na het analyseren van je tekst, ook de gemiddelde zinslengte (in woorden) en de gemiddelde woordlengte (in letters/tekens). (Ook de standaarddeviaties worden daarbij gerapporteerd. Zie overigens Grzybek, 2014 voor een interessant literatuuroverzicht over woordlengte.) Voor sommige onderzoekers is dat nuttig, bijvoorbeeld om te kijken of kinderen steeds langere woorden en zinnen kunnen begrijpen (zie bijvoorbeeld George & Tomasello, 1984 en, een stuk recenter, Potratz, Gildersleeve-Neumann & Redford, 2022).

Een simpel voorbeeldje. Zowel de website van de NOS als de website van het Jeugdjournaal rapporteert over de bekendmaking van het nieuwe goede doel van 3FM Serious Request.

(Afbeelding verwijderd.)

De gemiddelde zinslengte in het NOS-artikeltje is 15.89 woorden en in het Jeugdjournaal-artikeltje 10.75 woorden. Wat betreft woordlengte is die bij de NOS 5.15 letters, bij het Jeugdjournaal 4.76 letters.

Analyse van Jeugdjournaal-tekstje

Analyse van het Jeugdjournaal-tekstje over 3FM Serious Request

Zinnen en woorden in teksten voor volwassen lijken dus inderdaad langer dan in teksten voor kinderen. De artikeltjes zijn echter veel (en veel!) te kort om echte uitspraken op te kunnen baseren (niet representatief, hoge standaarddeviatie uiteraard), maar dit was dan ook slechts een simpel en klein voorbeeldje.

MATTR added to the Lexical Diversity Calculator

Last week, I implemented the calculation of MATTR (Moving Average TTR) into the Lexical Diversity Calculator. MATTR calculates the mean TTR for successive windows of a text (Covington & McFall, 2010), getting, at least that is the idea, a more stable indication of lexical diversity. While that’s not entirely the case (see Bestgen, 2025), you can still test it at https://www.reuneker.nl/ld.

enter image description here

Photo by Sean Nufer on Unsplash

Next: implementing a compression-rate measure to operationalize text repetiveness for what hopefully becomes a project together with Vivien Waszink!

Pagina 1 of 3