sonar - Alex Reuneker

Lexical coverage added to Lexical Diversity Tool

I added a measure (somewhat) known as 'lexical coverage' to the Lexical Diversity Tool. This measure represents the percentage of words that occur in a list words from all Dutch newspaper texts in the SoNaR-500 corpus that, together, make up for 77 percent of all tokens in that corpus (although other corpora are used, see Staphorsius, 1994; Kraf, Lentz & Pander Maat, 2011). The higher this percentage, the easier the text, because more words may be supposed to be read before and thus 'known'. Although this definitely says something about the lexical diversity (perhaps indirectly) of a text, it is used primarily to assess the reading difficulty of a text (see also Adolphs & Schmitt, 2003; Van Zeeland & Schmitt, 2013).

Lexical coverage added to Lexical Diversity Tool

Lexical coverage added to Lexical Diversity Tool

Because I have used of the (Dutch newspaper subcorpus of the) SoNaR-500 as a reference corpus, the measure only works for Dutch texts – for now at least. Although the implementation is still a bit rough, it is workable and correct, but be aware it is still in development.

Referentiecorpus SoNaR-500 toegevoegd aan Keyword Analysis-tool

28 May 2026 in Taal & Literatuur
sonar 500 corpus referentie keyword analysis

Gisteren en vandaag was ik bezig met een woordfrequentielijst van het SoNaR-corpus (Oostdijk et al., 2013). Die lijst heb ik nodig om de Lexical Diversity-tool uit te breiden, maar ik heb het SoNaR vast als referentiecorpus toegevoegd aan de Keyword Analysis-tool.

Je kunt nu dus kiezen om trefwoorden in je (Nederlandse) tekst op te sporen door de tekst te vergelijken met het toch wel oude en veel kleinere CONDIV-corpus, of met het SoNaR-corpus. Andere beschikbare referentiecorpora zijn het BNC voor het (Brits) Engels, een Nederlandstalig popcorpus en een eveneens Nederlandstalig rapcorpus. Je kunt uiteraard ook nog steeds zelf een referentiecorpus toevoegen – dat is makkelijker dan je wellicht denkt!

In de onderstaande afbeelding kun je zien dat bijvoorbeeld het woord herkomstlanden significant vaker voorkomt in het NOS-artikel Onderzoek: deel collectie Oranjes mogelijk onrechtmatig verkregen dan in het SoNaR-corpus en dus iets zegt over de het artikel; het is een trefwoord of keyword.

Trefwoorden in vergelijking met het SoNaR-corpus

Trefwoorden in vergelijking met het SoNaR-corpus

Opmerkingen bij deze toevoeging zijn dat alleen Nederlandse krantenteksten zijn gebruikt voor de frequentielijst en, met het oog op processing in JavaScript en bestandsgroottes, alleen woorden die tien keer of vaker voorkwamen zijn meegenomen.

Je kunt de uitgebreide tool uiteraard direct gebruiken op https://www.reuneker.nl/files/keyword.