Historisch Nederlands: tools en data

 

Tools

Meer weten

Data

Meer weten

 
 

 

Meer weten: tools

Het INT stelt diverse taalmaterialen ter beschikking. Hieronder een selectie van tools die relevant zijn voor het werken met historisch taalmateriaal.

 • Attestation tool
  Multifunctionele, downloadbare gebruikersinterface voor de productie van computationele lexica, inclusief gouden standaard voor named entity tagging
 • Autosearch
  Een tool om geannoteerde teksten te uploaden (voorzien van lemma's en woordsoortinformatie in TEI- of FoLiA-formaat), één of meerdere corpora te definiëren en deze te doorzoeken
 • CoBaLT
  Applicatie om een verzameling tekstbestanden in te laden en taalkundig te annoteren
 • INL Labs
  Webservice voor het taggen/lemmatiseren van (historische) teksten met o.a. een tagger voor eigennamen (named entities) en een tagger speciaal getraind voor historisch materiaal
 • MBMP-morphological-parse
  Een geheugengebaseerde morfologische parser voor de programmeertaal Python, trainbaar op historisch materiaal
 • Philosophical Integrator of Computational and Corpus Libraries (PICCL)
  PICCL is een webgebaseerde en commandline tool die een workflow aanbiedt voor het samenstellen van corpora door OCR, post-correctie, normalisatie en taalkundige verrijking

 

Meer weten: data

Het INT stelt diverse taalmaterialen ter beschikking. Hieronder een selectie van datasets van historisch taalmateriaal die downloadbaar zijn.

 • Benchmark set
  Set voor historische morfologie, van ongeveer 5000 morfologisch geanalyseerde woordvormen evenredig verspreid over de tijd
 • Brieven als buit – Gouden Standaard
  De circa 1000 met hoofdwoordsoort en modern lemma verrijkte bronbestanden van het Brieven als Buit-programma, geleid door prof. dr. M.J. van der Wal
 • Corpus Gysseling
  Verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek, verrijkt met woordsoort en modern lemma; gouden standaard
 • Corpus Middelnederlands
  Een verzameling van ca. 350 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (grotendeels oorspronkelijk gepubliceerd op de cd-rom Middelnederlands)
 • Eindhoven-corpus
  Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976, verrijkt met woordsoort en modern lemma
 • INT Historische Woordenlijst
  Twee lijsten met elk ca. 500.000 historische woordvormen ten behoeve van OCR en OCR-postcorrectie, voor de periode ca. 1550 - ca. 1970
 • INT IMPACT NE Lexicon
  Lexicon voor het Nederlands, met historische namen en varianten uit de periode 1750-1945

Handleidingen voor taalkundige verrijking (diachroon perspectief)

 

Op deze website maken wij gebruik van cookies.