Eindhoven-corpus 2.5

English

Het Eindhoven-corpus – ook wel Corpus Uit den Boogaart (1975) genoemd – is de eerste verzameling van Nederlandstalige geschreven en (getranscribeerde) gesproken teksten. Het corpus dateert uit de periode van 1960 tot 1973.

Het geschreven deel bevat fragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijk kleiner en bevat circa 120.000 woorden.

In 1989 is aan het Eindhoven-corpus het Renkema-corpus toegevoegd, een corpus met tekstfragmenten van correspondentie tussen de regering en de Staten-Generaal uit het parlementaire jaar 1975–1976.

Versiegeschiedenis vóór de huidige versie

Het oorspronkelijke corpus is gebruikt als bron voor het in 1975 verschenen Woordfrequenties in geschreven en gesproken Nederlands. De versie 2.0.1, beschikbaar via Taalmaterialen van het INT, is aan de VU tot stand gekomen. In de VU-versie is niet alleen het Renkema-corpus toegevoegd, ook is de weergave van de morfosyntactische codering is gewijzigd en zijn er correcties uitgevoerd. Bij de ontwikkeling van de WOTAN 2-tagset heeft Hans van Halteren gedeeltes van het Eindhoven-corpus een upgrade gegeven.

Versie 2.5

Het INT heeft een nieuwe versie van het Eindhoven-corpus gemaakt, waarbij het corpus is omgezet naar TEI-XML en van gestructureerde metadata voorzien. Daarnaast is de lemmatisering aangevuld en is er een reconstructie van het hoofdlettergebruik en de diakritische tekens gedaan met behulp van de Van Halterenversie en GiGaNT-Molex. De PoS-tagging (verrijking met woordsoort) is omgezet naar een met de CGN-tagset nauw verwante tagging, waarbij sommige kenmerken automatisch zijn toegevoegd, en daarna weer gedeeltelijk handmatig gecorrigeerd.

Het Eindhoven-corpus versie 2.5 verschijnt binnenkort online als corpusapplicatie.

Eindhoven Corpus

The Eindhoven Corpus – also known as the Corpus Uit den Boogaart (1975) – is the first collection of Dutch written and (transcribed) spoken texts. The corpus dates from the period 1960-1973.

The written part contains fragments, with a total of 600,000 words, dating from the period 1964-1971. The spoken part is considerably smaller and consists of ca 120,000 words.

In 1989, the Renkema Corpus, a corpus containing text fragments of correspondences between the government and the States General from the parliamentary year 1975-1976, was added to the Eindhoven Corpus.

Version history before the current version

The original corpus was used as a source for the book Woordfrequenties in geschreven en gesproken Nederlands ('Word frequencies in written and spoken Dutch'), which was published in 1975. Version 2.0.1, available as one of our language materials, was created at the VU. Not only was the Renkema Corpus added to the VU version, but the rendition of the morphosyntactic encoding was also altered and several corrections were made. During the development of the WOTAN 2 tagset, Hans van Halteren upgraded parts of the Eindhoven Corpus.

Version 2.5

The Dutch Language Institute has created a new version of the Eindhoven Corpus, for which the corpus has been converted to TEI-XML and been provided with structured metadata. Aside from this, the lemmatisation has been completed, and with the aid of Van Halteren’s version and GiGaNT-Molex, a reconstruction has been made of the use of capital letters and diacritics. The PoS tagging (annotation with part of speech) was converted to a tagset closely related to the CGN tagset, with the automatic addition of certain characteristics, followed by a partially manual correction.

The Eindhoven Corpus version 2.5 will soon appear online as a corpus application.

Op deze website maken wij gebruik van cookies.