Eerste algemene zeventiende-eeuwse Nederlandse HTR-model gepubliceerd!

Historische datum 22-12-2021

De afgelopen jaren zijn er in ons project Crowd Leert Computer Lezen enorm veel scans getranscribeerd. Een groot deel van deze scans zijn gebruikt in een Transkribus-model dat samen met Chronicling Novelty is gemaakt en dat nu voor alle gebruikers van Transkribus gratis beschikbaar wordt gemaakt. Een droom wordt daarmee werkelijkheid: de lastig leesbare handschriften uit de zeventiende eeuw zijn voortaan automatisch te lezen!

Doelen Crowd Leert Computer Lezen
Crowd Leert Computer Lezen kent verschillende doelstellingen: het opleveren van zoveel mogelijk gecontroleerde transcripties voor rechtstreeks onderzoek is een eerste, het maken van specifieke handschriftherkenningsmodellen per notaris een tweede. Die laatste modellen zijn erg handig om hele corpora van notarisprotocollen automatisch te transcriberen met behulp van de Handwritten Text Recogntion (HTR) van Transkribus. Een derde doel is de realisatie van algemene modellen. Want hoe fijn zou het zijn als we niet voor ieder handschrift een nieuw model hoeven te trainen maar deze gewoon meteen al behoorlijk kunnen lezen met een algemeen model? Eind 2019 publiceerden het Stadsarchief Amsterdam en het Nationaal Archief daarom al ' Dutch Mountains', een algemeen HTR-model in Transkribus dat vrij goed achttiende-eeuwse handschriften kan ontcijferen.

De zoektocht naar een algemeen model voor de zeventiende eeuw bleef ondertussen onverminderd doorgaan. Want zijn die zeventiende-eeuwse handschriften voor een leek feitelijk onleesbaar, ook doorgewinterde historici worstelen er nogal eens mee. In de loop van 2021 werd duidelijk dat zowel Chronicling Novelty als Crowd Leert Computer Lezen dankzij het noeste invoerwerk van vrijwilligers op VeleHanden serieuze hoeveelheden zeventiende-eeuws trainingsmateriaal aan het opleveren waren zodat samenwerking interessant werd.

Het interdisciplinaire onderzoeksproject Chronicling Novelty (1500-1850) onderzoekt hoe nieuwe ideeën en kennis bij gewone mensen in de Lage Landen terechtkwamen, en of die daardoor positiever over innovatie gingen denken dan hun voorouders. Daarbij wordt gebruik gemaakt van –de naam zegt het al- kronieken, die uit alle windstreken van de Lage Landen komen. Een hartstikke interessant corpus dat mede vanwege haar geografische spreiding over hedendaags Nederland en België echt iets toevoegt aan notarisakten die alleen in Amsterdam werden opgesteld.

'Met 4842 scans met daarop 1.891.025 getranscribeerde woorden is dit in één klap het grootste model voor Nederlandstalig materiaal'

'Dutch_XVII_Century'
In het nieuwe Transkribus-model 'Dutch_XVII_Century' is een evenwichtige balans gezocht tussen handschriften van enerzijds Crowd Leert Computer Lezen en anderzijds Chronicling Novelty. Per handschrift zijn niet meer dan 300 scans aan dit algemene model toegevoegd. Het Stadsarchief Amsterdam leverde op deze manier trainingsmateriaal aan van veertien zeventiende-eeuwse notarissen: Bruijningh, Mathijsz, Westfrisius, Schaef, De Winter, Van der Groe, Anthony van de Ven, Van Sevenhoven, Des Pommare, Borsselaer, Pondt, De Vos, Joost van de Ven en Venkel. Chronicling Novelty leverde twintig verschillende kronieken, te weten uit: Antwerpen (1643), Den Bosch (1604), Brugge (1675, 1684), Brussel (1681), Gent (1666, 1668, 1668), Hauwert (1636), Ieper (1695), Leeuwarden (1671, 1697), Mechelen (1657, 1665), De Rijp (1652), Rotterdam (1648, 1658, 1663, 1690) en Zwolle (1681). In totaal bestaat het trainingsmateriaal voor het model 'Dutch_XVII_Century' uit scans 2965 van notarisakten en 1877 scans van kronieken. Tezamen goed voor 4842 scans met daarop 1.891.025 getranscribeerde woorden. Daarmee is in één klap het grootste model voor Nederlandstalig materiaal en behoort het tot de grootste modellen in Transkribus.

Het eerste algemene zeventiende-eeuwse model voor Nederlands lijkt behoorlijk goed. De foutenmarge (ook wel Character Error Rate –kortweg CER- genoemd) bedraagt 6,28%. Het is getest op andersoortig materiaal zoals dagboeken en akten en de resultaten daarvan zijn veelbelovend. Nieuwsgierig geworden hoe goed dit model uw zeventiende eeuwse bronnen transcribeert? Test dan hier of hier het nieuwe model (respectievelijk HTR+ en PyLaia)!

Naast dit nieuws heeft het Stadsarchief ook nog eens alle meer dan 15.000 scans van notaris David Stafmaeker Varlet automatisch laten transcriberen. Deze zijn nu ook opgenomen in de Read&Search van het Stadsarchief Amsterdam. Klik hier voor een compleet overzicht van alle 348.546 scans die nu in deze zoekomgeving zijn opgenomen!

Tags

17e eeuwCLCLHandschrifherkenningTranskribus
Deel artikel

     
   Gerelateerde artikelen