HTR-transcripties achttiende-eeuwse akten bijna foutloos


Sinds 2018 experimenteert het Stadsarchief Amsterdam met handschriftherkenning. Onlangs is het eerste 'algemene model' gemaakt waarmee achttiende-eeuwse teksten vrijwel foutloos worden getranscribeerd. De foutmarge voor deze handgeschreven teksten ligt nu tussen de 2 en 5 procent.

Sinds begin 2019 worden de Amsterdamse notariële akten ook getranscribeerd in het Velehanden-project 'Crowd Leert Computer Lezen' (CLCL). Hoewel het VeleHanden-project nog maar een half jaar open staat, is eigenlijk al in 2018 begonnen met het maken van transcripties via Transkribus en via een besloten Velehanden-project. Net als bij het indexeringsproject Alle Amsterdamse Akten, wordt bij CLCL per notaris gewerkt. Op deze wijze werden tot op heden in totaal al van 20 vroegmoderne notarissen transcripties gemaakt en zijn van 18 van hen al één of meerdere modellen gemaakt. Aanvankelijk is ervan uitgegaan dat een set van 100 scans voldoende trainingsmateriaal zou moeten opleveren om goede modellen te maken. Inmiddels weten we dat niet zozeer de hoeveelheid scans, maar vooral de woorddichtheid van belang is om een model van voldoende niveau te krijgen. Op dit moment worden modellen met een foutmarge (Character Error Rate, CER) van ongeveer vijf procent als acceptabel beschouwd. Dit is vergelijkbaar met de foutmarge die OCR ook kent bij het machineleesbaar maken van gedrukte teksten.

Allereerst wordt in het besloten Velehanden-project na het maken van ongeveer 100 scans beoordeeld of het model dat hiervan wordt gemaakt, een acceptabele CER heeft. Als de foutmarge nog te groot is, worden extra scans van dezelfde notaris aan het besloten project project toegevoegd zodat een beter model kan worden gemaakt op basis van meer trainingsmateriaal. Op die wijze staan nu in dit project 15 notarissen met elk 100-623 scans (in totaal circa 5000 scans). Samen met extern gemaakte transcripties (totaal circa 1000 van 5 notarissen) beschikt het Stadsarchief over transcripties van 18 notarissen, waarvan er 12 werkzaam waren in de achttiende eeuw en zes in de zeventiende eeuw. Dat de zeventiende-eeuwers relatief zijn ondervertegenwoordigd is simpelweg het gevolg van de moeilijkere leesbaarheid van akten uit deze periode.

Hoewel inmiddels duidelijk is dat specialistische modellen (een model gebaseerd op scans getraind op één handschrift) meer opleveren dan een algemeen model (een collectie bevat dan meer verschillende handschriften) als je de best mogelijke transcripties van een bepaald handschrift probeert te krijgen. Een algemeen model is met name interessant voor materiaal waarvoor je nu al vrij goede resultaten kan boeken zonder dat je 'from scratch' hoeft te gaan transcriberen. Het transcriberen blijft immers een tijdrovende klus.

Het Stadsarchief Amsterdam heeft deze zomer een algemeen model gemaakt op basis van de 12 18 e eeuwse notarissen. Aan deze set werden nog een de transcripties van een drietal andere notarissen toegevoegd die door Bob Pierik (promovendus in het project Freedom of the Streets) zijn gemaakt. Op deze wijze ontstond een set van in totaal 15 achttiende eeuwse notarissen, die in totaal 2671 scans omvatte met 622.904 woorden omvatte. Op aanraden van Gundram Leifert van de Universiteit van Rostock, die ervaring heeft met het trainen van grote modellen, werd dit model getraind 1000 epochs met maximaal 300 scans per handschrift getraind. Na 52 uur trainen was op 17 juli het model klaar: het kende een erg lage CER van 5.27%. Hiermee is het in theorie het beste algemene Nederlandstalige model op dit moment.

Om vast te stellen hoe goed dit algemene model andere achttiende-eeuwse notariele akten kan transcriberen, hebben we de proef op de som genomen en gekeken wat dit model maakt van twee Amsterdamse notarissen waarvan geen scans in het model zitten. De notarissen Beels en Van der Brugghen waren werkzaam in het laatste decennium van de achttiende eeuw en hebben een op het oog consistent handschrift. Vergelijking van een aantal handmatig getranscribeerde scans van hen met enkele automatisch met het algemene achttiende-eeuwse model gegenereerde scans leert ons dat de CER voor Beels op gemiddeld het extreem lage niveau van 2% ligt (ter vergelijking, dit ligt lager dan het beste specialistische model dat we op dit moment hebben).

Notaris Van der Brugghen scoort iets lager met een gemiddelde CER van 3,76%. Voor beide notarissen geldt dat automatisch gegenereerde teksten van dit niveau vrijwel geen handmatige correctie vereisen. Voor nette achttiende-eeuwse handschriften lijkt dus nu dus een toereikend model te zijn.

Tags

HTRCLCL
Deel artikel

     
Geplaatst op

12 september 2019
Auteur

Redactie
Tags

HTRCLCL
Gerelateerd

Externe link

   Crowd leert computer lezen op Velehanden.nl
Deel artikel

     
   Gerelateerde artikelen