Sinds begin 2019 worden de Amsterdamse notariële akten ook getranscribeerd in het Velehanden-project 'Crowd Leert Computer Lezen' (CLCL). Hoewel het VeleHanden-project nog maar een half jaar open staat, is eigenlijk al in 2018 begonnen met het maken van transcripties via Transkribus en via een besloten Velehanden-project. Net als bij het indexeringsproject Alle Amsterdamse Akten, wordt bij CLCL per notaris gewerkt. Op deze wijze werden tot op heden in totaal al van 20 vroegmoderne notarissen transcripties gemaakt en zijn van 18 van hen al één of meerdere modellen gemaakt. Aanvankelijk is ervan uitgegaan dat een set van 100 scans voldoende trainingsmateriaal zou moeten opleveren om goede modellen te maken. Inmiddels weten we dat niet zozeer de hoeveelheid scans, maar vooral de woorddichtheid van belang is om een model van voldoende niveau te krijgen. Op dit moment worden modellen met een foutmarge (Character Error Rate, CER) van ongeveer vijf procent als acceptabel beschouwd. Dit is vergelijkbaar met de foutmarge die OCR ook kent bij het machineleesbaar maken van gedrukte teksten.
Allereerst wordt in het besloten Velehanden-project na het maken van ongeveer 100 scans beoordeeld of het model dat hiervan wordt gemaakt, een acceptabele CER heeft. Als de foutmarge nog te groot is, worden extra scans van dezelfde notaris aan het besloten project project toegevoegd zodat een beter model kan worden gemaakt op basis van meer trainingsmateriaal. Op die wijze staan nu in dit project 15 notarissen met elk 100-623 scans (in totaal circa 5000 scans). Samen met extern gemaakte transcripties (totaal circa 1000 van 5 notarissen) beschikt het Stadsarchief over transcripties van 18 notarissen, waarvan er 12 werkzaam waren in de achttiende eeuw en zes in de zeventiende eeuw. Dat de zeventiende-eeuwers relatief zijn ondervertegenwoordigd is simpelweg het gevolg van de moeilijkere leesbaarheid van akten uit deze periode.
Hoewel inmiddels duidelijk is dat specialistische modellen (een model gebaseerd op scans getraind op één handschrift) meer opleveren dan een algemeen model (een collectie bevat dan meer verschillende handschriften) als je de best mogelijke transcripties van een bepaald handschrift probeert te krijgen. Een algemeen model is met name interessant voor materiaal waarvoor je nu al vrij goede resultaten kan boeken zonder dat je 'from scratch' hoeft te gaan transcriberen. Het transcriberen blijft immers een tijdrovende klus.
Het Stadsarchief Amsterdam heeft deze zomer een algemeen model
gemaakt op basis van de 12 18
e eeuwse notarissen. Aan deze set werden nog een de
transcripties van een drietal andere notarissen toegevoegd die door
Bob Pierik (promovendus in het project
Freedom of the Streets) zijn gemaakt. Op deze wijze ontstond
een set van in totaal 15 achttiende eeuwse notarissen, die in
totaal 2671 scans omvatte met 622.904 woorden omvatte. Op aanraden
van Gundram Leifert van de Universiteit van Rostock, die ervaring
heeft met het trainen van grote modellen, werd dit model getraind
1000
epochs met maximaal 300 scans per handschrift getraind. Na
52 uur trainen was op 17 juli het model klaar: het kende een erg
lage
CER van 5.27%. Hiermee is het in theorie het beste
algemene Nederlandstalige model op dit moment.
Om vast te stellen hoe goed dit algemene model andere
achttiende-eeuwse notariele akten kan transcriberen, hebben we de
proef op de som genomen en gekeken wat dit model maakt van twee
Amsterdamse notarissen waarvan geen scans in het model zitten. De
notarissen Beels en Van der Brugghen waren werkzaam in het laatste
decennium van de achttiende eeuw en hebben een op het oog
consistent handschrift. Vergelijking van een aantal handmatig
getranscribeerde scans van hen met enkele automatisch met het
algemene achttiende-eeuwse model gegenereerde scans leert ons dat
de
CER voor Beels op gemiddeld het extreem lage niveau van 2%
ligt (ter vergelijking, dit ligt lager dan het beste
specialistische model dat we op dit moment hebben).
Notaris Van der Brugghen scoort iets lager met een gemiddelde CER van 3,76%. Voor beide notarissen geldt dat automatisch gegenereerde teksten van dit niveau vrijwel geen handmatige correctie vereisen. Voor nette achttiende-eeuwse handschriften lijkt dus nu dus een toereikend model te zijn.