Gecombineerd model: Dutch Mountains!


Eind vorig jaar publiceerde het Stadsarchief Amsterdam al een algemeen notarieel model. Het model is gratis beschikbaar voor alle Transkribus-gebruikers en is gebaseerd op enkele duizenden scans van getranscribeerde 18 e eeuwse notariële akten. Ook het Nationaal Archief heeft recentelijk een soortgelijk corpus aan scans laten transcriberen, wat zich concentreert op 18 e eeuwse VOC-brieven en papieren. Tijdens de Transkribus User Conference 2020 in Innsbruck werd het idee geboren om beide modellen te bundelen in een nieuw, gecombineerd 18 e eeuws model.

De naam van het nieuwe model is 'Dutch Mountains (18th Century)', een knipoog naar het gebied waarin het idee voor dit nieuwe model is ontstaan. De gedachte achter een gecombineerd model is dat –in tegenstelling tot een groot specialistisch model- niet langer enkel notariële akten of VOC-papieren gelezen kunnen worden, maar dat vrijwel alle handgeschreven documenten van een bepaalde periode leesbaar zijn. Voorwaarde is dan dat je natuurlijk wel werkt met modellen waarvan de onderliggende data uitgebalanceerd is. In het geval van het Stadsarchief en het Nationaal Archief was dat zo: beide bestaande specialistische modellen omvatten zo'n 3500 scans en kenden een foutmarge (Character Error Rate) van omstreeks vijf procent.

Daarnaast was het noodzakelijk om een set transcripties te vinden die 18 e eeuws, andersoortig materiaal bevatten en die als validatieset kon dienen. Dit om objectief vast te kunnen stellen hoe goed het nieuwe gecombineerde model het nu daadwerkelijk 'doet' op ongezien 18 e eeuws Nederlands materiaal. Dankzij het project Chronicling Novelty kregen we de beschikking over twee geheel getranscribeerde 18 e eeuwse kronieken uit Breda en Leeuwarden. De kroniek van Leeuwarden dateert uit 1796 en telt 26 scans, de kroniek uit Breda van 1793 en telt maar liefst 97 scans. Deze twee kronieken vormen dus de validatieset.

We hebben over de beide modellen van het Stadsarchief ('Dutch Notarial Model 18th Century': CER 5,27; 3.357 scans; 622.904 woorden) en het Nationaal Archief ('VOC_18th_century': CER 4,95; 3.508 scans; 761.989 woorden) afzonderlijk op deze kronieken getest en we hebben ditzelfde ook gedaan met het nieuwe, gecombineerde model ('Dutch Mountains (18th Century)': CER 5,65; 6.965 scans; 1.384.893 woorden). De resultaten van beide afzonderlijke modellen op deze kronieken zijn al zeer goed, maar de resultaten van het gecombineerde model bleken toch nog beter. Voor beide kronieken gold dat gemiddeld van alle karakters uit het corpus een half procent tot een procent meer werd herkend ten opzichte van de afzonderlijke modellen. Alle reden om het Stadsarchief en het Nationaal Archief ook dit model vrij ter beschikking te stellen!

Deel artikel

     
Geplaatst op

26 maart 2020
Auteur

Redactie
Gerelateerd

Deel artikel

     
   Gerelateerde artikelen