Optical Character Recognition (OCR) für historische Drucke

OCR-D ist ein Koordinierungsprojekt, das auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.
 

Ziel der von der DFG seit 2015 geförderten „Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition“ (OCR-D) ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der Verzeichnisse der im deutschen Sprachraum erschienenen Drucke (VD).

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen Volltext ist bislang jedoch nur eingeschränkt möglich, weil die Resultate gängiger OCR-Verfahren häufig ungenügend ausfallen. Insbesondere können die meisten älteren, in Fraktur gedruckten Werke bislang nur mit unzureichender Genauigkeit in Volltext umgewandelt werden. Mit Hilfe von OCR-D soll für diese unbefriedigende Situation Abhilfe geschaffen werden.

Für OCR-D sind drei Projektphasen vorgesehen: eine Konzeptions-, eine Modul- und eine Stabilisierungsphase. In der ersten Phase wurden die Entwicklungsbedarfe erhoben, die in der zweiten Phase unter Anleitung des Koordinierungsprojekts von acht Modulprojekten bearbeitet wurden. In der seit April 2021 laufenden dritten Projektphase sollen die Ergebnisse der Modulprojekte stabilisiert und in einen produktiven Einsatz überführt werden. Die Hauptaufgaben des Koordinierungsprojekts sind dabei, die dauerhafte Betreuung und Weiterentwicklung der OCR-D-Software sicherzustellen und die Ergebnisse der Implementierungsarbeiten – stabile, für die Massendigitalisierung einsatzbereite OCR-D-Lösungen – an einen breiten Kreis an künftigen Nutzerinnen und Nutzern zu vermitteln, die diese im Anschluss an diese dritte Projektphase zur Volltextdigitalisierung der VD-Materialien einsetzen.

An der derzeit geförderte Projektphase beteiligen sich für das Koordinierungsprojekt zusätzlich zu den seit Phase 1 aktiven Projektpartnern BBAW, HAB (Herzog August Bibliothek Wolfenbüttel) und SPK (Staatsbibliothek zu Berlin – Preußischer Kulturbesitz) auch die SUB Göttingen (Niedersächsische Staats- und Universitätsbibliothek Göttingen) sowie die GWDG (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen).

Kontakt
PD Dr. Alexander Geyken
Arbeitsstellenleiter
Aufbau des Zentrums für digitale Lexikographie der deutschen Sprache
Tel.: +49 (0)30 20370 390
geyken(at)bbaw.de 
Jägerstraße 22/23
10117 Berlin
© 2021 Berlin-Brandenburgische Akademie der Wissenschaften