Optical Character Recognition (OCR) für historische Drucke

OCR-D ist ein Koordinierungsprojekt, das auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist.


An diesem durch die DFG geförderten Projekt sind neben der BBAW, die Herzog August Bibliothek Wolfenbüttel und die Staatsbibliothek zu Berlin - Preußischer Kulturbesitz beteiligt. Das wesentliche Ziel ist die konzeptionelle Vorbereitung der automatischen Transformation von Drucken des deutschsprachigen Raums aus dem 16. bis 19. Jahrhundert in maschinenlesbare, elektronische Volltexte als Forschungsdaten. Denn die Nutzung digitaler Volltexte ist in vielen (geisteswissenschaftlichen) Disziplinen heute unverzichtbar.

 

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Mit Hilfe von OCR-Verfahren können aus diesen Bilddaten durchsuchbare Volltexte automatisch generiert werden. Bislang ist der Zugriff auf den elektronischen Volltext jedoch nur eingeschränkt möglich, weil die Resultate gängiger OCR-Verfahren häufig ungenügend ausfallen. Insbesondere werden alte Drucktypen wie Fraktur nur mit unzureichender Genauigkeit erkannt.


Im Projekt OCR-D werden unter Berücksichtigung bereits existierender Tools, Workflows und wissenschaftlicher Untersuchungen Entwicklungsbedarfe aufgedeckt. Durch Neukombination und – wo nötig – durch Neuentwicklungen soll der OCR-Prozess für historische Drucke am Beispiel der in den Verzeichnissen im deutschsprachigen Raum erschienenen Drucke spezialisiert und optimiert werden.

Kontakt
PD Dr. Alexander Geyken
Arbeitsstellenleiter
Digitales Wörterbuch der deutschen Sprache
Tel.: +49 (0)30 20370 390
geyken(at)bbaw.de 
Jägerstraße 22/23
10117 Berlin
© 2020 Berlin-Brandenburgische Akademie der Wissenschaften