Künstliche Intelligenz
Der Computer lernt lesen, was Mönche im Mittelalter schrieben

Ein US-Forscher hat sich zum Ziel gesetzt, lateinische Handschriften aus der Stiftsbibliothek St. Gallen automatisch transkribieren zu lassen. Doch es gibt ein Problem: Das Trainingsmaterial für die Maschine ist spärlich.

Niklaus Salzmann
Drucken
Teilen
An diesem Dokument, das St.Galler Mönche im 9. Jahrhundert schrieben, versuchte sich das Forschungsteam aus den USA.

An diesem Dokument, das St.Galler Mönche im 9. Jahrhundert schrieben, versuchte sich das Forschungsteam aus den USA.

Stiftsbibliothek
St. Gallen

Es ist ein kultureller Schatz – und er ist für alle frei verfügbar. Der Hobbytheologe zu Hause, die Lateinlehrerin am Gymnasium, der Informatikprofessor in den USA, sie alle können sich die Handschriften der Stiftsbibliothek St.Gallen am Bildschirm ansehen. Zum Beispiel die Briefe, die der heilige Hieronymus ums Jahr 400 geschrieben hat und die dann im neunten Jahrhundert von verschiedenen Mönchen im Kloster St.Gallen abgeschrieben wurden.

Noch praktischer wäre es allerdings, die Dokumente könnten nicht nur als Bilder betrachtet und gelesen, sondern nach Stichworten durchsucht werden. Doch dazu müssten sie erst alle transkribiert werden.

Das ist erstens eine riesige Arbeit, zweitens erfordert sie nebst Fleiss auch Spezialkenntnisse: Lesen kann die Dokumente nur, wer sowohl Lateinisch kann als auch gelernt hat, mit der alten Schriftart zurechtzukommen. Die Mönche haben in karolingischer Minuskel geschrieben, einer unter Karl dem Grossen eingeführten Schrift, die zwar sehr ordentlich und klar ist, aber für die heutige Leserschaft doch gewöhnungsbedürftig.

Mit Hunden und Katzen ist es einfacher

Es gibt wenige Menschen, die für das Transkribieren überhaupt qualifiziert wären. Deshalb verfolgt Walter Scheirer, Informatikprofessor an der Universität Notre Dame im US-Bundesstaat Indiana, einen anderen Plan. Er möchte diese Fleissarbeit von Computern mittels künstlicher Intelligenz erledigen lassen.

Doch es gibt ein Problem. Computer müssen zuerst trainiert werden, bevor sie derartige Aufgaben erledigen können. Um Hunde von Katzen zu unterscheiden, werden der Maschine zum Beispiel Tausende Hundebilder, die mit «Hund» beschriftet sind, und Tausende Katzenbilder, die mit «Katze» beschriftet sind, gefüttert. Je mehr Trainingsmaterial der Computer kriegt, desto besser ist er später darin, selber Hunde von Katzen zu unterscheiden.

Handelsübliche Programme sind chancenlos

Nun gibt es im Internet zwar schier unendlich viele Hunde- und Katzenbilder, aber ziemlich wenige Handschriften in mittelalterlichem Latein und karolingischer Minuskel. Die Herausforderung besteht also darin, mit spärlichem Trainingsmaterial eine möglichst zuverlässige Schrifterkennung zu erreichen.

Handelsüblichen Programmen gelingt es laut der US-Studie im besten Falle, rund die Hälfte der Buchstaben aus dem St.Galler Dokument korrekt zu entziffern. Mit anderen Worten: Sie sind für diesen Zweck absolut untauglich.

Das Forschungsteam um Scheirer hat verschiedene Modelle getestet und zudem einen Trick angewandt, der in diesem Gebiet unüblich ist: Es hat Fachleute beim Transkribieren von Texten beobachtet und festgehalten, für welche Zeilen und Zeichen diese besonders lange brauchten. So konnten sie dem Computer beibringen, welche Passagen im Text schwieriger zu erkennen sind und welche einfacher.

Das Papier hat Löcher und Flecken

Letztlich schaffte es das Team, die Fehlerrate auf weniger als 7 Prozent der Buchstaben drücken. Damit gelangt die automatische Texterkennung in die Nähe des Bereichs, der für die wissenschaftlichen Arbeiten interessant wird. Trotzdem ist es ein weiter Weg hin zu einem gebrauchsfertigen Produkt, wie das Team selber schreibt.

Probleme machen zum Beispiel Abkürzungen, die zu dieser Zeit häufig verwendet wurden und teils sogar mehrdeutig sind. Korrekturen und Anmerkungen wurden im Nachhinein zwischen die Zeilen oder an die Ränder geschrieben. Das über tausend Jahre alte Papier hat Löcher und Flecken, und zum Teil drückt die Farbe von der Rückseite durch.

Tobias Hodel

Tobias Hodel

Spätere Schriften sind schwieriger zu erkennen

Tobias Hodel, Assistenzprofessor für digitale Geisteswissenschaften an der Universität Bern, hat denn auch einige Zweifel: «Bei Texten aus dem neunten Jahrhundert bin ich skeptisch, dass sich das Transkribieren mittels künstlicher Intelligenz durchsetzen kann.» Die Datensätze aus dieser Epoche seien extrem klein. «Richtig interessant wird es ab dem 13. und 14. Jahrhundert, wenn die Schriftlichkeit zu explodieren beginnt.»

Allerdings tauchen da neue Komplikationen auf. Philipp Lenz von der Stiftsbibliothek St.Gallen sagt: «Die karolingische Minuskel ist die eindeutigste und am einfachsten zu lesende Schrift des Mittelalters. Ab dem 13. Jahrhundert kamen dann kursive Schriften mit vielen Abkürzungen auf.» Bei diesen sind viele Buchstaben miteinander verbunden, und es werden häufig Buchstaben weggelassen und durch Kürzungszeichen ersetzt, was das automatisierte Lesen erschwert.

Optimal ist es laut Hodel von der Uni Bern, wenn grosse Textmengen von der gleichen Hand vorhanden sind. Andernfalls brauche es noch mehr Material, um gute Ergebnisse zu erzielen. «Extrem optimistisch bin ich bei deutschen Texten ab dem 16.Jahrhundert», sagt er. Er rechnet damit, dass in den nächsten drei bis fünf Jahren neue Modelle zu verschiedenen Schriften kommen werden.

Die Bundesratsprotokolle sind bereits transkribiert

Hodel, der einst Geschichte und deutsche Literaturwissenschaft studiert hat, war unter anderem daran beteiligt, Texte des Staatsarchivs des Kantons Zürich mittels Texterkennung aufzubereiten.

Auch die Bundesratsprotokolle von 1848 bis 1903 sind inzwischen als digitaler Text verfügbar. Das waren 150000 Seiten – für Menschen eine Herkulesaufgabe. Die Plattform «Transkribus», die auf einer Kooperation von Institutionen aus über 20 Ländern basiert, erreichte dabei eine Fehlerquote von rund 5,5 Prozent.

Die Stiftsbibliothek St.Gallen hat selber keine Projekte zur digitalen Texterkennung am Laufen. Sie konzentriert sich darauf, die eigenen Handschriften zu digitalisieren. Seit 2005 wurde rund ein Drittel der Handschriften erfasst. «Wir haben mit den besonders alten und wertvollen Büchern begonnen», sagt der stellvertretende Stiftsbibliothekar Philipp Lenz.

«Inzwischen sind sämtliche Handschriften aus der Zeit bis um 1200 und die meisten aus dem 13. und 14. Jahrhundert digitalisiert worden.» Das alles ist auf dem Onlineportal E-Codices unter Creative-Commons-Lizenz zugänglich – ein Grund, weshalb Walter Scheirer aus den USA auf Dokumente aus St.Gallen zurückgriff.

Aktuelle Nachrichten