Transkribus (Handschriften erkennen)

Dieses Thema im Forum "Historische Hilfswissenschaften mit Genealogie" wurde erstellt von edgar, 25. Mai 2018.

  1. edgar

    edgar Aktives Mitglied


    Bei heise lese ich gerade über die Software Transkribus, die handschriftliche Aufzeichnungen erkennen soll: Transkribus entziffert Uromas Handschrift
    Es sei allerdings eine große Datenlage erforderlich, damit es gut funktioniert.

    Ist vielleicht ein Blick wert, falls nicht bekannt ?
     
    Zuletzt bearbeitet: 25. Mai 2018
    Dion gefällt das.
  2. El Quijote

    El Quijote Moderator Mitarbeiter

    Ist ein ziemlich zweischneidiges Schwert. Ist einerseits eine sinnvolle Hilfe, andererseits aber wieder ein Feld, wo menschliche Experten auf Dauer überflüssig werden könnten. Wozu einen Historiker an eine Transkription setzen, wenn das der Algorithmus viel billiger machen kann?
     
  3. Dion

    Dion Aktives Mitglied


    Das gleiche könnte man auch über deepl sagen. Aber ich sehe das positiv: Sowohl deepl als auch Transkribus werden Experten nicht überflüssig machen, sondern lediglich deren Produktivität erhöhen, denn in beiden Fällen muss ein Mensch die Ergebnisse kontrollieren und ggf. richtigstellen.
     
  4. Chan

    Chan Aktives Mitglied

    Ich brauchte ein paar Momente, um mir darüber klar zu werden, dass Uroma kein assyrischer König, sondern eine Frau mit drei Generationen Nachkommenschaft ist.

    Ich meine auch, dass Automatisierung von Schrifterkennung und -übertragung nur ein wissenschaftlicher Gewinn sein kann. Die Produktkontrolle liegt ohnehin immer noch in Menschenhand. So werden Kapazitäten für andere Arbeiten frei, die maschinell nicht erledigt werden können.

    Ein paar Zitate zum Thema:

    Bericht zur Sektionssitzung 3

    Anschließend präsentierte Günter Mühlberger von der Universität Insbruck das Tool Transkribus. Mühlberger, bekannt von der europäischen Initiativen „READ“ und „Coop“ weckte mit dem Thema seines Vortrags: „Archiv 4.0, oder warum die automatisierte Texterkennung alles verändern wird“ große Erwartungen. Er ging von der Entwicklung aus, dass neuronale Netze in der Lage sind, historische Handschriften zu erkennen. Dies bedeute die Möglichkeit einer vereinfachten Transkription verschiedener Bestände, aber auch eine gesteigerte Treffsicherheit bei der Suche. Die Frage nach der Eignung, bzw. der Kontrollnotwendigkeit solcher Bestände im Archiv, stellte sich direkt. „Transkribus“ hat eine bestimmte Fehleranfälligkeit bei der Übertragung, bietet aber bei der allgemeinen Recherche zumindest einen Eindruck vom eigentlichen Quellentext. Die Arbeit von „Freiwilligen“ zur genauen Fehlerkontrolle wäre auf der „Transkribus“ angeschlossenen Plattform möglich. Ein Ergebnis sind genauere Quellenrecherchen in den dann digital verfügbaren Quellen.

    Mühlberger vertrat die These, dass Technologien wie „Transkribus“, die Arbeit des Archivars in Zukunft verändern, bzw. ersetzen werden. Dafür müssten alle Daten elektronisch vorliegen, was in der Realität der Archive jedoch sehr selten der Fall sei. Allerdings bietet „Transkribus“ als eine gleichzeitige Plattform auch die Möglichkeit, Nutzer zu vernetzen und die „Crowd“ als Quelle auch für das Archiv zu nutzen, um Erschließungen genauer zu machen.

    Hier gibt´s einschlägiges Fachchinesisch:

    Neue Erkenntnisse durch digitalisierte Geschichtswissenschaft(en)? Zur hermeneutischen Reichweite aktueller digitaler Methoden in informationszentrierten Fächern | ZfdG - Zeitschrift für digitale Geisteswissenschaften

    Ein vielversprechender neuer Ansatz ist die automatisierte Erkennung von Handschrift mittels fortgeschrittener Methoden der Mustererkennung. Traditionell haben Versuche zur Transkription von Handschriften auf Technologien für isolierte Zeichenerkennung (OCR) aufgesetzt, die in den letzten Jahrzehnten beachtliche Ergebnisse erzielt haben. Leider ist aber die Zeichensegmentierung in handgeschriebenen Texten ungleich schwieriger bis unmöglich, zumal vor allem historische Dokumente von Interesse für automatisierte Transkriptionen sind. Aktuelle HTR Technologie geht nun einen anderen Weg und kombiniert verschiedene Verfahren, die z.B. in der Spracherkennung entwickelt worden sind, um bessere Ergebnisse zu erreichen. Es werden Hidden Markov Modelle (HMMs) und N-Gramms verwendet, um Muster zu erkennen, die dann in Interaktion mit dem Benutzer über Trainingstranskriptionen die Vorhersagegenauigkeit für Manuskripte eines Schreibers z.T. dramatisch verbessern. Um eine gute HTR-Genauigkeit zu erreichen, ist allerdings eine Kombination von Verfahren wie Layout-Analyse, Textzeilen-Extraktion, Vorverarbeitungsoperationen, Training, lexikalische- und Sprachmodellierung, HMMs usw. erforderlich.

    Noch mutet HTR für Manuskripte ein wenig wie Science Fiction an, aber spätestens seitdem Frederic Kaplan den Plan einer Digitalisierung der venezianischen Handschriften im dortigen Staatsarchiv (Venice Time Machine Projekt) verkündete, scheint HTR greifbarer geworden zu sein. Die Herausforderungen, bis dieses Ziel erreicht ist, sind allerdings enorm. Werbevideos des Projekts geben einen Eindruck von der Dimension des zu digitalisierenden und transkribierenden Materials und suggerieren zugleich eine Machbarkeit, deren Beweis noch angetreten werden muss. Dreh- und Angelpunkt bei HTR bleibt die Mustererkennung. Wenn diese Muster nicht gleichförmig genug sind, stoßen auch die oben erläuterten Ansätze an ihre Grenzen. Interessante Impulse könnte in Zukunft auch die Forschung über neuronale Netzwerke liefern, denn bekanntlich sind Menschen (nach einem gewissen Training) ja in der Lage, historische Handschriften zu lesen.

    Hier ist ein Hidden Markov Modell, das für Schrifterkennungsalgorithmen gebraucht wird:

    upload_2018-5-29_22-57-44.jpeg
     

Diese Seite empfehlen