wdiff
Mit 'wdiff' habe ich nun mal den Vergleich gemacht zwischen trainiertem Tesseract, trainiertem Ocropus, und Tesseract in Standardauslieferung mit Deutsch (deu).
Dazu habe ich eine Seite als Vergleich herangezogen, die ich schon in http://art1pirat.blogspot.de/2013/01/teil-8-selbstversuch-ebook-befreiung-am.html voll korrigiert hatte.
Der Aufruf sieht so aus: "wdiff -s $CORRECT $OCRED | tail -1"
Ergebnisse
Tesseract (trainiert)
img110_tesseract.txt: 322 Wörter 193 60% gleich 0 0% eingefügt 129 40% verändert
Tesseract (deu)
img110_tesseract.txt: 322 Wörter 62 19% gleich 0 0% eingefügt 260 81% verändert
Ocropus 0.7 (trainiert)
img110_ocropus.txt: 419 Wörter 108 26% gleich 0 0% eingefügt 311 74% verändert
Fazit
Wie man sieht, Training lohnt sich. ;)
Ocropus 0.7 stürzt beim Training (sh. http://art1pirat.blogspot.de/2013/05/ocropus-07-training.html) ab, ich habe den letzten funktionierenden Zwischenstand (nach 5190 Schritten) des Modells genommen, den man via ff. Aufruf bekommt:
ocropus-rtrain 'ocropus/*/*.bin.png' -F 30 -d 1 -o bbads_fraktur
Dabei sorgt die Option -F 30 dafür, daß aller 30 Schritte das Modell (bbads_fraktur) gesichert wird.
Tesseract hat noch einen vermutlich für Fraktur besser arbeitenden Trainingsmodus namens Cube. Wer dazu Infos hat, immer her damit.
Ansonsten habe ich jetzt ein Werkzeug an der Hand die Auswirkungen der verschiedenen Optionen der OCR-Engines und der Vorverarbeitungen quantitativ zu überprüfen.