Dienstag, 21. Mai 2013

Ocropus 0.7 – Training

Trainingsausgabe Ocropus 0.7

Im letzten Beitrag hatte ich einen ersten Vergleich zwischen Ocropus 0.7 und Tesseract 3.02 gezogen. Da leider die mitgelieferten Dateien für Fraktur keine Unterstützung für das lange-S beinhalten, muß ich Ocropus selber trainieren.

Unterschied Tesseract- und Ocropus Trainingsdaten


Leider hat sich bei Ocropus 0.7 der Trainingsmodus geändert. Um die gleichen Dateien, wie Tesseract 3.02 zu verwenden, habe ich ein Script geschrieben, welches die Tesseract-Boxfiles und zugehörige TIFF-Dateien so umwandelt, daß die von Ocropus erwarteten zeilenbasierten PNG-Dateien mit zugehörigen Text-Dateien erzeugt werden.

Aus dem tess_train Verzeichnis:

tess_train
├── bigram_words
├── deu-frak.bigram-dawg
├── deu-frak.config
├── deu-frak.frak2.exp0.box
├── deu-frak.frak2.exp0.tif
├── deu-frak.frak2.exp0.tr
├── deu-frak.frak2.exp0.txt
:
├── deu-frak.frak2.exp9.box
├── deu-frak.frak2.exp9.tif
├── deu-frak.frak2.exp9.tr
├── deu-frak.frak2.exp9.txt
├── deu-frak.freq-dawg
├── deu-frak.inttemp
├── deu-frak.normproto
├── deu-frak.number-dawg
├── deu-frak.pffmtable
├── deu-frak.punc-dawg
├── deu-frak.shapetable
├── deu-frak.traineddata
├── deu-frak.unicharambigs
├── deu-frak.unicharset
├── deu-frak.word-dawg
├── font_properties
├── freq
├── get_bigramword_list.pl
├── get_freqlist.pl
├── get_wordlist.pl
├── number
├── ogerman
├── punc
├── train.sh
├── unicharset
└── unicharset.edited

Sonntag, 21. April 2013

Ocropus 0.7, erste Tests

S.99 der »Bunte Bilder aus dem Sachsenlande«,
 Band1, 1902, selbstgescannt
Im April ist Ocropus in der Version 0.7 erschienen und dies war eine gute Gelegenheit zu schauen, wie gut es mit der Erkennungsqualität gegenüber dem trainierten Tesseract 3.02 aussieht.

Installation


Die Installation ist auf der Webseite gut beschrieben und hat diesmal auch unter Debian Wheezy funktioniert:

    $ hg clone -r ocropus-0.7 https://code.google.com/p/ocropus
    $ cd ocropus/ocropy
    $ sudo apt-get install $(cat PACKAGES)
    $ python setup.py download_models
    $ sudo python setup.py install
    $ ./run-test
 


Test


Als Test habe ich die Seite 99 der »Bunte Bilder aus dem Sachsenlande« genommen, die oben zu sehen ist. Diese Seite enthält ua. zwei Schriftgrößen und ein Bild der Kurfürstin Anna.

Da Ocropus ein Modell für Fraktur mitbringt, habe ich dieses getestet. Als Vorlage benutzte ich die Schritte der run-test.sh wie folgt:

 convert Bunte_Bilder_aus_dem_Sachsenlande/ppm_single/img110.ppm temp/img110.png
 ocropus-sauvola temp/img110.png  -o temp
 ocropus-gpageseg 'temp/????.bin.png'
 ocropus-rpred -m fraktur.pyrnn 'temp/????/??????.bin.png'
 ocropus-hocr 'temp/????.bin.png' -o temp.html
 ocropus-visualize-results temp
 ocropus-gtedit html temp/????/??????.bin.png -o temp-correction.html

Ergebnis


Das Ergebnis läßt sich, bis auf die fehlende Unterstützung des langen-S durchaus sehen.

Hier die Ergebnisse im Vergleich, zuerst Tesseract:

 die Muſik nnd Handarbeit, nainentlich das Drechſeliu Zu den Schiitzenſeſten der
Bürger reiſte er gern. Den Schützengilden verlieh er Böller und Kanonen als Aus-
zeichnung. überhaupt nahm er an den Freuden und Leiden ſeiner Landeskinder
gern teil; er und ſeine Gemahlin ließen ſich oft als Taufpaten wählen und ſtat-
teten Brautleute reichlich aus.

So war er ein trefflicher Landesvater. Sollte er nlcht auch ein trefflicher
Gatte und Familienvater geweſen ſein2 Bolle 37 Jahre ſtand ihni die Kurfürſtin
Anna in Liebe und Treue zur Seite; ja, in dieſem langen Eheleben war fie nur
wenige Wochen von ihni entfernt. Sie begleitete ihn auf Reiſen zu Reichs- und
Kurfürſtentagen, an auswärtige Höfe, ja ſelbſt auf Jagdzüge. Sie beſuchte an
ſeiner Seite den Landwirt, den Bienenzüchter, den Obſt- und Weinbauer, den
Handwerksmann und den Künſtler. Aufs treulichſte wachte ſie über ihre Kinder,
9 Prinzen und 6 Prin-
zeſſinnen, von denen aber
nur vier die Eltern über-
lebten. In der Kapelle

des Auguſtusburger

Schloſſes wird ein Altar-
bild gezeigt, gemalt von
dem jüngeren Cranach,
welches den ani Kreuz er-
höhten Chriſtus und dar-
nnter zu beiden Seiten
den Kurfürſten niit den
Prinzen und die Kur-
fürſtin mit den Prinzeſ-
ſinnen in betender Hal-
tnng darſtellt.

Anna war das .
ßlttuſter einer Haus-
frau. Auf dem Oſtra-
uortnerke ſtellte ſie die
dtttägde an und hielt auf
Ordnung und Sittſamkeit.
In aller Frühe erſchien ſie täglich in der Gutswirtſchaft, nnterſuchte deu Stall,
prüfte die Molkerei und ordnete den Verkauf für den Markt an. Sie ſchäinte
ſich nlcht, ihre Tafelbutter ſelbſt zu rühren, ihrem Gemahl die feine Wäſche ſelbſt
zu maſchen und zu plätten. Den Schlüſſel zu ihreui eigenen Wäſchevorrat führte
ſie ſtets bei ſich. Sie hielt es niit Luthers Ausſprnch:

„Der Mann inuß ſelber ſein der Knecht,
Will er ini Hauſe ſchaffen recht;

Die Frau inuß ſelber ſein die Mad,

Soll ſie im Hauſe ſchaffen Rat.

Geſinde nininierhiu bedenkt,

Was Nutz und Schad dem Hauſe brengtltt



Mutter Anna.

7*


Und hier Ocropus:


=- Iß -
die Musik und Handarbeit, namentlich das Drechseln. Zu den Schützenfesten der
Bürger reiste er gern. Den Schützengilden verlieh er Böller und Kanonen als Aus-

zeichnung. Überhaupt nahm er an den Freuden und Leiden seiner Landeskinder

gern teil; er und seine Gemahlin ließen sich oft als Taufpaten wählen und stat-

teten Brautleute reichlich aus.


So war er ein trefflicher Landesvater. Sollte er nicht auch ein trefflicher
Gatte und Familienvater gewesen sein? Volle 8? Jahre stand ihm die Kurfüür stin

Anna in Liebe und Treue zur Seite; ja, in diesem langen Eheleben war sie nur

wenige Wochen von ihm entfernt. Sie begleitete ihn auf Reisen zu Reichs- und

Kurfürstentagen, an auswärtige Höfe, ja selbst auf Jagdzüge. Sie besuchte an

seiner Seite den Landwirt, den Bienenzüchter, den Obst- und Weinbauer, den

Handwerksmann und den Künstler. Aufs trenlichste wachte sie über ihre Kinder,

9 Prinzen und G Prin-

zessinnen, von denen aber

nur vier die Eltern über-

lebten. In der Kapelle

des Augustusburger

Schlosses wird ein Altar-

bild gezeigt, gemalt von

dem jüngeren Cranach,

welches den am Krenz er-

höhten Christus und dar-

unter zu beiden Seiten ,


z

?


den Kurfürsten mit den z
Vze = »- =. zF-

fütrstin mit den Prinzes-

sinnen in betender Hal-

tung darstellt.

- ?

. --'


-=- - ?

?

=e..-


=-D

a=FI


Anna war das -
Mägde an und hielt auf
Ordnung und Sittsamkeit.

- R «

- - ? =.

:; --

s?

? -

,. - =-

?F

R?? - - - --=

vorwerke stellte sie die

--S

-''. ? .---

'? e --


! ?? -
Flutter Anna.
-e


«


s- E
It aller Frühe erschien sie täglich in der Gutswirtschaft, untersuchte den Stall,
prüüfte die Molkerei und ordnete den Verkauf für den Markt an. Sie schämte
sich nicht, ihre Tafelbutter selbst zu rühren, ihrem Gemahl die feine Wäsche selbst
z waschen und zu plätten. Den Schlüssel zu ihrem eigenen Wäschevorrat führte
sie stets bei sich.
Sie hielt es mit Luthers Ausspruch:
, Der Mann muß selber sein der Knecht,
Will er im Hause schaffen recht;
Die Frau muß selber sein die Mad,
Soll sie im Hause schaffen Rat.
Gesinde nimmerhin bedenkt,
Was Nutz und Schad dem Hause brengt!

Fazit

Insgesamt ist die Entwicklung von Ocropus vielversprechend. Da allerdings wieder mal der Trainingsmodus geändert wurde, müssen die Daten, die ich für das Training von Tesseract verwende erstmal in die Zeilenbasierte Variante von Ocropus umgewandelt werden. Sicherlich läßt sich die Erkennungsqualität noch steigern. Im Vergleich zu Tesseract fällt auf, daß Ocropus Bilder noch nicht zuverlässig erkennt und vor dem OCR Prozess herausfiltert. Hilfreich ist die Ausgabe von hOCR, da man so leicht Probleme im OCR-Prozess visualisieren und erkennen kann.

Bei Tesseract besteht aber auch noch Hoffnung, da es einen (leider noch nicht dokumentierten) Cube-Trainings-Modus mitbringt, der die Probleme bei der Erkennung von Fraktur, insbesondere die Verwechslung von 'u' mit 'n' und 'f' mit 'ſ' verringern sollte.

Freitag, 15. März 2013

König Johann in der Schule

Vorwort


Das Gedicht fiel mir beim Korrigieren (ja, ich habe erst 64 von 400 Seiten fertig korrigiert, mühsam ernährt sich das Eichhörnchen) der weiteren Seiten des Buches »Bunte Bilder aus dem Sachsenlande« (Bd. I, 1902, Neunte Auflage, S.63/64) in die Hände. Man stelle sich heute mal vor, daß der Ministerpräsident noch so handeln würde (bzw. dürfte). :)

König Johann in der Schule


War einſt ein Herr in Sachſenland,
Schier einem jeden Kind bekannt,
Der ging aus ſeiner Väter Schloß,
Zu ſehen, was wohl klein und groß
In ſeinen Schulen Rechtes trieb;
Und weil er hatt’ die Kindlein lieb,
Trat oft er zu der Schülerſchar,
Bot ſeinen Fürſtengruß ihr dar
Und ließ ſich zeigen dann geſchwind
Geſchriebenes von jedem Kind,
Ließ leſen aus dem Fibelbuch,
Aufſagen manchen guten Spruch
Und forſchte, ob in Glaubenstreu
Sein Volk auch recht erzogen ſei,
Und ob ſelbſt in dem ärmſten Kind
Des Wifſens Elemente ſind.

Sagt an, wer war der Herrſcher mild,
Der da erſchien im Schulgefild’?
Verkündet ſei es jedermann:
Das war der weiſe Fürſt Johann!

Einſt wandert er in Geiſtesruh
Dem Schulhaus eines Dorfes zu.
Ins Zimmer trat er grüßend ein.
Die Kinder waren ganz allein.
Derweil der Lehrer nicht zur Stell’,
Beginnt den Unterricht er ſchnell.
Und während er noch fragt und lehrt,
Der Lehrer iſt zurückgekehrt.

„Verzeihung, Ew. Majeſtät!
Gar übel es der Gattin geht
Die ſchwer erkrankt, – – doch hat die Nacht
Auch große Freude mir gebracht.
 Ein Söhnlein ward geboren mir.
Ich mußt’ es ſehn, war drum nicht hier.“
Der Fürſt reicht lächelnd ihm die Hand
„Geht auf mein Schloß. Holt unverwandt
Den Leibarzt Euch. Ich bleibe da!“
Der Herrſcher Helferdienſt verſah
Dann ſchlug er auf das Klaſſenbuch
Und ſchrieb mit einem kräft’gen Zug:
„Laßt dieſen Fünfzigthalerſchein
Zum Tauffeſt Euch willkommen ſein!“ *) G. Freytag

*) Die Begebenheit ſoll ſich zugetragen haben in einem Dorfe bei Jahnishauſen,
in der Nähe der Stadt Rieſa. Das Schloß Jahnishauſen war ſeinerzeit im Beſitze des Königs Johann; heute iſt es Eigentum des Prinzen Max.