Art1Pirat Blog: tesseract

Posts mit dem Label tesseract werden angezeigt. Alle Posts anzeigen

Sonntag, 18. Oktober 2015

Dschiu-Dschitsu

Das nebenstehende Büchlein hatte ich vor ein paar Wochen auf dem Flohmarkt erstanden.

Unter der Adresse http://andreas-romeyke.de/Dschiudschitsu.djvu habe ich die digitalisierte Datei als DJVu frei zur Verfügung gestellt (einen Urheberrechtsvermerk konnte ich bei der DNB nicht finden, IMHO sollte es mittlerweile gemeinfrei sein)

Das Büchlein wurde mittels xsane gescannt, dann mit tiff2pdf, pdf2djvu in ein DJVu konvertiert.

Mit didjvu würde man bessere Ergebnisse erzielen, leider erzeugt das Programm zZ. aber invertierte Seiten, wenn man es mit monochromen TIFFs füttert.

Die OCR erfolgte über ocrodjvu unter Zuhilfenahme von tesseract 3.03 und "-l deu-frak". Ein Postprocessing erfolgte nicht, einzig die Überschriften und Bildunterschriften wurden manuell mit djvusmooth nachkorrigiert.

Die Metadaten wurden über djvused hinzugefügt.

Anbei nochmal eine Zusammenfassung der Metadaten (nach Angabe der DNB):

Author: "Shunsho, Daiji"
Titel: "Dschiu-Dschitsu"
Erscheinungsjahr: 1926
Teil der: "Miniatur-Bibliothek ; 721/722"
Verlag: "Leipzig : Verlag für Kunst und Wissenschaft, 1926."

Wenn jemand den Volltext korrigiert, ich wäre an der korrigierten Fassung interessiert. Wer og. Digitalisat weiterverwenden will, dem bitte ich zur Aufrechterhaltung meiner Motivation um eine kleine Erwähnung. :)

Dienstag, 2. Dezember 2014

Sachertorte

Es ist Weihnachtszeit und da der letzte Beitrag etwas her ist, gibt es heute ein Rezept aus „Schicht's Kochbuch – ausgewählte Rezepte“
Das Buch ist eigentlich eines von drei Heftchen, hier aus dem 1. Band, Mehlspeisen, im Druck von A. Haase, Prag. Die DNB verzeichnet als Erscheinungsjahr 1928-1931 (http://d-nb.info/56088897X).

Charakteristisch ist die minimalistische Darstellung der Rezepte.Hier das Rezept für Sachertorte aus Seite 38b:

Das Rezept in maschinenlesbarer Form:

Sacher-Torte.

Zutaten: 16 dkg Visan, 15 dkg Zucker, 8 dkg Kakao, 6 Eier, 15 dkg
Mehl, Sacherbuttercreme (siehe Creme), Schokoladenfondant (siehe Fondant).

Zub ereitung; DasVisan wird mit dem Zucker schaumig gemischt,
die Eidotter nach und nach dazugegeben, dann den Kakao daruntergemischt.

*Dazu kommt der Schnee von den Eiklar und zuletzt das Mehl. Bei mäßiger '

Hitze backen; nach dem Auskühlen in zwei Blätter schneiden und, mit Sacher-
buttercreme füllen, mit Schokoladenfondant überziehen und auf jedes Torten-
stück eine Praline aufsetzen. w ’

W o r a uf k o m mt e s a n? Die Torte vor dem Füllen einen Tag stehen
lassen. '

Was kann mißlingen? Die Masse läuft aus der Form, wenn sie
nicht genau in Papier eingeschlagen wird.

Die Sacher-Buttercreme wird auf S. 31 beschrieben:

Das Rezept in maschinenlesbarer Form:

Sacherbuttercreme.

Z u t a t e n: 12 1/2 dkg Visan, 12 1/2 dkg Zucker, 2 Eigelb, 10 dkg Tunkmasse.
Z u b e r e i t u n g: Das Eigelb wird schaumig geschlagen, der Zucker wird
zum schwachen Flug gekocht und in einem schwachen Strahl in die flaumige Eigelbmasse hineingezogen; das Ganze dann kalt geschlagen. Nachher rührt
man es in das Visan, welches unterdessen schaumig gerührt wurde. Nun mischt man noch die aufgelöste Tunkmasse darunter.

W o r a u f k o m m t e s a n? Das Eigelb gut aufschlagen.
Was kann m iß l in gen? Die Tunkmasse wird bröslig, wenn sie zu
warm aufgeweicht wird.

Das Ergebnis entstammt (ohne weitere Korrektur) der OCR mit dem folgenden Aufruf von Tesseract 3.03:

$> tesseract Schichts_Kochbuch_Bd1_38b.png Schichts_Kochbuch_Bd1_38b -l deu

Mittwoch, 25. Dezember 2013

Was Training so ausmacht

Bin dank Clemens Neudecker auf das im Rahmen des succeed Projektes entwickelte Tool ocrevalUAtion gestoßen. Damit kann man seine OCR-Ergebnisse mit dem Original vergleichen und bekommt eine Übersicht über die typischen OCR-Fehler.

Ich habe mal eine Seite aus Bunte Bilder aus dem Sachſenlande genommen und hier sind die Werte für untrainiertes Tesseract 3.02.03 mit dem mitgelieferten "deu-frak":

CER	7,74
CER-DL	7,74
WER	27,65
WER (bag of words)	27,43

Dabei bedeutet CER: Character error rate, CER-DL: Character error rate nach Damerau-Levenshtein und WER: Word error rate.

Hier sind also nur knapp 92% aller Zeichen richtig und gar nur 72% aller Wörter.

Nun die im Laufe des Bunte Bilder Projektes auf den Buchtitel trainierte Variante:

CER	2,83
CER-DL	2,83
WER	7,78
WER (bag of words)	9,07

Es sind nun 97% aller Zeichen richtig und fast 91% aller Wörter! Fazit: Trainieren lohnt sich!

Dies deckt sich auch mit den Berechnung aus meinem früheren Beitrag "OCR Qualität bestimmen" bzw. aus Teil 9, wo die Worterkennungsrate 93% betrug.

Das Tool berechnet aber auch für jedes vorkommende Zeichen die Fehlerwahrscheinlichkeit, was hilft sein Augenmerk auf diese typischen Probleme zu lenken. Hier ein Beispiel des untrainierten Tesseract. Ins Auge fällt, daß dies (wie bereits beschrieben) kein langes-s erkennt. Sichtbar sind auch die Problemzeichen 'n', 'u' und 'ü':

Error rate per character and type

Character	Hex code	Total	Spurious	Confused	Lost	Error rate
	20	463	2	0	1	0,65
!	21	0	1	0	0	Infinity
"	22	0	1	0	0	Infinity
)	29	2	0	0	0	0,00
*	2a	2	0	1	0	50,00
,	2c	33	1	4	2	21,21
-	2d	6	0	2	0	33,33
.	2e	29	0	1	3	13,79
1	31	6	1	0	0	16,67
2	32	4	0	0	0	0,00
5	35	4	0	0	0	0,00
8	38	3	0	0	0	0,00
9	39	5	0	0	0	0,00
A	41	6	0	0	0	0,00
B	42	11	0	1	0	9,09
D	44	10	0	0	0	0,00
E	45	6	0	0	0	0,00
F	46	9	0	0	0	0,00
G	47	6	0	0	0	0,00
H	48	6	0	0	0	0,00
I	49	4	0	4	0	100,00
J	4a	5	0	0	0	0,00
K	4b	8	0	0	0	0,00
L	4c	1	0	0	0	0,00
M	4d	5	0	0	0	0,00
N	4e	4	0	0	0	0,00
O	4f	2	0	0	0	0,00
P	50	3	0	0	0	0,00
R	52	7	0	0	0	0,00
S	53	26	0	3	0	11,54
T	54	5	0	0	0	0,00
U	55	4	0	0	0	0,00
V	56	7	0	0	0	0,00
W	57	7	0	0	0	0,00
Z	5a	7	0	0	0	0,00
a	61	123	0	2	0	1,63
b	62	41	0	1	0	2,44
c	63	66	0	1	0	1,52
d	64	110	0	0	0	0,00
e	65	430	0	4	1	1,16
f	66	40	0	5	0	12,50
g	67	71	0	0	0	0,00
h	68	121	0	4	0	3,31
i	69	178	23	0	0	12,92
j	6a	3	4	0	0	133,33
k	6b	21	0	1	0	4,76
l	6c	91	2	0	0	2,20
m	6d	64	0	19	0	29,69
n	6e	249	7	7	0	5,62
o	6f	48	0	0	0	0,00
p	70	11	0	0	0	0,00
r	72	148	0	0	0	0,00
s	73	37	2	0	0	5,41
t	74	133	0	1	0	0,75
u	75	105	0	11	1	11,43
v	76	18	0	0	0	0,00
w	77	31	0	0	0	0,00
x	78	1	0	0	0	0,00
y	79	1	0	0	0	0,00
z	7a	38	0	0	0	0,00
«	ab	0	1	0	0	Infinity
»	bb	0	1	0	0	Infinity
Ä	c4	2	0	1	0	50,00
ß	df	7	0	0	0	0,00
ä	e4	13	0	0	0	0,00
ö	f6	11	0	0	0	0,00
ü	fc	21	0	9	0	42,86
ſ	17f	90	0	90	0	100,00
–	2013	2	0	2	0	100,00
—	2014	0	1	0	0	Infinity
“	201c	3	0	3	0	100,00
„	201e	3	0	3	0	100,00

Mittwoch, 5. Juni 2013

Teil 9, Selbstversuch Ebook - Befreiung am Beispiel "Bunte Bilder aus dem Sachsenlande", Verbesserung Tesseracts Erkennungsrate

Im letzten Blogpost "OCR Qualität bestimmen" habe ich grob beschrieben, wie man beurteilen kann, wie gut die Erkennungsqualität der verschiedenen OCR-Engines ist.
Als Maß hatte ich dort die Worterkennungsrate verwendet, da diese im Vergleich zur Zeichenerkennungsrate genauer ist. Gerade bei Verfahren, die intern Wörterbücher verwenden, kann die Zeichenerkennungsrate hoch sein, der Text bleibt dennoch unleserlich.

Um die Erkennungsqualität von Tesseract 3.02 zu verbessern habe ich mir die Beschreibung der Konfigurationsoptionen unter http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version angeschaut.

Folgende Werte hatte ich bisher in der Datei deu-frak.config stehen:

enable_new_segsearch 1
textord_space_size_is_variable 1
load_bigram_dawg 1

Die Worterkennungsrate betrug damit 86% (die Diskrepanz zum Wert 60% aus Blogpost rührt daher, daß die Wörter der benutzten Seite da noch nicht im fürs Training verwendeten Wörterbuch steckten. Dies zeigt, wie wichtig die Pflege eines korrekten Wörterbuches für die Erkennungsrate von Tesseract ist).

Im ersten Schritt habe ich nur einzelne der ff. Parameter (* zeigt Default an) verändert:

Parameter	0	1
enable_new_search	92%	(*) 86%
language_model_ngram	(*) 86%	36%
textord_old_baselines	89%	(*) 86%

Die Werte textord_space_size_is_variable, load_bigram_dawg, edges_use_new_outline_complexity, permute_script_word, ngram_permuter_activated, use_new_state_cost führten zu keiner Änderung der Erkennungsrate von 86%.

Warum die Erkennungsrate bei language_model_ngram so stark einbricht, verstehe ich noch nicht.

Im zweiten Schritt habe ich die beiden Parameter, die eine Verbesserung zeigten, kombiniert. Voila!, die Worterkennungsrate steigt auf 93%!

Wer noch Hinweise für sinnvolle Kombinationsmöglichkeiten anderer Parameter hat, immer her damit! :)

OCR Qualität bestimmen

wdiff

Mit 'wdiff' habe ich nun mal den Vergleich gemacht zwischen trainiertem Tesseract, trainiertem Ocropus, und Tesseract in Standardauslieferung mit Deutsch (deu).

Dazu habe ich eine Seite als Vergleich herangezogen, die ich schon in http://art1pirat.blogspot.de/2013/01/teil-8-selbstversuch-ebook-befreiung-am.html voll korrigiert hatte.

Der Aufruf sieht so aus: "wdiff -s $CORRECT $OCRED | tail -1"

Ergebnisse

Tesseract (trainiert)
img110_tesseract.txt: 322 Wörter 193 60% gleich 0 0% eingefügt 129 40% verändert

Tesseract (deu)
img110_tesseract.txt: 322 Wörter 62 19% gleich 0 0% eingefügt 260 81% verändert

Ocropus 0.7 (trainiert)
img110_ocropus.txt: 419 Wörter 108 26% gleich 0 0% eingefügt 311 74% verändert

Fazit

Wie man sieht, Training lohnt sich. ;)

Ocropus 0.7 stürzt beim Training (sh. http://art1pirat.blogspot.de/2013/05/ocropus-07-training.html) ab, ich habe den letzten funktionierenden Zwischenstand (nach 5190 Schritten) des Modells genommen, den man via ff. Aufruf bekommt:

ocropus-rtrain 'ocropus/*/*.bin.png' -F 30 -d 1 -o bbads_fraktur

Dabei sorgt die Option -F 30 dafür, daß aller 30 Schritte das Modell (bbads_fraktur) gesichert wird.

Tesseract hat noch einen vermutlich für Fraktur besser arbeitenden Trainingsmodus namens Cube. Wer dazu Infos hat, immer her damit.

Ansonsten habe ich jetzt ein Werkzeug an der Hand die Auswirkungen der verschiedenen Optionen der OCR-Engines und der Vorverarbeitungen quantitativ zu überprüfen.

Dienstag, 21. Mai 2013

Ocropus 0.7 – Training

Trainingsausgabe Ocropus 0.7

Im letzten Beitrag hatte ich einen ersten Vergleich zwischen Ocropus 0.7 und Tesseract 3.02 gezogen. Da leider die mitgelieferten Dateien für Fraktur keine Unterstützung für das lange-S beinhalten, muß ich Ocropus selber trainieren.

Unterschied Tesseract- und Ocropus Trainingsdaten

Leider hat sich bei Ocropus 0.7 der Trainingsmodus geändert. Um die gleichen Dateien, wie Tesseract 3.02 zu verwenden, habe ich ein Script geschrieben, welches die Tesseract-Boxfiles und zugehörige TIFF-Dateien so umwandelt, daß die von Ocropus erwarteten zeilenbasierten PNG-Dateien mit zugehörigen Text-Dateien erzeugt werden.

Aus dem tess_train Verzeichnis:

tess_train
├── bigram_words
├── deu-frak.bigram-dawg
├── deu-frak.config
├── deu-frak.frak2.exp0.box
├── deu-frak.frak2.exp0.tif
├── deu-frak.frak2.exp0.tr
├── deu-frak.frak2.exp0.txt
:
├── deu-frak.frak2.exp9.box
├── deu-frak.frak2.exp9.tif
├── deu-frak.frak2.exp9.tr
├── deu-frak.frak2.exp9.txt
├── deu-frak.freq-dawg
├── deu-frak.inttemp
├── deu-frak.normproto
├── deu-frak.number-dawg
├── deu-frak.pffmtable
├── deu-frak.punc-dawg
├── deu-frak.shapetable
├── deu-frak.traineddata
├── deu-frak.unicharambigs
├── deu-frak.unicharset
├── deu-frak.word-dawg
├── font_properties
├── freq
├── get_bigramword_list.pl
├── get_freqlist.pl
├── get_wordlist.pl
├── number
├── ogerman
├── punc
├── train.sh
├── unicharset
└── unicharset.edited

Sonntag, 21. April 2013

Ocropus 0.7, erste Tests

S.99 der »Bunte Bilder aus dem Sachsenlande«,
Band1, 1902, selbstgescannt

Im April ist Ocropus in der Version 0.7 erschienen und dies war eine gute Gelegenheit zu schauen, wie gut es mit der Erkennungsqualität gegenüber dem trainierten Tesseract 3.02 aussieht.

Installation

Die Installation ist auf der Webseite gut beschrieben und hat diesmal auch unter Debian Wheezy funktioniert:

    $ hg clone -r ocropus-0.7 https://code.google.com/p/ocropus
    $ cd ocropus/ocropy
    $ sudo apt-get install $(cat PACKAGES)
    $ python setup.py download_models
    $ sudo python setup.py install
    $ ./run-test

Test
Als Test habe ich die Seite 99 der »Bunte Bilder aus dem Sachsenlande« genommen, die oben zu sehen ist. Diese Seite enthält ua. zwei Schriftgrößen und ein Bild der Kurfürstin Anna.

Da Ocropus ein Modell für Fraktur mitbringt, habe ich dieses getestet. Als Vorlage benutzte ich die Schritte der run-test.sh wie folgt:

 convert Bunte_Bilder_aus_dem_Sachsenlande/ppm_single/img110.ppm temp/img110.png
 ocropus-sauvola temp/img110.png  -o temp
 ocropus-gpageseg 'temp/????.bin.png'
 ocropus-rpred -m fraktur.pyrnn 'temp/????/??????.bin.png'
 ocropus-hocr 'temp/????.bin.png' -o temp.html
 ocropus-visualize-results temp
 ocropus-gtedit html temp/????/??????.bin.png -o temp-correction.html

Ergebnis
Das Ergebnis läßt sich, bis auf die fehlende Unterstützung des langen-S durchaus sehen. 

Hier die Ergebnisse im Vergleich, zuerst Tesseract:

 die Muſik nnd Handarbeit, nainentlich das Drechſeliu Zu den Schiitzenſeſten der

Bürger reiſte er gern. Den Schützengilden verlieh er Böller und Kanonen als Aus-

zeichnung. überhaupt nahm er an den Freuden und Leiden ſeiner Landeskinder

gern teil; er und ſeine Gemahlin ließen ſich oft als Taufpaten wählen und ſtat-

teten Brautleute reichlich aus.

So war er ein trefflicher Landesvater. Sollte er nlcht auch ein trefflicher

Gatte und Familienvater geweſen ſein2 Bolle 37 Jahre ſtand ihni die Kurfürſtin

Anna in Liebe und Treue zur Seite; ja, in dieſem langen Eheleben war fie nur

wenige Wochen von ihni entfernt. Sie begleitete ihn auf Reiſen zu Reichs- und

Kurfürſtentagen, an auswärtige Höfe, ja ſelbſt auf Jagdzüge. Sie beſuchte an

ſeiner Seite den Landwirt, den Bienenzüchter, den Obſt- und Weinbauer, den

Handwerksmann und den Künſtler. Aufs treulichſte wachte ſie über ihre Kinder,

9 Prinzen und 6 Prin-

zeſſinnen, von denen aber

nur vier die Eltern über-

lebten. In der Kapelle

des Auguſtusburger

Schloſſes wird ein Altar-

bild gezeigt, gemalt von

dem jüngeren Cranach,

welches den ani Kreuz er-

höhten Chriſtus und dar-

nnter zu beiden Seiten

den Kurfürſten niit den

Prinzen und die Kur-

fürſtin mit den Prinzeſ-

ſinnen in betender Hal-

tnng darſtellt.

Anna war das .

ßlttuſter einer Haus-

frau. Auf dem Oſtra-

uortnerke ſtellte ſie die

dtttägde an und hielt auf

Ordnung und Sittſamkeit.

In aller Frühe erſchien ſie täglich in der Gutswirtſchaft, nnterſuchte deu Stall,

prüfte die Molkerei und ordnete den Verkauf für den Markt an. Sie ſchäinte

ſich nlcht, ihre Tafelbutter ſelbſt zu rühren, ihrem Gemahl die feine Wäſche ſelbſt

zu maſchen und zu plätten. Den Schlüſſel zu ihreui eigenen Wäſchevorrat führte

ſie ſtets bei ſich. Sie hielt es niit Luthers Ausſprnch:

„Der Mann inuß ſelber ſein der Knecht,

Will er ini Hauſe ſchaffen recht;

Die Frau inuß ſelber ſein die Mad,

Soll ſie im Hauſe ſchaffen Rat.

Geſinde nininierhiu bedenkt,

Was Nutz und Schad dem Hauſe brengtltt

Mutter Anna.

7*

Und hier Ocropus:

=- Iß -

die Musik und Handarbeit, namentlich das Drechseln. Zu den Schützenfesten der
Bürger reiste er gern. Den Schützengilden verlieh er Böller und Kanonen als Aus-

zeichnung. Überhaupt nahm er an den Freuden und Leiden seiner Landeskinder

gern teil; er und seine Gemahlin ließen sich oft als Taufpaten wählen und stat-

teten Brautleute reichlich aus.

So war er ein trefflicher Landesvater. Sollte er nicht auch ein trefflicher
Gatte und Familienvater gewesen sein? Volle 8? Jahre stand ihm die Kurfüür stin

Anna in Liebe und Treue zur Seite; ja, in diesem langen Eheleben war sie nur

wenige Wochen von ihm entfernt. Sie begleitete ihn auf Reisen zu Reichs- und

Kurfürstentagen, an auswärtige Höfe, ja selbst auf Jagdzüge. Sie besuchte an

seiner Seite den Landwirt, den Bienenzüchter, den Obst- und Weinbauer, den

Handwerksmann und den Künstler. Aufs trenlichste wachte sie über ihre Kinder,

9 Prinzen und G Prin-

zessinnen, von denen aber

nur vier die Eltern über-

lebten. In der Kapelle

des Augustusburger

Schlosses wird ein Altar-

bild gezeigt, gemalt von

dem jüngeren Cranach,

welches den am Krenz er-

höhten Christus und dar-

unter zu beiden Seiten ,

z

?

den Kurfürsten mit den z
Vze = »- =. zF-

fütrstin mit den Prinzes-

sinnen in betender Hal-

tung darstellt.

- ?

. --'

-=- - ?

?

=e..-

=-D

a=FI

Anna war das -

Mägde an und hielt auf
Ordnung und Sittsamkeit.

- R «

- - ? =.

:; --

s?

? -

,. - =-

?F

R?? - - - --=

vorwerke stellte sie die

--S

-''. ? .---

'? e --

! ?? -

Flutter Anna.
-e

«

s- E

It aller Frühe erschien sie täglich in der Gutswirtschaft, untersuchte den Stall,

prüüfte die Molkerei und ordnete den Verkauf für den Markt an. Sie schämte

sich nicht, ihre Tafelbutter selbst zu rühren, ihrem Gemahl die feine Wäsche selbst

z waschen und zu plätten. Den Schlüssel zu ihrem eigenen Wäschevorrat führte

sie stets bei sich.

Sie hielt es mit Luthers Ausspruch:

, Der Mann muß selber sein der Knecht,

Will er im Hause schaffen recht;

Die Frau muß selber sein die Mad,

Soll sie im Hause schaffen Rat.

Gesinde nimmerhin bedenkt,

Was Nutz und Schad dem Hause brengt!

Fazit Insgesamt ist die Entwicklung von Ocropus vielversprechend. Da allerdings wieder mal der Trainingsmodus geändert wurde, müssen die Daten, die ich für das Training von Tesseract verwende erstmal in die Zeilenbasierte Variante von Ocropus umgewandelt werden. Sicherlich läßt sich die Erkennungsqualität noch steigern. Im Vergleich zu Tesseract fällt auf, daß Ocropus Bilder noch nicht zuverlässig erkennt und vor dem OCR Prozess herausfiltert. Hilfreich ist die Ausgabe von hOCR, da man so leicht Probleme im OCR-Prozess visualisieren und erkennen kann.

Bei Tesseract besteht aber auch noch Hoffnung, da es einen (leider noch nicht dokumentierten) Cube-Trainings-Modus mitbringt, der die Probleme bei der Erkennung von Fraktur, insbesondere die Verwechslung von 'u' mit 'n' und 'f' mit 'ſ' verringern sollte.

Donnerstag, 13. Dezember 2012

Teil 6, Selbstversuch Ebook - Befreiung am Beispiel "Bunte Bilder aus dem Sachsenlande"

OCR Verbesserung mit unicharambigs

Mit der Erstellung einer Datei, hier deu-frak.unicharambigs gibt man Tesseract3 Hinweise, welche Zeichen durch welche ersetzt werden können oder sollten.

Hier der Inhalt meiner deu-frak.unicharambigs:

v1
1    B    1    V    0
1    c    1    e    0
1    e    1    c    0
1    f    1    ſ    0
1    ſ    1    f    0
1    V    1    B    0
1    m     2    i n    0
2    ( )    1    0    0
2    - —    1    —    1
2    , ,    1    »    1
2    — -    1    —    1
2    — —    1    —    1
2    1 n    1    m    0
2    - 3    1    s    0
2    - H    1    H    0
2    . H    1    H    0
2    - I    1    s    0
2    i h    2    c h    0
2    i i    1    ä    0
2    i i    1    n    0
2    i i    1    ü    0
2    i n    1    m    0
2    i v    1    w    0
2    l 1    1    U    0
2    l )    1    h    0
2    l l    1    U    0
2    n 1    1    m    0
2    n i    1    m    0
2    n i    1    w    0
2    r i    1    n    0
2    s -    1    s    0
2    t )    1    y    0
2    t i    1    n    0
2    t i    1    ü    0
2    t v    1    w    1
2    z n    2    z u    1
2    m i    2    u n    0
2    m n    2    u m    0
3    1 1 )    1    W    0
3    a n ſ    3    a u f    1
3    ä n ſ    3    ä u ſ    1
3    i i i    1    m    1
3    i i ſ    2    n ſ    1
3    i i ß    2    ü ß    1
3    n i a    2    m a    1
3    n n n    2    m m    0
3    ſ e h    3    ſ c h    0
3    ſ r e    3    f r e    0
3    t m n    3    t u m    0
3    C i n    3    E i n    0
3    i i c    2    ü c    1
3    t n d    3    t u d    1
3    u n n    2    m m    0
3    n n r    3    n u r    1
3    n n d    3    u n d    1
3    b n r    3    b u r    1
3    n u e    3    n n e    1
3    o l ſ    3    o l f    1
3    n m n    3    u n m    0
3    n ſ ſ    3    u f f    0

Die erste Spalte gibt an, wieviel Zeichen aus Original mit wievielen Zeichen ersetzt werden sollen.

Diese Zeile zum Beispiel:

3 i i c 2 ü c 1

gibt Tesseract die Anweisung, Teilstrings "iic" durch "üc" zu ersetzen.

Erste Ergebnisse

Nach der OCR Erkennung habe ich jetzt im txt-Verzeichnis zu jedem Bild meine Textdateien, die ich nun nach und nach korrigiere. Hier als Ausschnitt die Seite 6 des Buches:

An den Leſer.

Das vorlieqende zweibändige Werk »Bunte Bilder aus dem
Sachſenlande« verſolgt einen doppelten Zweck.

Zunächſt iſt es dazu beſtimmt, Großen und Kleinen, Alten und Jungen
Kunde zu bringen von Land und Leuten, Kunde vom Leben und Treiben,
Singen und Sagen der Bewohner der verſchiedeneir Gegenden unſeres
engeren Vaterlandes. Mit der genaueren Kenntnis der Heimat aber ſoll es
ein lebhaftes Intereſſe ſür die Entwickelung derſelben und ſür ihre Eigen-
artigkeiten und Schönheiten vermitteln und ſo eine Heimatsliebe erwecken und
pflegen, die, wenn ſie ſich frei hält von Engherzigkeit und Überſchätzung
die schönſte Eigenſchaſt eines Staatsbürgers und die beſte Grundlage des
wahren, qeſunden Patriotismus iſt, der unſerem deutſchen Volke ſo not thut.

Daneben will das Buch aber auch darauf hinwirken, daß das Band
der Liebe, welches das Herrſcherhaus ſeit mehr denn 800 Jahren mit Land
und Volk verknüpft, ein immer innigeres und feſteres werde. An den
verſchiedenſten Stellen nimmt es daher Bezug auf die Geſchichte des er-
lauchten Hauses Wettin und auf den Einſluß, den die Herrſcher desſelben
auf das Gedeihen und Blühen des Sachſenlandes und auſ das Wohl des
Sachſenvolkes ausgeübt haben.

Die zahlreichen Artikel ſind in der Hauptſache geographiſcher und ge-
ſchichtlicher Natur; und da man ein Volk in ſeiner Eigenart nicht zum ge-
ringſten auch aus Sitte, Sang und Sage kennen lernt, ſo iſt anch dieſe
Seite des Volkslebens nichts unberückſichtigt geblieben.

Die Beiträge ſür das Buch ſind gelieſert worden von Lehrern und
Freunden der Jugend aus den verſchiedenſten Landesteilen. Einige dieſer
Beiträge erſcheinen im Gewande der Wiſſenſchaftlichkeit und ſind die Frucht
eingehender Quellenſtudien und ſachmänniſcher Einſicht, andere ſind in Form
und Inhalt mehr der Auffaſſungskraft des ſchlichten Mannes angepaßt;
einige ſind mehr belehrend, andere mehr unterhaltend, noch andere ſind

Sonntag, 9. Dezember 2012

Teil 5, Selbstversuch Ebook - Befreiung am Beispiel "Bunte Bilder aus dem Sachsenlande"

Update

Ergänzt um Wörterbucherzeugung und Häufigkeitsliste. Korrektur Fehler OCR-Text (falsche Datei erwischt).

Seitenweises Zeichenerfassen

Wie im letzten Artikel beschrieben, habe ich mir zur Verbesserung der Erkennungsgenauigkeit von Tesseract 3 Paare von TIFF-Dateien und Box-Dateien erzeugt, um die Zuordnung von Blobs zu den Zeichen im UTF-8 Format mit Hilfe von jTessBoxEditor festzulegen.

Ich hatte dazu 5 Seiten aus dem Originalscan ausgewählt, zwei davon aus dem Inhaltsverzeichnis, um auch Ziffern zu erfassen.

Diese Zuordnung hat relativ lange gedauert, da ich pro Seite ca. 2500 Zeichen editieren mußte.

Hartes Training

Das Training von Tesseract besteht aus mehreren Schritten. Wichtig ist die Erzeugung der font_properties Datei, die angibt, daß der Font gebrochen ist, sprich als Frakturschrift daherkommt. Dazu wird folgende Zeile eingetragen:

frak2 0 0 0 0 1

Ebenfalls wichtig sind zwei Dinge, erstens eine Wortliste, die auch Besonderheiten, wie das lange S korrekt enthalten sollte, zweitens ein Häufigkeitsliste, die angibt, welche Wörter, wie häufig vorkommen. Wenn man hier keine Arbeit reinstecken möchte, kann man die Dateien vom deu-frak-Paket verwenden (ist bei Tesseract dabei), die aber keine Unterstützung für langes S beinhaltet.

Mein Weg war daher folgender. Aus den Box-Dateien habe ich die Wörter extrahiert und daraus meine Wortliste gebaut.

Dazu habe ich mit folgendem Aufruf aus allen Box-Dateien die Wörter in eine Textdatei geschrieben und mit Editor in eine Wortliste umgewandelt:

cat deu-frak.frak2.exp*.box | cut -d " " -f 1 | tr -d '\n' > words.txt

Anschliessend die Liste mit sort sortieren und mit uniq die Dubletten entfernen:

cat words.txt | sort | uniq > ogerman

Die Häufigkeitsliste bekommt man mit

cat words.txt |sort -fd | uniq -c | sort -n -r > freq

Mit gnumeric noch schnell die beiden Spalten Häufigkeit und Wort vertauschen.

Die Schritte des Trainings habe ich in einem Script zusammengefasst, ein alternatives Script findet sich unter https://github.com/paalberti/tesseract-dan-fraktur/blob/master/deu-frak/buildscript.sh:

#!/bin/bash
rm -f *.tr *.txt deu-frak.inttemp deu-frak.normproto deu-frak.pffmtable deu-frak.shapetable deu-frak.traineddata deu-frak.unicharset pffmtable unicharset
for i in $(seq 0 5); do
tesseract deu-frak.frak2.exp$i.tif deu-frak.frak2.exp$i nobatch box.train
done
unicharset_extractor deu-frak.frak2.exp0.box deu-frak.frak2.exp1.box deu-frak.frak2.exp2.box deu-frak.frak2.exp3.box deu-frak.frak2.exp4.box deu-frak.frak2.exp5.box
#mftraining -F font_properties -U unicharset -O unicharset deu-frak.frak2.exp0.tr deu-frak.frak2.exp1.tr deu-frak.frak2.exp2.tr deu-frak.frak2.exp3.tr
cat unicharset | sed -e "s/^$[æøåäöüâêàèéçßſ][a-z]*$ 0/\1 3/" \
-e "s/^$[ÆØÅÄÖÜÂÊÀÈÉÇ][a-z]*$ 0/\1 5/" \
-e "s/^$[«»„”·§—ɔ–]$ 0/\1 10/" \
-e "s/^ɔ 3 /ɔ 10 /" \
-e "s/^½ 0/½ 8/" | sed -e "s/^$[æøåäöüâêàèéçßa-zÆØÅÄÖÜÂÊÀÈÉÇA-Zſ].*$ NULL /\1 Latin /" \
-e "s/^$[«»„”·§—ɔ–[:punct:][:digit:]].*$ NULL /\1 Common /" \
-e "s/^$&c .*$ Common /\1 Latin /" > unicharset.edited
#mftraining -F font_properties -U unicharset -O unicharset deu-frak.frak2.exp0.tr deu-frak.frak2.exp1.tr deu-frak.frak2.exp2.tr deu-frak.frak2.exp3.tr
shapeclustering -F font_properties -U unicharset.edited deu-frak.frak2.exp0.tr deu-frak.frak2.exp1.tr deu-frak.frak2.exp2.tr deu-frak.frak2.exp3.tr deu-frak.frak2.exp4.tr deu-frak.frak2.exp5.tr
mftraining -F font_properties -U unicharset.edited -O deu-frak.unicharset deu-frak.frak2.exp0.tr deu-frak.frak2.exp1.tr deu-frak.frak2.exp2.tr deu-frak.frak2.exp3.tr deu-frak.frak2.exp4.tr deu-frak.frak2.exp5.tr

cntraining deu-frak.frak2.exp0.tr deu-frak.frak2.exp1.tr deu-frak.frak2.exp2.tr deu-frak.frak2.exp3.tr deu-frak.frak2.exp4.tr deu-frak.frak2.exp5.tr
wordlist2dawg ogerman deu-frak.word-dawg deu-frak.unicharset

wordlist2dawg freq.txt deu-frak.freq-dawg deu-frak.unicharset

mv inttemp deu-frak.inttemp
mv normproto deu-frak.normproto
mv shapetable deu-frak.shapetable
mv pffmtable deu-frak.pffmtable
combine_tessdata deu-frak.

Hat alles funktioniert existiert im Verzeichnis tess_train/ die Datei deu-frak.traineddata, die für das OCR der anderen Seiten interessant ist.

OCR über alle Seiten

Zurück im Hauptverzeichnis, geht es nun ans Eingemachte. Tesseract kann man über die Variable TESSDATA_PREFIX mitteilen, wo es die OCR-Trainingsdaten findet.
Tesseract sucht im angegebenen Verzeichnis nach dem Verzeichnis tessdata/, ich kopiere dazu aus tess_train/ die deu-frak.traineddata.
Um jetzt für alle im Verzeichnis ppm_single/ befindlichen Einzelseiten, eine optische Zeicherkennung zu machen, benutze ich folgenden Aufruf, der im Verzeichnis txt/ die Text-Dateien erzeugt:

export TESSDATA_PREFIX=/tmp/Bunte_Bilder_aus_dem_Sachsenlande/

for i in ppm_single/*.ppm; do echo $i; convert $i /tmp/img.tif; tesseract /tmp/img.tif txt/$(basename $i '.ppm') -l deu-frak; done

Alternativ kann tesseract auch hOCR ausgeben. hOCR ist ein HTML/XML Format, welches im Rahmen von Google Ocropus entwickelt wurde und die Zuordung erkannter Text, Struktur und die zugrundeliegenden Bilder ermöglicht. Es wird mittlerweile von einer großen Anzahl an OCR-Programmen unterstützt. Eventuell erzeuge ich das hOCR mit, um ggf. daraus leichter das EPub-Format zu erzeugen.

OCR Ergebnis am Beispiel-Text der Seite 70

_.70—

keiten von kunſtgeioerblichem und knltiirhiſtoriſcheiii Jntereſſe enthält: wertvolle
Ringe und Ariuſpangen, lenchtende Dianianten und Rubinen, den größten Onyx
der Welt mit weißeiii Rande, Halsbäiider aus Edelſteinen und Perlen, goldene
Geſäße und ſeltene Uhren, ſeine Knnſtarbeiten früherer Jahrhnnderte und mancherlei
Kurioſitäten. Waffen der verſchiedenſten Zeitalter aus Jtalien und der Türkei,
Figuren aus Bronze und Elſenbein, der Kriſtallbecher Luthers und der Brillant-
ſchinuck der Königin: Tauſende von Prachtſtiicken leuchten hier dem Auge des Ve-
ſchauers entgegen. Fiirwahr, das Grüne Gewöll)e ſteht in Europa einzig in
ſeiner Art da; es hat einen wirklichen Wert von über 40 Millionen, während ſein
Kunſtwert ſich gar nicht abſchätzen läßt. Der Name ,,Griines Gewölbe«, der

bereits im 17. Jahrhundert vorkoniint, wird bald von den Gartenaiilageii her-
geleitet, welche ſich einſt vor den Fenſtern der Samiiiluiig beſanden, bald, was
noch glaubhaſter iſt, von der ſriiheren griinen Färbung der Wände.

Einen andern höchſt wertvollen Schatz beſitzt Dresden in der Gemälde-
galerie, uutergebracht in dem 1854 vollendeten Muſeum, durch deſſen Bau
Semper in genialem Wurſe den Reuaiſſaneeſtil der Neuzeit begri'uidete. Zu-
gleich ſchuſ Seinpers Nieiſterhand damit einen echt künſtleriſchen Abſchliiß des
Zwingers, des pl)antaſtiſchſteii, im Barockſtil gehaltenen Bauwerkes Auguſts des
Starken. Bekaniitlich war der Zwinger, der 1711 vollendet ward, nur als Borhoſ
eines ſreilich nicht zur Ausſiihruiig gekommenen Prachtſchloſſes gedacht, welches ſeine
gewaltige Front mit den Terraſſen gegen die Elbe kehren ſollte. Der Zwinger
bildet ein 250 Meter langes und 1()0 Meter breites Biereck, deſſen weiten Rauin
eine lange Galerie mit 6 Pavillons und 3 Portalen umſchließt, und in deſſen
Mitte ſeit 1843 das Denkmal Friedrich Auguſts des Gerechten, ein Werk Riet-
ſchels, auſgeſtellt iſt.

Donnerstag, 22. November 2012

Teil 4, Selbstversuch Ebook - Befreiung am Beispiel "Bunte Bilder aus dem Sachsenlande"

Warum Tesseract

Jetzt geht es ans Eingemachte. Da das gescannte Buch einen eigenen Font in Fraktur verwendet, ist es notwendig diesen Font zu trainieren um später möglichst wenig Nacharbeit zu haben.

Als OCR-Engine für die Texterkennung nutze ich Tesseract. Im Bereich freier Software sind noch cuneiform und ocropus halbwegs brauchbar. Ersteres kommt mit zuwenig Dokumentation und fällt daher fürs Trainieren der Fonts weg. Letzteres ist schwierig zu kompilieren und die Debian-Variante ist nocch wenig brauchbar.

Tesseract in Version 3 funktioniert ganz gut und ist für den gewünschten Zweck gut genug.

Hartes Training

Um Tesseract zu trainieren folge ich der Anleitung unter http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3. Hier nochmal die einzelnen Schritte:

mkdir tess_train
cd tess_train/
convert ../ppm_single/img012.ppm deu-frak2.exp0.tif
TESSDATA_PREFIX=./ tesseract -psm 6 -l deu-frak deu-frak.frak2.exp0.tif deu-frak.frak2.exp0 batch.nochop makebox

convert ist Teil von ImageMagick und kopiert die Scanseite ins von tesseract erwartete TIFF-Format. Anschliessend wird ein box-file erzeugt, welches die Koordinaten der erkannten Symbole enthält.

Mit Hilfe von dem unter http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ zu findenden jTessBoxEditor weise ich den grafischen Symbolen den korrekten Unicode zu. Korrekt heißt auch, Besonderheiten, wie das lange 'S' zu berücksichtigen. Dies dauert eine Weile, hier ein Screenshot:

Anschliessend wird tesseract trainiert. Dazu später mehr.