Donnerstag, 29. Oktober 2015

Hilfe, ich verstehe nicht in welcher Auflösung ich scannen muß!

mindestens 2 Pixel Abstand zwischen Glyphen,
aber auch mindestens 2 Pixel für dünne
Bestandteile eines Glyphen

Allgemein

mit der Angabe dpi (dots per inch) definiert man die Auflösung eines digitalen Bildes. Man gibt an welcher Länge eine gewissen Anzahl von Pixeln eines Bildes entsprechen. In den Digitalisierungsrichtlinien zB. der DFG wird oft eine Auflösung von 300 dpi angegeben. Dies bezieht sich immer auf 1:1 Vorlagen, sprich, wenn Original und (digitale) Reproduktion die gleiche Größe besitzen. 300pi sind dann ein guter Kompromiß zwischen Dateigröße und Schärfegrad, bzw Nicht-mehr-Pixeligkeit beim 1:1 Druck.

Die Auflösung ist daher auch ein Maß der Ortsfrequenz des digitalen Bildes. Die Wahl der Scanauflösung bestimmt daher auch die Anfälligkeit des Digitalisats für Aliasing-Effekte in Abhängigkeit der Details des Originals.

Für die Berechnung gilt, wenn die Druckgröße von der Scangröße abweicht, wie dies zB. bei der Microverfilmung passiert oder bei Reproduktionsvergrößerungen, muß man etwas mehr genauer hinschauen.


                   Anzahl der Pixel
Auflösung = ----------------
                   Breite der Vorlage

Beispiel 1:1 Kopie

Liegt das Original in 10 x 10 inch vor und man möchte eine 1:1 Kopie im Druck darstellen, dann reichen die zB. bei der DFG angegebenen 300dpi, da dies dann 3000 x 3000 Pixeln entspricht.

 

Beispiel Bildschirmansicht

Viele Bildschirme kommen mit einer Auflösung von 100 dpi (früher 75 oder 90 dpi). Wenn man also ein Dokument 10x10 inch mit 300dpi gescannt hat, dann macht dies 3000x3000 pixel. Der Monitor kann aber nur 100dpi anzeigen, daher wird der Scan am Monitor mit je 3000dots/100 dpi = 30 inch Größe  angezeigt.

 

Beispiel Microfilm und Vergrößerung

wenn es sich um Microfilm handelt, wären 200dpi *erst recht* zuwenig. Die 300dpi wurden für eine 1:1 Repräsentation festgelegt.

Wenn Du vom Microfilm scannst, willst Du aber auf das Original vergrößern, dh.die notwendige DPI-Zahl ergibt sich aus der Zielgröße.

Ein Original der Größe 10x10 inch wurde auf Microfilm der Größe 0,1x0,1 inch verfilmt. Die Verfilmung soll gescannt werden, damit man Reproduktionen des Originals von 20x20 inch anfertigen kann.

Bei einer Druckauflösung von 300dpi müsste man also die 20x20 inch Reproduktion anfertigen. Das macht aber die 200fache (2x größer als Original und jenes 100x größer als Microverfilmung)  Vergrößerung der Microverfilmung aus, du brauchst daher  200*300dpi = 60.000dpi.

Ist auch logisch, denn wenn Du 0,1 inch mit zum Beispiel 200dpi scannen würdest, bekämst Du 200dpi * 0,1 inch = 20 Pixel heraus. Diese 20 Pixel würdest Du im Beispiel auf 20 inch verteilen, womit ein Pixel genau 1 inch groß wäre.

Wenn Du aber die 0,1 inch mit 60.000dpi scannst, bekommst Du 60.000dpi * 0,1 inch = 6000 pixel heraus, die  Du in der Vergrößerung auf 20 inch verteilst, was 6000dots/20inch = 300dpi Druckauflösung entspricht.

Sonntag, 18. Oktober 2015

Dschiu-Dschitsu


Das nebenstehende Büchlein hatte ich vor ein paar Wochen auf dem Flohmarkt erstanden.

Unter der Adresse http://andreas-romeyke.de/Dschiudschitsu.djvu habe ich die digitalisierte Datei als DJVu frei zur Verfügung gestellt (einen Urheberrechtsvermerk konnte ich bei der DNB nicht finden, IMHO sollte es mittlerweile gemeinfrei sein)

Das Büchlein wurde mittels xsane gescannt, dann mit tiff2pdf, pdf2djvu in ein DJVu konvertiert.

Mit didjvu würde man bessere Ergebnisse erzielen, leider erzeugt das Programm zZ. aber invertierte Seiten, wenn man es mit monochromen TIFFs füttert.

Die OCR erfolgte über ocrodjvu unter Zuhilfenahme von tesseract 3.03 und "-l deu-frak". Ein Postprocessing erfolgte nicht, einzig die Überschriften und Bildunterschriften wurden manuell mit djvusmooth nachkorrigiert.

Die Metadaten wurden über djvused hinzugefügt.

Anbei nochmal eine Zusammenfassung der Metadaten (nach Angabe der DNB):

  • Author:  "Shunsho, Daiji"
  • Titel: "Dschiu-Dschitsu"
  • Erscheinungsjahr:   1926
    Teil der: "Miniatur-Bibliothek ; 721/722"
  • Verlag: "Leipzig : Verlag für Kunst und Wissenschaft, 1926."
Wenn jemand den Volltext korrigiert, ich wäre an der korrigierten Fassung interessiert. Wer og. Digitalisat weiterverwenden will, dem bitte ich zur Aufrechterhaltung meiner Motivation um eine kleine Erwähnung. :)

Montag, 12. Oktober 2015

Der Mythos Audio in Digitalisierungsempfehlungen

Das Problem


Ich arbeite im Bereich der digitalen Langzeitarchivierung und bei den Diskussionen, in welcher Form wir Filmmaterial (zB. 16mm Lichtton) haben wollen, bekomme ich immer wieder Digitalisierungsempfehlungen  um die Ohren gehauen, die mir als Informatiker mit nachrichtentechnischem Hintergrund nicht einleuchten.

Für Bildmaterial gibt Kodak an, daß man in 3600dpi scannen sollte, damit man die höchste Ortsfrequenz, die der Film auflöst noch erfasst hat. Das ist für mich einsichtig.

Jetzt wird es kurios. Nach einigen Recherchen beträgt die Bandbreite für Ton auf 16mm Film in Lichttontechnik nur 5kHz. Nach Shannon-Niquist reicht es also den Ton mit 10kHz zu digitalisieren, gehen wir auf nächsthöhere übliche Frequenz, dann wären wir bei 16kHz.

Als ich dies vorschlug regte sich massiver Widerstand, "Ja, aber die und die sagen 96kHz!"

Und tatsächlich:
* ALCTS empfiehlt mindestens 96kHz: http://www.ala.org/alcts/resources/preserv/minimum-digitization-capture-recommendations#audio
* IASA empfiehlt 48kHz, besser seien mindestens 96kHz  http://www.iasa-web.org/tc04/audio-preservation

Hmm, vielleicht wäre eine Erklärung, daß Shannon sein Theorem auf ideale Filter stützt, die in der Praxis nicht vorkommen. Doch neuere Literatur zeigt, daß Shannon-Niquist auch heute noch Gültigkeit hat, auch unter Bedingungen von nicht-idealen Filtern:
Sampling—50 Years After Shannon
M. Unser
Proceedings of the IEEE, vol. 88, no. 4, pp. 569-587, April 2000.
This paper presents an account of the current state of sampling, 50 years after Shannon's formulation of the sampling theorem. The emphasis is on regular sampling where the grid is uniform. This topic has benefited from a strong research revival during the past few years, thanks in part to the mathematical connections that were made with wavelet theory. To introduce the reader to the modern, Hilbert-space formulation, we re-interpret Shannon's sampling procedure as an orthogonal projection onto the subspace of bandlimited functions. We then extend the standard sampling paradigm for a representation of functions in the more general class of "shift-invariant" functions spaces, including splines and wavelets. Practically, this allows for simpler—and possibly more realistic—interpolation models, which can be used in conjunction with a much wider class of (anti-aliasing) pre-filters that are not necessarily ideal lowpass. We summarize and discuss the results available for the determination of the approximation error and of the sampling rate when the input of the system is essentially arbitrary; e.g., non-bandlimited. We also review variations of sampling that can be understood from the same unifying perspective. These include wavelets, multi-wavelets, Papoulis generalized sampling, finite elements, and frames. Irregular sampling and radial basis functions are briefly mentioned.

Woher die Diskrepanz?

Nach etwas mehr Recherche sieht es so aus, daß Digitalisierungsempfehlungen für Audio zwar oft 48, 96 oder gar 192kHz Samplingrate empfehlen, nicht aber hinschreiben, warum das sinnvoll wäre.

Nach einigen Gesprächen scheint sich ein klareres Bild zu ergeben. Man sampelt die Audioquellen mit dem n-fachen der Grenzfrequenz, um statt im analogen Bereich lieber digital zu filtern. Für digitale Filterung ist es aber nötig höher abzutasten (damit man mehr "Datenpunkte" für den Filter bekommt)

Was aber nun das eigentliche Problem ist, die hochgesampelten und ggf. digitalgefilterten Daten werden nicht wieder heruntergesampelt auf die untere (notwendige) Samplingrate. Gehen wir von Hifi Audio aus, dann hat man da vlt. Frequenzen von bis zu 24kHz im Audiosignal (die man haben will) und Rauschen und sonstige Störgeräusche oberhalb 24kHz, die man nicht haben will . Bei einer analogen Filterung müßte man nun einen steil wirkenden Tiefpaß mit der Grenzfrequenz von 24kHz einsetzen. Das Problem ist, daß  zB. ein einfacher Butterworth-Filter das Signal ab der Grenzfrequenz nur um 3dB dämpft. Die gedämpften Anteile ab der Grenzfrequenz werden aber mit digitalisiert und verletzen dann das Niquist-Kriterium und sorgen für Aliasing-Effekte.

Wenn man dagegen digital filtert, kann man die Grenzfrequenz durch das Überabtasten (oversampling) erstmal nach oben schieben und ein billiges analoges Filter nehmen. Der eigentliche interessante Bereich (die 24kHz) wird dann mit digitalen Filtern "herausgearbeitet". Auch kann man digitale Filter so konstruieren, daß diese nicht zu Schwingungen angeregt werden und Quantisierungsfehler nur geringen Einfluß haben.



Warum Digitalisierungempfehlungen nicht wirklich hilfreich sind

Ich will im Archiv das Signal aufbewahren, mit welchem ich das Original rekonstruieren kann. Dabei muss ich ressourcenschonend arbeiten, da wir zur Absicherung mehrere Kopien an unterschiedlichen Stellen vorrätig halten müssen.

Das Problem ist nun, daß man nun für ein 24kHz Signal  192.000 Samples pro Sekunde bekommt und in den Digitalisierungsempfehlungen nur das Upsamplen (ohne Begründung) drin steht, aber weder Angaben zur digitalen Filterung, noch zum eigentlich notwendigen Downsampling (genauer Decimation) gemacht werden.

Der Witz ist, daß die Argumente, die für den Audiobereich für das Upsampling genannt werden, in gleichem Maße auch für den Videobereich gelten. Nur daß wir es hier mit drei Dimensionen zu tun hätten: Upsampling in horizontaler, in vertikaler und in zeitlicher Auflösung. Dies würde bedeuten, daß man bei der Digitalisierung von Kodak-Film nicht mit 3600dpi, sondern mit n*1800 dpi (wenn wir Audio 24kHz auf 192kHz als Vorbild nehmen würden, dann mit 8-fachem Oversampling, d.h. mit 14.400 dpi scannen müßten. Wir würden also bei den Einzelbildern eine 4*4=16fach höhere Datenmenge bekommen. Wenn man das noch bei zeitlicher Komponente macht (statt 24 fps mit 4*24=96fps) bekämen wir 64fach höhere Datenmenge. Wir könnten dann zwar nach Lust und Laune digital im örtlichen und zeitlichen Bereich filtern, würden dafür aber an den nächsten Baum geknüpft :)

Wer weiterlesen mag, wie das alles im Detail funktioniert, dem empfehle ich als Einstieg den Wikipediaartikel https://en.wikipedia.org/wiki/Decimation_(signal_processing) und https://de.wikipedia.org/wiki/Überabtastung