Bücher digitalisieren

von dessert

Dem Fach ist es geschuldet, dass man als Student der Vergleichenden Sprachwissenschaften wirklich eine riesige Unmenge Bücher gebrauchen und damit auch schleppen muss – normalerweise gehören zu jeder zu betrachtenden Sprache a) mindestens eine Grammatik, nicht selten sind auch zwei oder drei verschiedene vonnöten, b) ein „klassisches“ Wörterbuch und c) mindestens ein etymologisches (= Herkunfts-)Wörterbuch. Dazu kommen allgemeine Übersichtswerke, vergleichende Grammatiken, ein Glossar zum Verständnis von Fachbegriffen, das Lexikon der indogermanischen Verben, Sprachgeschichtsbücher und nicht zu vergessen natürlich die Ausgaben der zu untersuchenden Texte. Ihr könnt euch vorstellen, wie schnell da die 5-kg-Begrenzung der SLUB-Beutel gesprengt ist, und wie ätzend es ist, dass die Germanistik ganz unten (und die Indogermanistik noch dazu versteckt weit hinten) ist, wenn man z. B. mit Kommolitonen in einem Gruppenraum auf Ebene 0 arbeitet.

Dementsprechend hoch ist mein Interesse, zumindest einige Standardwerke einzuscannen und zu PDF-Dateien zu machen – möglichst per Suchfunktion leicht durchsuchbar und mit einem netten Inhaltsverzeichnis ausgestattet, sodass man ganz ohne Gewuchte und hektisches Geblättere schnell findet, was man sucht. Nach intensiver Suche nach den entsprechenden Linuxprogrammen ergab nun der erste Test ein derart ausgezeichnetes Ergebnis, dass ich mir unmöglich verkneifen kann, davon hier zu berichten. Leider ist es mir aufgrund des Urheberrechts nicht möglich, Bilder der erstellten Datei(en) hier einzufügen – natürlich erstelle ich diese PDF-Dateien zu rein privatem Nutzen.

Seinen Anfang nimmt das ganze bei einem Scanner. Ich benutze einen ganz klassischen Flachbettscanner, wie man ihn heute zumeist auf seinem Multifunktionsdrucker findet, wenn man sich die Mühe und mal den Deckel aufmacht. gscan2pdfAls Programm zum Sammeln und Organisieren der einzelnen gescannten Seiten habe ich gscan2pdf entdeckt, ein ganz wunderbares Programm, mit dem man die gescannten Seiten auch sehr leicht beschneiden, drehen (oder gleich beim Scan automatisch drehen lassen) und sortieren kann. Des weiteren ist es in gscan2pdf problemlos möglich, andere PDF- oder Bilddateien wie JPGs oder PNGs als Seiten einzufügen, sodass man auch bereits erstellte PDF-Dateien bearbeiten kann. Nicht zuletzt bietet das Programm verschiedene Methoden der Texterkennung an, ich habe tesseract-ocr genutzt und war überrascht: Die Texterkennung erkennt wirklich fast alle und selbst schlecht gedruckte Wörter völlig korrekt! In jedem Fall reicht der Grad der Erkennung für das Durchsuchen der PDF-Datei nach Stichwörtern völlig aus, auch wenn bisweilen mal ein Komma als Punkt erkannt wird. Was dabei rauskommt: Eine durchsuchbare PDF-Datei, der man absolut nicht ansieht, dass sie mit recht simplen Mitteln eingescannt wurde.

Fehlt also noch das Inhaltsverzeichnis! Dieses lässt sich bei den gängigen PDF-Betrachtern normalerweise links einblenden und ist im Grunde nichts anderes als eine Reihe von Links auf bestimmte Seiten der PDF-Datei.
Dazu fand ich das Programm JPdfBookmarks, das mit Java läuft und daher auch für Windowsler benutzbar ist. Nach kurzer Einarbeitungszeit lässt sich damit schnell und einfach ein Inhaltsverzeichnis mit Einträgen erstellen, die ganz nach Belieben auf eine Seite oder eine bestimmte Position innerhalb der PDF-Datei verweisen. Durch die Texterkennung konnte ich einfach das Inhaltsverzeichnis meines gescannten Buches kopieren, in eine Textdatei einfügen, in das (leicht verständliche) JPdfBookmarks-Format bringen und mit einem Mausklick auf „Load bookmarks from a text file (…)“ importieren. Wie das Format aussieht, kann man sich schnell erschließen, indem man einfach einige Einträge erstellt und entsprechend mit „Dump bookmarks to a text file (…)“ exportiert. Datei speichern, und fertig: Schon hatte ich mit (inklusive Einarbeitungszeit!) nur wenigen Stunden Arbeit meine gewünschte PDF-Datei zusammengeschustert, die mir das Nachschlagen nun erheblich erleichtert.

jpdfbookmarks

Ich kann die zwei Programme gscan2pdf und JPdfBookmarks nur wärmstens empfehlen. Hier noch ein Hinweis zur Installation von Ersterem unter Ubuntu 12.04: In den Paketquellen ist gscan2pdf zwar enthalten, jedoch in einer älteren Version, bei der die Texterkennung tesseract-ocr Deutsch nicht funktioniert. Es empfiehlt sich daher, die aktuelle Version des Programms aus dem oben verlinkten PPA zu installieren.

Werbeanzeigen