nützliche Artikel

Wie erstelle ich ein durchsuchbares PDF-Archiv?

In der Tech-Ratgeber-Kolumne dieser Woche auf Goldavelez.com - bleiben Sie dran, Leute! - helfen wir einem Leser, der viel zu viele wichtige Artikel hat, die einen magischen Übergang in den digitalen Bereich erfordern. Zumindest hört sich das viel aufregender an als die „Optische Zeichenerkennung“, die nicht wirklich von der Zunge rinnt.

Goldavelez.com-Leser Phil schreibt:

Danke für die freundlichen Worte, Phil! Ich helfe gerne - nicht wegen der Schmeichelei, sondern weil viele Leser (auch ich) über Ihre Frage nachgedacht haben. Ich habe eine ganze Reihe von Dingen, die ich gerne von der physischen Welt in die digitale Welt verlagern würde, damit ich dann Marie Kondos Originaldokumente und Fotos in Vergessenheit geraten kann. Papierstapel bereiten mir keine Freude.

Sie haben ein paar Möglichkeiten, die Sie ausprobieren können. Ich würde mit einem offensichtlichen beginnen: Google. Angenommen, Sie erstellen PDF-Dateien, laden Sie Ihre Dateien auf Google Drive hoch. Klicken Sie mit der rechten Maustaste auf eine einzelne PDF-Datei, bewegen Sie den Mauszeiger über "Öffnen mit" und wählen Sie "Google Text & Tabellen" aus. Google wird dann versuchen, eine OCR-Datei für Ihre PDF-Datei auszuführen, und Sie sollten in der Lage sein, die resultierende Datei als Dokument zu speichern. Sie können dann dieses Dokument (und alle anderen, die Sie konvertieren) über Drive selbst durchsuchen.

Je mehr ich darüber nachdenke, desto uneleganter erscheint diese Lösung angesichts der Anzahl der Dateien, mit denen Sie arbeiten müssen. Stattdessen könnte ich eine Software wie TesseractStudio.Net ausprobieren - oder nur Tesseract OCR, wenn Sie die Befehlszeile nicht fürchten. Sie sollten in der Lage sein, OCR-Daten aus Ihren Dateien zu erstellen und diese dann direkt über Windows oder MacOS zu suchen. OCRmyPDF ist eine weitere Option, die Tesseract OCR ähnelt, aber Sie werden wieder mit eingegebenen Befehlen spielen, um OCR auf Ihre Dateien anzuwenden. Es gibt keine GUI und auch keine (direkte) Windows-Unterstützung.

Es gibt auch Paperwork, ein Open-Source-Tool zur Dokumentenkatalogisierung, das mit integrierter Texterkennung ausgestattet ist. Ich würde es auf jeden Fall in Betracht ziehen, da es eine All-in-One-Software zum Archivieren, Sortieren und Durchsuchen von Dokumenten ist. Das klingt so, als ob es genau das ist, wonach Sie suchen.

Ich habe PDF-XChange Viewer nicht verwendet, aber andere haben ihn als Option empfohlen. Die kostenlose Version fügt Wasserzeichen in Ihre PDF-Dateien ein, kann jedoch PDF-Dateien aus Bildern erstellen und, wenn ich richtig bin, vorhandene PDF-Dateien mit OCR versehen. Es lohnt sich zu erkunden, auch wenn es nicht die ideale (kostenlose) Lösung ist. Ebenso kann FreeOCR Ihre Bilder oder PDFs aufnehmen, OCR anwenden und die Ergebnisse als reine Textdateien oder Word-Dokumente exportieren. Wenn es Ihnen nichts ausmacht, Ihre Archive auf diese Weise zu durchsuchen, ist dies eine Option.

Für kostenpflichtige Lösungen gibt es immer Adobe Acrobat Pro oder Foxit PhantomPDF . In beiden Fällen können Sie PDF-Dokumenten OCR hinzufügen und alle Dokumente als großen Stapel verarbeiten (oder ein Skript erstellen, das dies mit dem Inhalt eines Ordners ausführt). Möglicherweise können Sie dies sogar in den kostenlosen Testversionen der Apps erledigen, wenn sie ihre OCR-Funktionen nicht einschränken. Ich habe auch gesehen, dass andere mit Ihrem speziellen Problem Erfolg mit einer App wie PDF OCR haben, die eine billigere Alternative sein könnte.

Das ist alles, was ich mir vorstellen kann (und mit ein wenig Recherche). Hoffentlich funktioniert eine dieser Lösungen für Sie - ohne Ihnen ein kleines Vermögen zu kosten. Schreiben Sie zurück und teilen Sie mir mit, welche App für Sie am besten funktioniert hat!

Tech 911 Hast du eine technische Frage, die dich nachts auf Trab hält? Wir würden es gerne beantworten! E-Mail mit "Tech 911" in der Betreffzeile.