PDFpen logo PDFpen logo

Hilfe: OCR (Optical Character Recognition - Optische Texterkennung)

OCR (Optical Character Recognition) bezeichnet den Prozess, bei dem ein Bitmap-Bild von einem Text (z.B. ein gescanntes Dokument) zu editierbarem Text konvertiert wird, der dann von PDFpen oder anderen Textverarbeitungsprogrammen ausgewählt, kopiert, gefunden etc. werden kann. Sobald ein Text durch die OCR Texterkennung gelaufen ist, wird er auf einer unsichtbaren Ebene über das Bild des Textes gelegt, welches Sie sehen. Wenn Sie Text kopieren, geschieht dies von der unsichtbaren OCR Ebene aus. Die OCR Technologie produziert in der Regel kein perfektes Ergebnis. Sie müssen OCR Text korrekturlesen und bearbeiten.

OCR-Technik erzeugt aus dem Bildtext kein perfektes Abbild des Bildtextes. Sie müssen den Text, der aus der OCR entsteht, noch korrekturlesen und bearbeiten.

OCR in PDFpen verwenden

  1. Öffnen Sie ein in PDFpen gescanntes PDF.
  2. Es erscheint eine Warnbox mit folgendem Hinweis:
    "Dieses Dokument scheint gescannt zu sein. Wollen Sie eine optische Zeichenerkennung (OCR) darauf ausführen? Nach der OCR können Sie dann Text auswählen."
    Sie haben drei Möglichkeiten:
    • Abbrechen:
      Es wird keine OCR vorgenommen.
    • Seite erkennen:
      Auf die Seite wird eine OCR ausgeführt.
    • Dokument erkennen:
      Wenn Ihr Dokument aus mehreren Seiten besteht, wird eine OCR auf alle diese Seiten ausgeführt.

    Stellen Sie unter Einstellungen > OCR ein, welche Sprachen bei der OCR erkannt werden sollen.

Während PDFpen eine OCR ausführt, erscheint ein Fortschrittsbalken. Der Vorgang kann ein paar Sekunden oder länger dauern, je nach Größe und Inhalt des gescannten Dokuments.

Um eine OCR manuell auszuführen, rufen Sie den Menüpunkt Bearbeiten > OCR auf. PDFpen leitet den OCR-Vorgang ein und der Fortschrittsbalken erscheint.

OCR erzwingen

PDFpen betrachtet das Dokument und wenn es ein Bild von der Größe einer Seite bemerkt, geht es davon aus, dass es sich um ein gescanntes Dokument handelt und bietet automatisch an, eine OCR durchzuführen. In manchen Fällen erkennt PDFpen ein gescanntes Dokument jedoch nicht. Der Menüpunkt Bearbeiten > OCR ist dann ausgegraut und kann nicht ausgewählt werden.

  1. Halten Sie die alt-Taste und die Befehlstaste zusammen gedrückt.
  2. Wählen Sie nun die Menüpunkt Bearbeiten > OCR aus.

OCR-Text auswählen,kopieren und korrigieren

Text auswählen, kopieren und verbessern Wenn die OCR Erkennung fertig ist, kann der Dokument-Text wie jeder andere Text editiert werden. Um Textänderungen sichtbar zu machen, verwenden Sie die Text-Korrektur; Details hierzu finden Sie in Arbeiten mit Text.

OCR-Text durchsuchen

Der Text, der durch den OCR-Vorgang erzeugt wurde, kann wie jeder andere Text durchsucht werden. Siehe Suchen innerhalb eines PDFs.

Tipps zum Verbessern der OCR-Ergebnisse Ihres Dokuments:

  • Die Qualität des Ursprungs-Dokuments beeinflusst die Qualität des OCR-Vorgangs. Knackige, saubere Vorlagen mit klarem Text führen zu besseren Ergebnissen als verknitterte, verblasste Fotokopien.
  • Platzieren Sie Ihr Ursprungs-Dokument so gerade wie möglich auf dem Scanner. Wenn Sie ein PDF haben, das nicht gerade, sondern ein wenig gedreht ist, drehen Sie dieses inPRODUCTNAME so, dass das Bild gerade (oder entzerrt) ist, indem Sie den Menüpunkt Bearbeiten > Bild entzerren und anpassen… aufrufen.
  • Erhöhen Sie den Kontrast Ihres gescannten Dokuments, so dass der Hintergrund so weiß wie möglich ist. Sie können den Kontrast des Bildes anpassen, indem Sie den Menüpunkt Bearbeiten > Bild entzerren und anpassen… aufrufen.

Ansicht OCR Text-Ebene

Sobald ein Text durch die OCR Texterkennung gelaufen ist, wird er auf einer unsichtbaren Ebene über das Bild des Textes gelegt, welches Sie sehen. Wenn Sie Text kopieren, geschieht dies von der unsichtbaren OCR Ebene aus.

Text aus der OCR Erkennung ist ein ungefähres aber nicht perfektes Rendering des Bitmap-Textes. Sie müssen OCR Text korrekturlesen und bearbeiten. Wenn Sie den OCR Text kopieren und einfügen, werden Ihnen manche Fehler auffallen, die Sie bei dieser Gelegenheit korrigieren können.

Ansicht OCR Text-Ebene:

  1. Wählen Sie im Menü Ansicht OCR Ebene. Dann erscheint eine Text-Ebene über Ihrem Dokument, die den normalerweise unsichtbaren OCR Text anzeigt.

Beim Umschalten auf ein beliebiges Bearbeiten-Werkzeug wird die OCR Ansicht verlassen.

OCR Text-Ebene bearbeiten (PDFpenPro Only)

Korrekturen auf der OCR Text-Ebene durchführen.

  1. Wählen Sie im Menü Ansicht die OCR Information. Es erscheint eine Text-Ebene über Ihrem Dokument, die den normalerweise unsichtbaren OCR Text anzeigt.
  2. Wählen Sie Text aus. Ein Popup-Fenster öffnet sich und bietet verschiedene Optionen zum Editieren des Textes wort- oder zeilenweise an.

Veränderungen an der OCF Text-Ebene sind nicht das Gleiche, wie Änderungen, die mit dem Text verbessern-Werkzeug Correct Text tool gemacht werden, denn Änderungen am OCR-Text tangieren den sichtbaren Dokumenten-Text nicht.

Wie auch beim Text verbessern-Werkzeug dient dies nur zum Korrigieren von kleinen Schreibfehlern, aber nicht dazu, ein gesamtes Dokument neu zu formatieren. Für größere Bearbeitungen oder Layout-Änderungen, exportieren Sie das Dokument in Word Format, und führen die Änderungen in einer Textverarbeitung durch.




© 2003-2015 SmileOnMyMac, LLC dba Smile. All rights reserved.
PDFpen and PDFpenPro are registered trademarks of Smile. The Smile logo is a trademark of Smile.