OCR(光学式文字認識)

OCRを使用する Kofax Power PDF for Mac

OCR(光学式文字認識)は、テキストのビットマップイメージ(スキャンされたドキュメントなど)を、Kofax Power PDF for Macやその他のテキスト編集ソフトウェアで選択、コピー、検索できるテキストに変換するプロセスです。 テキストがOCRによって認識されると、テキストの画像の上の非表示のレイヤーに配置されます。 テキストをコピーすると、テキストはこの非表示のOCRレイヤーからコピーされます。 OCRテクノロジーでは、ビットマップテキストの完全なレンダリングを生成できません。 そのため、OCRで出力したテキストを校正して編集する必要があります。

自動OCR

  1. スキャンしたPDFをKofax Power PDF for Macで開くきます。
  2. 警告ボックスが開き、次のメッセージが表示されます。
    「これはスキャンされた書類です。光学式文字認識 (OCR) しますか? OCR の処理後にテキストを選択することができます。」
  3. この際、3つのオプションがあります。
  • キャンセル: OCRは実行されません。
  • OCRページ: OCRは現在のページで実行されます。
  • OCR 書類:ドキュメントに複数のページがある場合、OCRはすべてのページで実行されます。

[環境設定]>[OCR]で認識する言語を選択します(ユーザー設定)。

一方、Kofax Power PDF for MacがOCRを実行している場合、進捗バーが表示されます。 スキャンしたドキュメントのサイズと内容によっては、操作に数秒またはそれ以上かかる場合があります。

手動OCR

OCRを手動で実行するには、[編集]> [OCRページ]を選択します。 Kofax Power PDF for Mac これにより、OCR操作の実行が開始され、進捗バーが表示されます。

OCRの強制

Kofax Power PDF for Mac ドキュメントが1ページの1つの画像であると認識された場合、そのドキュメントがスキャンであると想定され、自動的にOCRの実行を提案します。 たまに、Kofax Power PDF for Macはスキャンした文書を認識できない場合があります。 その場合、[編集]メニューではOCRページがグレー表示され、選択できなくなります。

  1. コマンドキーとオプションキーを同時に押し続けます。
  2. メニューから[編集]> [OCRページ]を選択します。

OCRの一括処理

(Kofax Power PDF for Macの高度な機能)。 OCRの一括処理 を参照してください。

OCRの結果を改善するためのヒント

  • 元のドキュメントの品質がOCRパフォーマンスの品質に影響します。 鮮明できれいなテキストは、しわくちゃで色あせたテキストよりもはるかに優れた結果をもたらします。
  • 元のドキュメントをできるだけまっすぐスキャナーに置いてください。 スキャンしたページが真っ直ぐでない場合は、[編集]>[イメージのアンスキュー&調整]で、Kofax Power PDF for Macの画像を「斜め」または真っ直ぐにすることができます。
  • スキャンしたドキュメントのコントラストを上げて、背景ができるだけ白くなるようにしてください。 [編集]>[イメージのアンスキュー&調整]で、画像のコントラストを調整できます。

辞書とOCR

医療および法律の辞書はKofax Power PDF for MacのOCRエンジンに含まれています。そのため、医療および法律の固有の単語を認識することにより、スキャンされたドキュメントのOCR出力の品質を向上させることができます。 この機能は内蔵されているため、オンにしたり、設定を調整したりする必要はありません。 OCRテキストを編集する場合、選択したテキストでスペルが間違っている単語が赤い波線の下線で表示される場合があります。