拡張 OCR 設定
Kofax RPA は、画像からテキストを抽出し、制限付きまたはオートメーションなしの API を使用するアプリケーションを自動化する光学文字認識 (OCR) 機能を提供します。
OCR は複雑な処理であるため、スクリーン フォント、背景色と前景色、テキスト サイズなど、さまざまな要素によって認識結果は異なります。Kofax RPA では、認識結果の変更に使用可能な構成設定を含む ocr.cfg ファイルがインストールされます。ファイルには構成設定の詳細な記述が含まれています。ocr.cfg ファイルは、以下のように Kofax RPA のインストール ディレクトリに配置されています。
-
Desktop Automation サービスがインストールされた Windows ベースの自動化されたコンピュータでは、
Desktop Automation サービス インストール ディレクトリの DesktopAutomationService\lib。例:
C:\Program Files\Kofax RPA DesktopAutomation 11.4.0.0 \DesktopAutomationService\lib
-
組み込みブラウザを使用するローカルの Windows ベースのコンピュータでは、
Kofax RPA のインストール ディレクトリの nativelib\hub\windows-x64\[ビルド番号]\lib*。例:
C:\Program Files\Kofax RPA 11.4.0\nativelib\hub\windows-x64\166\lib
-
組み込みブラウザを使用するローカルの Linux ベースのコンピュータでは、
nativelib/hub/linux-x64/<build number>/lib in the Kofax RPA installation directory.例:
Kofax RPA_11.4.0.0/nativelib/hub/linux-x64/166/lib
* ビルド番号は、プログラムのバージョンごとに異なります。
OCR エンジンと言語の変更
- OCR エンジンの変更
-
Kofax RPA は Tesseract (デフォルト) または OmniPage エンジンを使用して、画像からテキストをキャプチャします。OCR エンジンをデフォルトから変更するには、次の手順を実行します。
-
コンピュータ上で ocr.cfg ファイルを見つけます。
-
テキスト エディターで ocr.cfg を開き、engine_type オプションを見つけます。
-
engine_type = omnipage のように、omnipage などの OCR エンジンを値として指定します。
デフォルトの OCR エンジン (Tesseract) を使用する場合は、engine_type オプションの値として tesseract を指定するか、このオプションから値を削除します。
-
- OCR 言語の変更
-
-
コンピュータ上で ocr.cfg ファイルを見つけます。
- テキスト エディターで ocr.cfg を開き、default_language オプションを見つけます。
- eng を jpn などの別の言語コードに置き換えるか、複数の言語を使用する場合は、default_language=eng+jpn のように + 記号を使用して jpn を追加します。言語コードは ISO 639-3 または ISO 639-1 形式である必要があります。ファイルを保存して閉じます。
OmniPage には、インストールでサポートされるすべての言語が含まれています。Tesseract の場合は、英語のみがインストールに含まれています。Tesseract によって UI 認識言語をさらに追加するには、ツリー モードにある「Tesseract の UI 認識言語の変更または追加」セクションのステップ 1 および 2 を参照してください。
Desktop Automation サービスの OCR エンジンと言語設定は、サービスを実行する各コンピュータの Desktop Automation サービス設定ウィンドウで個別に指定します。詳細については、Desktop Automation サービスの設定 を参照してください。
-
画像の前処理
以下の情報は Tesseract エンジンにのみ適用されます。
画像に実際の OCR プロセスを開始する前に、特定のアルゴリズムを使用して画像の前処理を行います。使用するアルゴリズムは ocr.cfg ファイルの preparation 設定で定義されます。デフォルトでは、normal に設定されています。