ページ認識プロファイルの追加

このトピックの手順を使用して、ページ認識プロファイルを追加します。

ページ認識プロファイルは、全ページ認識を実行します。つまり、ページのコンテンツ全体に対して認識が実行されます。認識された文字と単語、およびページ上の物理的な座標は、XDocument (XDoc) という名前のファイルに保存されます。このファイルは、後で分類および抽出中に解析されます。

ページ認識プロファイルは、認識エンジンと 1 対 1 の関係にあります。

テキストが埋め込まれた PDF ドキュメントを処理する場合、認識は必要なく、埋め込まれたテキストが抽出に使用されます。これが当てはまるのは、[拡張された Synchronization 設定] が「PDF ファイルからテキストのインポート」に設定されている場合のみです。それ以外の場合、PDF 文書は TIF ファイルとして処理され、認識はページ全体に対して実行されます。詳細については、Tungsten TotalAgility -Synchronization Tool のヘルプを参照してください。

手順

[プロジェクト] タブの [構成] グループで、[プロジェクト設定] を選択します。
[認識] タブを選択して認識設定を表示します。
[ページプロファイル] ボタンを選択します。

プロパティウィンドウが表示されます。
[ページ認識メソッド] を選択します。

別の認識メソッドを選択すると、ウィンドウに表示されるプロパティが自動的に更新されます。
ページ認識エンジンのプロパティを編集し、[OK] を選択して設定を保存してから、新しいプロファイルを追加します。
オプション。新しいプロファイルの名前をわかりやすい名前に変更します。
オプション。[OK] を選択して [プロジェクト設定] ウィンドウを閉じます。
プロジェクトの変更を保存します。

詳細情報