ページ認識プロファイルの追加

このトピックの手順を使用して、ページ認識プロファイルを追加します。

ページ認識プロファイルは、全ページ認識を実行します。つまり、ページのコンテンツ全体に対して認識が実行されます。認識された文字と単語、およびページ上の物理的な座標は、XDocument (XDoc) という名前のファイルに保存されます。このファイルは、後で分類および抽出中に解析されます。

ページ認識プロファイルは、認識エンジンと 1 対 1 の関係にあります。

テキストが埋め込まれた PDF ドキュメントを処理する場合、認識は必要なく、埋め込まれたテキストが抽出に使用されます。これが当てはまるのは、[拡張された Synchronization 設定] が 「PDF ファイルからテキストのインポート」 に設定されている場合のみです。それ以外の場合、PDF 文書は TIF ファイルとして処理され、認識はページ全体に対して実行されます。詳細については、Tungsten TotalAgility -Synchronization Tool のヘルプを参照してください。

手順

  1. [プロジェクト] タブの [構成] グループで、[プロジェクト設定] [プロジェクト設定] アイコン を選択します。
  2. [認識] タブを選択して認識設定を表示します。
  3. [ページ プロファイル] ボタンを選択します。

    プロパティ ウィンドウが表示されます。

  4. [ページ認識メソッド] を選択します。

    別の認識メソッドを選択すると、ウィンドウに表示されるプロパティが自動的に更新されます。

  5. ページ認識エンジンのプロパティを編集し、[OK] を選択して設定を保存してから、新しいプロファイルを追加します。
  6. オプション。新しいプロファイルの名前をわかりやすい名前に変更します。
  7. オプション。[OK] を選択して [プロジェクト設定] ウィンドウを閉じます。
  8. プロジェクトの変更を保存します。