テキスト コンテンツ ロケータ
このロケータ メソッドにより、一貫したレイアウトを持たない非構造化ドキュメント内のデータを検索します。これによって、契約書、通信文書、あるいはエッセイや原稿からデータを抽出できます。このロケータは、半構造化ドキュメントに最適で、非構造化テキストが文章で構成されているドキュメント用に設計されています。非構造化ドキュメントからのデータ抽出にも適しており、多くのトレーニング ドキュメントを追加するほど結果が改善されます。
このロケータを使用して、印字されたフォームからデータを抽出できます。ただし、アドバンスト ゾーン ロケータや形式ロケータなどの他のロケータ メソッドは、フォームからのデータの抽出により適しています。
このロケータには、必要なデータを検索する方法をトレーニングするためのトレーニング ドキュメントが必要です。他のロケータとは異なり、このロケータを構成するには、[抽出セット] にドキュメントを追加して必要なコンテンツを選択し、プロジェクトをトレーニングします。
最良の結果を得るには、トレーニングド キュメントが多いほど効果があります。ただし、トレーニング ドキュメントの数を増やすと、プロジェクトのトレーニングにかかる時間が長くなります。プロジェクトをトレーニングした後は、抽出結果を定期的にチェックし、結果に悪い影響を及ぼすドキュメントが追加されていないかどうかを確認してください。
[テキスト コンテンツ ロケータ] は次のように管理します。
-
[テキスト コンテンツ ロケータ] サブフィールドを追加する
-
[テキスト コンテンツ ロケータ] サブフィールドをマッピングする
-
[テキスト コンテンツ ロケータ] サブフィールドの名前を変更する
-
[テキスト コンテンツ ロケータ] サブフィールドを削除する
-
[テキスト コンテンツ ロケータ] を構成する
-
[テキスト コンテンツ ロケータ] をトレーニングする
このロケータ メソッドでは、複数行にわたるコンテンツを使用できます。ただし、[ドキュメントを編集] ウィンドウでは、複数行にわたる選択コンテンツを使用できません。
テキスト コンテンツ ロケータのプロパティ ウィンドウ には次のタブがあります。