テキストコンテンツロケータ

[テキストコンテンツロケータ] アイコンこのロケータメソッドにより、一貫したレイアウトを持たない非構造化ドキュメント内のデータを検索します。これによって、契約書、通信文書、あるいはエッセイや原稿からデータを抽出できます。このロケータは、半構造化ドキュメントに最適で、非構造化テキストが文章で構成されているドキュメント用に設計されています。非構造化ドキュメントからのデータ抽出にも適しており、多くのトレーニングドキュメントを追加するほど結果が改善されます。

このロケータを使用して、印字されたフォームからデータを抽出できます。ただし、アドバンストゾーンロケータや形式ロケータなどの他のロケータメソッドは、フォームからのデータの抽出により適しています。

このロケータには、必要なデータを検索する方法をトレーニングするためのトレーニングドキュメントが必要です。他のロケータとは異なり、このロケータを構成するには、[抽出セット] にドキュメントを追加して必要なコンテンツを選択し、プロジェクトをトレーニングします。

最良の結果を得るには、トレーニングドキュメントが多いほど効果があります。ただし、トレーニングドキュメントの数を増やすと、プロジェクトのトレーニングにかかる時間が長くなります。プロジェクトをトレーニングした後は、抽出結果を定期的にチェックし、結果に悪い影響を及ぼすドキュメントが追加されていないかどうかを確認してください。

[テキストコンテンツロケータ] は次のように管理します。

[テキストコンテンツロケータ] サブフィールドを追加する
[テキストコンテンツロケータ] サブフィールドをマッピングする
[テキストコンテンツロケータ] サブフィールドの名前を変更する
[テキストコンテンツロケータ] サブフィールドを削除する
[テキストコンテンツロケータ] を構成する
[テキストコンテンツロケータ] をトレーニングする

このロケータメソッドでは、複数行にわたるコンテンツを使用できます。ただし、[ドキュメントを編集] ウィンドウでは、複数行にわたる選択コンテンツを使用できません。

テキストコンテンツロケータのプロパティウィンドウには次のタブがあります。

テキスト コンテンツ ロケータ

テキストコンテンツロケータ