テキスト コンテンツ ロケータ の構成
[テキスト コンテンツ ロケータ] によって、非構造化ドキュメントからデータを抽出できます。抽出はドキュメント レイアウトに左右されないため、抽出するデータの位置については、トレーニング ドキュメントで指定する必要があります。構成に応じた新しいトレーニング ドキュメントを複数追加することによって、このロケータの全体的な結果を改善できます。
このロケータを構成できます以下の手順に従って、設定します。。
- ロケータ プロパティを 開きます。
-
1 つ以上のサブフィールドを [追加] します。
サブフィールドのリストが [サブフィールドを定義] テーブルに表示されます。
- 必要に応じて、1 つ以上のサブフィールドの [名前を変更] します。
- このロケータに追加するサブフィールドごとに、クラスフィールドを追加します。
- 各クラス フィールドを [テキスト コンテンツ ロケータ] のサブフィールドにマッピングします。
- [テキスト コンテンツ ロケータ] プロパティ のウィンドウで、[アドバンスト] タブをクリックします。
-
[トレーニング ドキュメントの最大数] の値を選択するか、入力します。
最良の結果を得るには、トレーニング ドキュメントが 500 件を超えないようにします。トレーニング ドキュメントが 500 件を超えると抽出を改善できず、さらにプロジェクトのトレーニングにかかる時間が長くなります。トレーニングの時間が延長されるだけで、抽出結果の改善が限定的となります。
-
必要に応じて、[トレーニング用のオンライン ドキュメントを収集] 設定をオフにします。
実行時に収集されたドキュメントは、オンライン ラーニングには含まれません。これらのドキュメントをプロジェクトに組み込んで抽出結果を改善するには、プロジェクトを手動でトレーニングします。ただし、トレーニング ドキュメントの最大数に近い場合は、この設定をオフにしてください。この設定により、トレーニング中に、最大数にほぼ等しいドキュメントをトレーニング セットからランダムに選択します。なお、500 件のドキュメントのトレーニングには約 30 分かかります。
- [閉じる] をクリックして [ロケータ プロパティ] ウィンドウを閉じます。
- [ドキュメント] ウィンドウを 開きます (まだ開いていない場合)。
- 設定のトレーニングとテストを実行します。
- プロジェクトの変更を保存します。