テキストコンテンツロケータの構成

[テキストコンテンツロケータ] によって、非構造化ドキュメントからデータを抽出できます。抽出はドキュメントレイアウトに左右されないため、抽出するデータの位置については、トレーニングドキュメントで指定する必要があります。構成に応じた新しいトレーニングドキュメントを複数追加することによって、このロケータの全体的な結果を改善できます。

このロケータを構成できます以下の手順に従って、設定します。。

ロケータプロパティを開きます。
1 つ以上のサブフィールドを [追加] します。

サブフィールドのリストが [サブフィールドを定義] テーブルに表示されます。
必要に応じて、1 つ以上のサブフィールドの [名前を変更] します。
このロケータに追加するサブフィールドごとに、クラスフィールドを追加します。
各クラスフィールドを [テキストコンテンツロケータ] のサブフィールドにマッピングします。
[テキストコンテンツロケータ] プロパティのウィンドウで、[アドバンスト] タブをクリックします。
[トレーニングドキュメントの最大数] の値を選択するか、入力します。

最良の結果を得るには、トレーニングドキュメントが 500 件を超えないようにします。トレーニングドキュメントが 500 件を超えると抽出を改善できず、さらにプロジェクトのトレーニングにかかる時間が長くなります。トレーニングの時間が延長されるだけで、抽出結果の改善が限定的となります。
必要に応じて、[トレーニング用のオンラインドキュメントを収集] 設定をオフにします。

実行時に収集されたドキュメントは、オンラインラーニングには含まれません。これらのドキュメントをプロジェクトに組み込んで抽出結果を改善するには、プロジェクトを手動でトレーニングします。ただし、トレーニングドキュメントの最大数に近い場合は、この設定をオフにしてください。この設定により、トレーニング中に、最大数にほぼ等しいドキュメントをトレーニングセットからランダムに選択します。なお、500 件のドキュメントのトレーニングには約 30 分かかります。
[閉じる] をクリックして [ロケータプロパティ] ウィンドウを閉じます。
[ドキュメント] ウィンドウを開きます (まだ開いていない場合)。
設定のトレーニングとテストを実行します。
プロジェクトの変更を保存します。

テキスト コンテンツ ロケータ の構成

テキストコンテンツロケータの構成