レイアウト ID と抽出オンライン ラーニング
トレーニング可能なグループ ロケータは、レイアウトを使用して、同様のレイアウトを持つドキュメントを内部的にグループ化します。認識されたレイアウトのドキュメントごとに、特定の抽出が実行されます。[ドキュメント] ウィンドウで [抽出セット] を表示すると、「レイアウト ID」列にレイアウトに関する情報が表示されます。「レイアウト ID」で並べ替えると、レイアウトごとに収集されたドキュメントの数を確認できます。
[レイアウト ID] はクラスベースであり、異なるタイプの各ドキュメントに固有の [レイアウト ID] が与えられます。新しいクラスは新しい [レイアウト ID] を受け取り、既存の認識可能なクラスは既存の [レイアウト ID] を受け取ります。そのため、複数のクラスで同じレイアウト ID が使用されます。
1 つのレイアウト ID に対して収集されるドキュメント数はさまざまです。これらのドキュメントのフィールド リストが同じであるか、または競合が生じるかによって数が異なります。レイアウトに競合が生じた場合は、それ以降にトレーニングされたすべてのドキュメントが収集されます。それにもかかわらず、ナレッジベースの手動設定に必要な数を超えるドキュメントが本番中に収集されます。これは、Transformation Designer でトレーニングされたドキュメントは信頼度が高くなるという前提に関連しています。同じ抽出結果を得るには、本番中にダイナミック ナレッジベース内に 4 つのドキュメントが必要になります。
つまり、最も簡単な使用例では、実行時に 4 つのドキュメントが収集されます。ドキュメントをインポートして、プロジェクトを再トレーニングする場合は、ドキュメントが 3 つのみ必要です。1 つのドキュメントには不要とマークされます。
プロジェクトのトレーニングが終了すると、そのクラスのどのトレーニング可能なロケータからも必要とされず、[使用する] 列に 「[いいえ]」 とマークされているドキュメントが収集されます。これらのドキュメントは安全に削除できます。
このクラスの1 つ以上のロケータでドキュメントが必要とされる場合は、この列の値を 「[はい]」 に設定する必要があります。
[使用する] 列の情報は、ドキュメントを [新しいサンプル] に追加するかどうかを判断するために、Knowledge Base Learning Server によって本番中も使用されます。