競合管理
Transformation Designer 内のドキュメント トレーニングには、通常、追加のテストとベンチマークが含まれます。検証中のドキュメント トレーニングでは、これらの追加ステップを使用できません。正しくトレーニングされていないドキュメントによる抽出エラーのリスクを最小限に抑えるために、追加の予防策が実装されています。特定の顧客のドキュメントは、抽出の信頼度を高めるために、オンライン ラーニング中に 2 回トレーニングする必要があります。ドキュメントを最初にトレーニングした後に、同じレイアウトのドキュメントをトレーニングすると、ドキュメント フィールドは低い信頼度で抽出されます。これらのフィールドは無効になり、[現在のエラー] エリアにエラーの説明が表示されます。この場合のベスト プラクティスは、フィールドを確認し、ドキュメントに 2 回目の抽出オンライン ラーニング用のマークを付けることです。
1 つのドキュメントを同じ方法で 2 回以上トレーニングすると、その他のドキュメントは高い信頼度で抽出されるようになるため、検証中のフィールド ステータスが無効になることはなくなります。
| 正しくトレーニングされたドキュメントの数 | 結果 | 信頼度 |
|---|---|---|
| 0 | 正確 | 50% (信頼度が低い) |
| 1 | 正確 | 85% (信頼度が高い) |
| 2 | 正確 | 90% (信頼度が高い) |
| 3 以上 | 正確 | 100% (信頼度が高い) |
正しくないトレーニング データを含むドキュメントは、後続のバッチで問題の原因となる可能性があります。その結果、同じレイアウトのドキュメントが、問題のあるトレーニング データに基づいて誤って抽出されるようになります。最初のトレーニング後は信頼度が低いため、Validation ユーザーはこのドキュメントに抽出オンライン ラーニング用のマークを付けることでエラーを修正し、正しい値になるようトレーニングできます。現在、特定のトレーニング アルゴリズムでは、いわゆる競合が認識されます。
このアルゴリズムは、フィールド位置のバージョンごとに、トレーニングされたドキュメント数をカウントします。次回の抽出では、トレーニング済みのサンプルからフィールド位置が選択されます。最終的なフィールドの信頼度は、正しくトレーニングされたバージョンと正しくトレーニングされなかったバージョンのサンプル ドキュメントの数によって決まります。
| 正しくトレーニングされたドキュメントの数 | 正しくトレーニングされなかったドキュメントの数 | 結果 | 信頼度 |
|---|---|---|---|
| 0 | 1 | 不正確 | 50% (信頼度が低い) |
| 1 | 1 | 不正確 | 40% (信頼度が低い) |
| 2 | 1 | 正確 | 60% (信頼度が低い) |
| 3 | 1 | 正確 | 80% (信頼度が高い) |
| 4 | 1 | 正確 | 85% (信頼度が高い) |
| 4 より多い | 1 | 正確 | 90% (信頼度が高い) |
フィールドが無効である場合は、トレーニング サブセット内のドキュメントに表示されるアイコンが変更され、エラーの説明が表示されます。
[矛盾の解決] ウィンドウで競合を解決できます。解決するには、正しくトレーニングされなかったフィールドまたはドキュメントを削除するか、フィールド位置を修正します。これらのドキュメントの抽出結果を改善するために、[ドキュメントを編集] ウィンドウを使用してフィールド値を確認することもできます。
2 つのドキュメント間の競合を解決することで、その他の競合が間接的に解決される可能性があります。[矛盾の解決] ウィンドウは競合がなくなったドキュメントをスキップし、現在のステータスがステータス バーに表示されます。
テーブル レイアウトのトレーニングに使用できるドキュメントは 1 つだけであるため、競合しているテーブル フィールドが原因で競合が発生している場合は、競合しているドキュメントを削除する必要があります。ただし、このドキュメントをその他の抽出フィールドのトレーニングに使用する場合は、[ドキュメントを編集] ウィンドウを開き、[テーブル定義] ボタンの横にあるチェック ボックスをオフにして、テーブル フィールドのトレーニングをスキップする必要があります。