競合管理
Transformation Designer 内のドキュメント トレーニングには、通常、追加のテストとベンチマークが含まれます。検証中のドキュメント トレーニングでは、これらの追加ステップを使用できません。正しくトレーニングされていないドキュメントによる抽出エラーのリスクを最小限に抑えるために、追加の予防策が実装されています。特定の顧客のドキュメントは、抽出の信頼度を高めるために、オンライン ラーニング中に 2 回トレーニングする必要があります。ドキュメントを最初にトレーニングした後に、同じレイアウトのドキュメントをトレーニングすると、ドキュメント フィールドは低い信頼度で抽出されます。これらのフィールドは無効になり、[現在のエラー] エリアにエラーの説明が表示されます。この場合のベスト プラクティスは、フィールドを確認し、ドキュメントに 2 回目の抽出オンライン ラーニング用のマークを付けることです。
1 つのドキュメントを同じ方法で 2 回以上トレーニングすると、その他のドキュメントは高い信頼度で抽出されるようになるため、検証中のフィールド ステータスが無効になることはなくなります。
正しくトレーニングされたドキュメントの数 | 結果 | 信頼度 |
---|---|---|
0 | 正確 | 50% (信頼度が低い) |
1 | 正確 | 85% (信頼度が高い) |
2 | 正確 | 90% (信頼度が高い) |
3 以上 | 正確 | 100% (信頼度が高い) |
正しくないトレーニング データを含むドキュメントは、後続のバッチで問題の原因となる可能性があります。その結果、同じレイアウトのドキュメントが、問題のあるトレーニング データに基づいて誤って抽出されるようになります。最初のトレーニング後は信頼度が低いため、Validation ユーザーはこのドキュメントに抽出オンライン ラーニング用のマークを付けることでエラーを修正し、正しい値になるようトレーニングできます。現在、特定のトレーニング アルゴリズムでは、いわゆる競合が認識されます。
このアルゴリズムは、フィールド位置のバージョンごとに、トレーニングされたドキュメント数をカウントします。次回の抽出では、トレーニング済みのサンプルからフィールド位置が選択されます。最終的なフィールドの信頼度は、正しくトレーニングされたバージョンと正しくトレーニングされなかったバージョンのサンプル ドキュメントの数によって決まります。
正しくトレーニングされたドキュメントの数 | 正しくトレーニングされなかったドキュメントの数 | 結果 | 信頼度 |
---|---|---|---|
0 | 1 | 不正確 | 50% (信頼度が低い) |
1 | 1 | 不正確 | 40% (信頼度が低い) |
2 | 1 | 正確 | 60% (信頼度が低い) |
3 | 1 | 正確 | 80% (信頼度が高い) |
4 | 1 | 正確 | 85% (信頼度が高い) |
4 より多い | 1 | 正確 | 90% (信頼度が高い) |
フィールドが無効である場合は、トレーニング サブセット内のドキュメントに表示されるアイコンが変更され、エラーの説明が表示されます。
[矛盾の解決] ウィンドウで競合を解決できます。解決するには、正しくトレーニングされなかったフィールドまたはドキュメントを削除するか、フィールド位置を修正します。これらのドキュメントの抽出結果を改善するために、[ドキュメントを編集] ウィンドウを使用してフィールド値を確認することもできます。
2 つのドキュメント間の競合を解決することで、その他の競合が間接的に解決される可能性があります。[矛盾の解決] ウィンドウは競合がなくなったドキュメントをスキップし、現在のステータスがステータス バーに表示されます。
競合しているフィールドを検出できるのは、レイアウトの類似性が 80% 以上のドキュメントのみです。同じベンダーの 2 つのドキュメントが、ユーザーには同じように見えても、実際にはレイアウトの類似性が 80% 未満である可能性があります。このようなドキュメントは内部で個別に処理されます。そのため、これらのドキュメントは比較できず、競合しているフィールドがあるように見えていても、競合は表示されません。
テーブル レイアウトのトレーニングに使用できるドキュメントは 1 つだけであるため、競合しているテーブル フィールドが原因で競合が発生している場合は、競合しているドキュメントを削除する必要があります。ただし、このドキュメントをその他の抽出フィールドのトレーニングに使用する場合は、[ドキュメントを編集] ウィンドウを開き、[テーブル定義] ボタンの横にあるチェック ボックスをオフにして、テーブル フィールドのトレーニングをスキップする必要があります。