競合管理

Transformation Designer 内のドキュメント トレーニングには、通常、追加のテストとベンチマークが含まれます。検証中のドキュメント トレーニングでは、これらの追加ステップを使用できません。正しくトレーニングされていないドキュメントによる抽出エラーのリスクを最小限に抑えるために、追加の予防策が実装されています。特定の顧客のドキュメントは、抽出の信頼度を高めるために、オンライン ラーニング中に 2 回トレーニングする必要があります。ドキュメントを最初にトレーニングした後に、同じレイアウトのドキュメントをトレーニングすると、ドキュメント フィールドは低い信頼度で抽出されます。これらのフィールドは無効になり、[現在のエラー] エリアにエラーの説明が表示されます。この場合のベスト プラクティスは、フィールドを確認し、ドキュメントに 2 回目の抽出オンライン ラーニング用のマークを付けることです。

1 つのドキュメントを同じ方法で 2 回以上トレーニングすると、その他のドキュメントは高い信頼度で抽出されるようになるため、検証中のフィールド ステータスが無効になることはなくなります。

通常どおりトレーニングされた、エラーのないドキュメント

正しくトレーニングされたドキュメントの数 結果 信頼度
0 正確 50% (信頼度が低い)
1 正確 85% (信頼度が高い)
2 正確 90% (信頼度が高い)
3 以上 正確 100% (信頼度が高い)

正しくないトレーニング データを含むドキュメントは、後続のバッチで問題の原因となる可能性があります。その結果、同じレイアウトのドキュメントが、問題のあるトレーニング データに基づいて誤って抽出されるようになります。最初のトレーニング後は信頼度が低いため、Validation ユーザーはこのドキュメントに抽出オンライン ラーニング用のマークを付けることでエラーを修正し、正しい値になるようトレーニングできます。現在、特定のトレーニング アルゴリズムでは、いわゆる競合が認識されます。

ドキュメントに印刷されないトレーニングに関連するフィールドは、[矛盾の解決] ウィンドウ内では解決できません。たとえば、ベンダー ロケータによって結果として返されるベンダー ID は、ドキュメントに印刷されません。競合を解決するために、[ドキュメントを編集] ウィンドウが表示されます。

このアルゴリズムは、フィールド位置のバージョンごとに、トレーニングされたドキュメント数をカウントします。次回の抽出では、トレーニング済みのサンプルからフィールド位置が選択されます。最終的なフィールドの信頼度は、正しくトレーニングされたバージョンと正しくトレーニングされなかったバージョンのサンプル ドキュメントの数によって決まります。

最初は不正だったフィールド値によるトレーニング

正しくトレーニングされたドキュメントの数 正しくトレーニングされなかったドキュメントの数 結果 信頼度
0 1 不正確 50% (信頼度が低い)
1 1 不正確 40% (信頼度が低い)
2 1 正確 60% (信頼度が低い)
3 1 正確 80% (信頼度が高い)
4 1 正確 85% (信頼度が高い)
4 より多い 1 正確 90% (信頼度が高い)

フィールドが無効である場合は、トレーニング サブセット内のドキュメントに表示されるアイコンが変更され、エラーの説明が表示されます。

[矛盾の解決] ウィンドウで競合を解決できます。解決するには、正しくトレーニングされなかったフィールドまたはドキュメントを削除するか、フィールド位置を修正します。これらのドキュメントの抽出結果を改善するために、[ドキュメントを編集] ウィンドウを使用してフィールド値を確認することもできます。

2 つのドキュメント間の競合を解決することで、その他の競合が間接的に解決される可能性があります。[矛盾の解決] ウィンドウは競合がなくなったドキュメントをスキップし、現在のステータスがステータス バーに表示されます。

競合しているフィールドを検出できるのは、レイアウトの類似性が 80% 以上のドキュメントのみです。同じベンダーの 2 つのドキュメントが、ユーザーには同じように見えても、実際にはレイアウトの類似性が 80% 未満である可能性があります。このようなドキュメントは内部で個別に処理されます。そのため、これらのドキュメントは比較できず、競合しているフィールドがあるように見えていても、競合は表示されません。

テーブル レイアウトのトレーニングに使用できるドキュメントは 1 つだけであるため、競合しているテーブル フィールドが原因で競合が発生している場合は、競合しているドキュメントを削除する必要があります。ただし、このドキュメントをその他の抽出フィールドのトレーニングに使用する場合は、[ドキュメントを編集] ウィンドウを開き、[テーブル定義] ボタンの横にあるチェック ボックスをオフにして、テーブル フィールドのトレーニングをスキップする必要があります。