抽出ベンチマーク
抽出設定を最適化するには、現在の抽出設定が一連のドキュメントに対して適用された場合にどの程度正確に実行されるかを把握する必要があります。抽出ベンチマークを実行することで、一連のドキュメントに対する抽出設定をテストできます。
理想的なのは、分類と抽出の結果が常に正確なドキュメントがこのドキュメント セットに含まれていることです。
こうした理想的なドキュメントはゴールデン ファイルと呼ばれます。
抽出ベンチマークを実行すると、プロジェクトの抽出設定を使用してこれらのゴールデン ファイルが処理され、保存されたゴールデン ファイルの値と抽出結果が比較されます。
[サマリー] テーブルのフィールド列を選択すると、そのフィールドを持つすべてのドキュメントが選択項目ドキュメント セットにロードされます。
生成可能な抽出ベンチマーク シナリオは 3 つあります。[抽出ベンチマーク] ウィンドウでは、それぞれ次の操作を行います。
- [抽出ベンチマーク (選択したクラス)]
-
この設定を選択すると、選択したクラスの現在の抽出設定を使用した抽出が、[ドキュメント] ウィンドウで選択したドキュメント セットに対して実行されます。抽出結果は、ゴールデン ファイルの結果と比較されます。この設定では分類が実行されないため、テスト ドキュメント内に選択したクラスのものではないドキュメントが 1 つ以上含まれる場合、それらの抽出結果は [抽出ベンチマーク] ウィンドウで空白になります。
- [抽出ベンチマーク (選択されたクラスおよび子クラス)]
-
この設定を選択すると、選択したクラスと子クラスの現在の抽出設定を使用した分類と抽出が、[ドキュメント] ウィンドウで選択したドキュメント セットに対して実行されます。選択したクラスまたはその子クラスの 1 つのいずれにもドキュメントが分類されていない場合、そのドキュメントは [抽出ベンチマーク] ウィンドウの [サマリー] または [詳細] テーブルには表示されません。
- [抽出ベンチマーク (すべてのクラス)]
-
この設定を選択すると、プロジェクトの現在の抽出設定を使用した分類と抽出が、[ドキュメント] ウィンドウで選択したドキュメント セットに対して実行されます。結果は、[抽出ベンチマーク] ウィンドウの [サマリー] と [詳細] テーブルに表示されます。
ベンチマークの処理時に値が抽出されると、抽出された値と保存された値との比較から、次のような結果が得られます。
- 正確な有効フィールド
-
この結果は、現在抽出されたフィールド値と保存されている値が等しい場合に発生します。有効なフィールド ステータスがあり、手動による検証が不要なため、Validation ではユーザーに表示されません。このステータスのフィールドは緑でハイライトされます。
これは、以前は [OK] 結果と呼ばれていました。
- 正確な無効フィールド
-
この結果は、現在抽出された値と保存されている値は等しくても、フィールドのステータスが無効である場合に発生します。たとえば、検証ルールが失敗したために結果が無効になった場合、または最小信頼度の抽出閾値が満たされなかった場合などが含まれます。本番のバッチでこの結果を持つフィールドは、ユーザーが手動で検証する必要があります。このステータスのフィールドは青でハイライトされます。
この結果は、以前は [リジェクト] 結果の一部でした。
- 不正確な無効フィールド
-
この結果は、現在抽出された値と保存されている値が等しくなく、フィールドのステータスが無効である場合に発生します。たとえば、フィールドに抽出結果がなくても保存されている結果があるか、抽出された結果が保存されている結果と一部異なる場合などが含まれます。本番のバッチでこの結果を持つフィールドは、ユーザーが手動で検証する必要があります。このステータスのフィールドは黄色でハイライトされます。
この結果は、以前は [リジェクト] 結果の一部でした。
- 不正確な有効フィールド
-
この結果は、現在抽出された値と保存されている値が等しくなくても、フィールドのステータスが有効である場合に発生します。この結果は、誤って有効とマークされているため、フォルスポジティブと呼ばれます。有効なフィールド ステータスがあり、手動による検証が不要なため、Validation ではユーザーに表示されません。このステータスのフィールドは赤でハイライトされます。このステータスを持つ結果は、プロジェクトを本番環境に移行する前に修正するなどして無効なデータが残らないようにする必要があります。
この結果は、以前は [エラー] 結果と呼ばれていました。