閾値、精度、リコール
分類プロセスの全体的な品質は、精度とリコールによって表すことができます。ドキュメントの分類は、参照セットと比較して、次の 3 つの結果のいずれかになります。
-
正確な分類
-
不正確な分類 (偽の陽性または置換とも呼ばれる)
-
分類なし (またはリジェクト)
閾値を使用することで、すべての分類結果が特定の信頼度レベルを確実に下回るようになります。信頼度は、ドキュメントと選択したクラスの一致の度合いです。
2 種類の閾値を定義できます。
- 絶対閾値
-
結果が承認されるために最低限必要となる、クラスとドキュメントの一致度を示す絶対値 (パーセントで表示)。分類プロセスにより、最良の結果として 73% の信頼度が返されることがあります。この場合、閾値の設定が 73% 以下であれば、分類結果が最終結果として受け入れられます。それ以外の場合は結果がリジェクトされ、デフォルトのクラスがない限り、ドキュメントは未分類のままになります。
- 相対距離
-
分類結果としてクラスが受け入れられる最良の結果と次善の結果の信頼度の間に必要な最小の差異です。たとえば、分類プロセスにより、クラスに対して最良の結果が得られる場合の信頼度として 73%、次善の結果が得られる場合の信頼度として 62% が返されることがあります。必要な相対距離が 11% 以下に設定されている場合は、この結果が受け入れられます (絶対閾値の基準も満たされている場合)。それ以外の場合は結果がリジェクトされ、デフォルトのクラスがない限り、ドキュメントは未分類のままになります。
複数のクラスが定義されている場合は、一意の分類結果を取得するために、最良の結果と次善の結果の間の最小の差異を指定できます。複数の結果を受け入れる場合は、相対距離が不要です。ただし、Kofax TotalAgility は分類結果として一意のクラスを決定するように設計されています。
精度は、すべての分類済みドキュメントに対する、正しく分類されたすべてのドキュメントの割合 (パーセント) です。リコールは、正しく分類されたドキュメントと分類する必要があるドキュメントの割合です。
次の画像の青い領域は、すべてのドキュメントのセットを示しています。垂直に伸びる参照線によって、このドキュメントのセットはクラス A またはクラス A 以外の 2 つのグループに分けられます。分類子は、ドキュメントがクラス A に属しているのか、それともクラス A 以外に属しているのかを判別します。これは斜線で示されます。分類子と参照セットが完璧である場合は、垂直線と対角線が正確に一致します。垂直線と対角線が正確に一致していないため、この 2 つの線の交点によって、次の3 つのサブセットが作成されます。
-
a グループは、正しく分類されたドキュメントのサブセットです。
-
b グループは、正しく分類されなかったドキュメントのサブセットです。
-
c グループは、未分類のドキュメントのサブセットです。
複数のクラスがある場合は、精度 (P) とリコール (R) の重み付けされた値がすべてのクラスに追加され、全体的な結果が取得されます。閾値が定義されていない場合は、正しく分類されなかったすべてのドキュメントが別のクラスに含まれなくなるため、P と R は等しくなります。
閾値が導入されている場合は、グラフに表示されていない、リジェクトされた 3 番目のドキュメント セットが作成されます。閾値を使用すると、正しく分類されなかったドキュメントが抑制されることで、精度が向上するとともに、リコールが減少します。
分類スキームの P と R を決定するには、Transformation Designer の 結果マトリクス ツールを使用します。参照セットに必要な精度をシステムに設定するには、対話型の閾値設定ツールを使用します。