ベンチマーク ドキュメント セット
ベンチマーク セットとは、分割、分類、および抽出のベンチマークに使用できるドキュメントのグループのことです。これらのドキュメントは、通常、プロジェクトのテストに使用されるドキュメントの一部です。適切にスキャンされなかったドキュメントや読み取りにくいドキュメントは含まれません。ベンチマーク セットは追加できませんが、テスト セットを変換してベンチマーク セットに変更することはできます。ベンチマーク セットはテスト セットとは異なり、ベンチマーク ドキュメントにクラスを割り当てることができます。このようにクラスを割り当てられるため、これらのドキュメントは分割、分類、および抽出のベンチマークに適しています。処理されたベンチマーク セットは、通常、ゴールデン ファイル セットと呼ばれます。
テスト セットをベンチマーク セットに変換すると、参照は自動的にプロジェクトに添付されます。つまり、このプロジェクトを次回に開いた場合、ベンチマーク セットおよびそのすべてのドキュメントは [ドキュメント] ウィンドウに表示されます。同様に、ベンチマーク セットをテスト セットに変換し直すと、テスト セットの参照がプロジェクトから削除されます。つまり、次回にプロジェクトを開いた場合、テスト セットは [最近使用したドキュメント] リストに表示されますが、[ドキュメント] ウィンドウには表示されません。
|
ベンチマーク タイプ |
要件 |
|---|---|
|
分類ベンチマーク |
|
|
分割ベンチマーク |
|
|
抽出ベンチマーク |
|
ベンチマーク セットに追加するゴールデン ファイルを選択する場合は、次の情報を把握しておくことが重要です。
-
分割ベンチマークは PDF ドキュメントをサポートしないため、分割をテストしている場合は、PDF ドキュメントをベンチマーク セットに含めないでください。
-
複数ページのドキュメントは、単一の画像ファイルに結合する必要があります。こうすることで、本番環境での分割がシミュレートされます。
-
回転したドキュメントは正しく配置する必要があります。
-
プロジェクト クラスには、あいまいな例ではなく、標準的なドキュメントを選択します。
-
認識結果を妨げる可能性のある染みや暗い領域のあるドキュメントではなく、クリーンなドキュメントを選択します。
-
使用するすべてのドキュメントは、いずれかのプロジェクト クラスに属している必要があります。