ベンチマーク ドキュメント セット

ベンチマーク セットとは、分割、分類、および抽出のベンチマークに使用できるドキュメントのグループのことです。これらのドキュメントは、通常、プロジェクトのテストに使用されるドキュメントの一部です。適切にスキャンされなかったドキュメントや読み取りにくいドキュメントは含まれません。ベンチマーク セットは追加できませんが、テスト セットを変換してベンチマーク セットに変更することはできます。ベンチマーク セットはテスト セットとは異なり、ベンチマーク ドキュメントにクラスを割り当てることができます。このようにクラスを割り当てられるため、これらのドキュメントは分割、分類、および抽出のベンチマークに適しています。

テスト セットをベンチマーク セットに変換すると、参照は自動的にプロジェクトに添付されます。つまり、このプロジェクトを次回に開いた場合、ベンチマーク セットおよびそのすべてのドキュメントは [ドキュメント] ウィンドウに表示されます。同様に、ベンチマーク セットをテスト セットに変換し直すと、テスト セットの参照がプロジェクトから削除されます。つまり、次回にプロジェクトを開いた場合、テスト セットは [最近使用したドキュメント] リストに表示されますが、[ドキュメント] ウィンドウには表示されません。

分類ベンチ マークの場合は、ドキュメント ベンチマーク セットに以下が含まれている必要があります。

  • コンテンツ分類を使用している場合は認識結果

  • 割り当てられたクラス

分割ベンチ マークの場合は、ドキュメント ベンチマーク セットに以下が含まれている必要があります。

  • コンテンツ分類を使用している場合は認識結果

  • 割り当てられたクラス

  • 階層ビューで作業している場合は、ルート フォルダの下にサブフォルダを配置できません

抽出ベンチ マークの場合は、ドキュメント ベンチマーク セットに以下が含まれている必要があります。

  • 認識結果

  • 割り当てられたクラス

  • 抽出結果

  • 検証された抽出結果

処理されたベンチマーク セットは、通常、ゴールデン ファイル セットと呼ばれます。

ベンチマーク セットに追加するゴールデン ファイルを選択する場合は、次の情報を把握しておくことが重要です。

  • 分割ベンチマークは PDF ドキュメントをサポートしないため、分割をテストしている場合は、PDF ドキュメントをベンチマーク セットに含めないでください。

  • 複数ページのドキュメントは、単一の画像ファイルに結合する必要があります。こうすることで、本番環境での分割がシミュレートされます。

  • 回転したドキュメントは正しく配置する必要があります。

  • プロジェクト クラスには、あいまいな例ではなく、標準的なドキュメントを選択します。

  • 認識結果を妨げる可能性のある染みや暗い領域のあるドキュメントではなく、クリーンなドキュメントを選択します。

  • 使用するすべてのドキュメントは、いずれかのプロジェクト クラスに属している必要があります。