ベンチマーク ドキュメント セット

ベンチマーク セットとは、分割、分類、および抽出のベンチマークに使用できるドキュメントのグループのことです。これらのドキュメントは、通常、プロジェクトのテストに使用されるドキュメントの一部です。適切にスキャンされなかったドキュメントや読み取りにくいドキュメントは含まれません。ベンチマーク セットを追加することはできませんが、テスト セットを変換してベンチマーク セットに変更できます。ベンチマーク セットはテスト セットとは異なり、ベンチマーク ドキュメントにクラスを割り当てることができます。このようにクラスを割り当てられるため、これらのドキュメントは分割、分類、および抽出のベンチマークに適しています。処理されたベンチマーク セットは、通常、ゴールデン ファイル セットと呼ばれます。

テスト セットをベンチマーク セットに変換すると、参照は自動的にプロジェクトに添付されます。これは、次回このプロジェクトを開いたときに、ベンチマーク セットとそのすべてのドキュメントが [ドキュメント] ウィンドウに表示されることを意味します。同様に、ベンチマーク セットをテスト セットに変換し直すと、テスト セットの参照がプロジェクトから削除されます。これは、次回このプロジェクトを開いたときに、テスト セットは [最近使用したドキュメント] リストに表示されますが、[ドキュメント] ウィンドウには表示されないことを意味します。

ベンチマーク タイプ

要件

分類ベンチマーク

  • コンテンツ分類を使用している場合は認識結果

  • 割り当てられたクラス

分割ベンチマーク

  • コンテンツ分類を使用している場合は認識結果

  • 割り当てられたクラス

  • 階層ビューで作業している場合は、ルート フォルダの下にサブフォルダを配置できません

抽出ベンチマーク

  • 認識結果

  • 割り当てられたクラス

  • 抽出結果

  • 検証された抽出結果

ベンチマーク セットに追加するゴールデン ファイルを選択する場合は、次の情報を把握しておくことが重要です。

  • 分割ベンチマークは PDF ドキュメントをサポートしないため、分割をテストしている場合は、PDF ドキュメントをベンチマーク セットに含めないでください。

  • 複数ページのドキュメントは、単一の画像ファイルに結合する必要があります。こうすることで、本番環境での分割がシミュレートされます。

  • 回転したドキュメントは正しく配置する必要があります。

  • プロジェクト クラスには、あいまいな例ではなく、標準的なドキュメントを選択します。

  • 認識結果を妨げる可能性のある染みや暗い領域のあるドキュメントではなく、クリーンなドキュメントを選択します。

  • 使用するすべてのドキュメントは、いずれかのプロジェクト クラスに属している必要があります。