分類を設定する

ドキュメントキャプチャでは、分類はカテゴリまたはクラスへのドキュメントの割り当てであり、ドキュメントタイプとも呼ばれます。

このカテゴリは、プロジェクトクラス階層に基づいて事前定義されています。分類がなければ、抽出やアーカイブを成功させることは不可能です。

抽出グループの一部であるドキュメントタイプの名前を変更した場合、削除した場合、またはある親から Advanced Studio 内の別の場所にある親に移動した場合は、Transformation Designer でプロジェクトを更新する必要があります。これにより、Advanced Studio 内のどこで行われたドキュメントタイプの変更であっても、Transformation Designer の分類および抽出の設定に伝播されます。

ドキュメントは、物理的なレイアウト、コンテンツ、または生成 AI に基づいて自動的に分類され、分類の処理順序によって最終的な分類結果が決定されます。本番前にトレーニングを行ったドキュメントと分類指示を組み合わせて使用するか、プロジェクトの本番環境で分類に使用するためのトレーニングドキュメントを収集する分類オンラインラーニングを使用することもできます。後者を使用すると、多くの構成を行わなくても、新しいドキュメントやクラスがプロジェクトに簡単に吸収されます。クラスに提供された説明に基づいて LLM がドキュメントを分類するため、生成 AI 分類はトレーニングドキュメントの収集を行いません。

レイアウト分類とコンテンツ分類を支援するためには、最初に一連のドキュメントにクラスタ化を実行して、次に事前分類済みのドキュメントを分類トレーニングドキュメントセットに追加して、サンプルによる学習を実行できるようにします。各クラスにサンプルドキュメントを割り当てます。プロジェクトがトレーニングされると、サンプルドキュメントが分析され、重要な機能が抽出されてクラスの定義に使用されます。ドキュメントがレイアウト分類またはコンテンツ分類に使用されるかどうかは、各クラスの構成方法によって異なります。実行時にトレーニングドキュメントは不要です。プロジェクトには、分類に必要な抽出されたすべての情報が含まれています。

クラスまたはプロジェクトの分類設定をテストする前に、プロジェクトをトレーニングします。分類トレーニングドキュメントセットのドキュメントは、プロジェクトのトレーニング後に、処理中のドキュメントの比較対象として使用されます。ドキュメントが正常に分類されるためには、構成された分類閾値以上の信頼度がドキュメントに必要です。

分類子のプロパティを変更した後、またはトレーニングセットにドキュメントを追加または削除した後は、プロジェクトを再トレーニングする必要があります。

分類が構成されたら、いくつかの事前分類テストを実行します。事前分類テストの結果に問題がなければ、より詳細な分類ベンチマークを実行できます。

プロジェクトレベルでフィールドを定義する場合、抽出結果を使用してドキュメントが分類されます。たとえば、バーコードを抽出してドキュメントを分類できます。

詳細情報