分類を設定する

ドキュメントキャプチャでは、分類はカテゴリまたはクラスへのドキュメントの割り当てであり、ドキュメントタイプとも呼ばれます。

このカテゴリは、プロジェクトクラス階層に基づいて事前定義されています。分類がなければ、抽出やアーカイブを成功させることは不可能です。

抽出グループの一部であるドキュメントタイプの名前を変更した場合、削除した場合、またはある親から TotalAgilityTotalAgility Designer 内の別の場所に移動した場合は、Transformation Designer でプロジェクトを更新する必要があります。これにより、TotalAgilityTotalAgility Designer 内のどこかで行われたドキュメントタイプの変更が、Transformation Designer の分類および抽出の設定に伝播されます。

手動分類は通常、階層スキームに従います。最初に、ドキュメントのメインカテゴリが決定されます。最終的なドキュメントカテゴリが決定されるまで、いくつかのステップで分類がさらに調整されます。Kofax TotalAgility では、自動分類で同じ結果が得られるように、手動分類階層スキームを複製できます。

自動分類を構成するには、クラス階層が必要です。この階層は、プロジェクトツリーで作成および維持されます。プロジェクトツリーに追加された各クラスで、利用可能な分類結果を表すことができます。このプロジェクトツリーとプロジェクト分類設定を組み合わせることで、本番用のドキュメントの分類結果が決まります。

ドキュメントは、物理的なレイアウトまたはコンテンツに基づいて分類でき、分類の処理順序によって最終的な分類結果が決まります。本番前にトレーニングされたドキュメントと分類指示を組み合わせて使用することも、プロジェクトでの本番中に分類で使用するトレーニングドキュメントを収集する分類オンラインラーニングを使用することもできます。後者を使用すると、多くの構成を行わなくても、新しいドキュメントやクラスがプロジェクトに簡単に吸収されます。

分類を支援するために、最初に一連のドキュメントにクラスタ化を実行してから、事前分類済みのドキュメントを分類トレーニングドキュメントセットに追加して、サンプルによる学習を実行できるようにします。各クラスにサンプルドキュメントを割り当てます。プロジェクトがトレーニングされると、サンプルドキュメントが分析され、重要な機能が抽出されてクラスの定義に使用されます。ドキュメントがレイアウト分類またはコンテンツ分類に使用されるかどうかは、各クラスの構成方法によって異なります。

実行時にトレーニングドキュメントは不要です。プロジェクトには、分類に必要な抽出されたすべての情報が含まれています。

プロジェクト内のクラスを使用して、一貫したレイアウトがあるフォームを分類する場合、通常、レイアウト分類で信頼度の高い結果が返されるため、コンテンツ分類は必要ありません。コンテンツ分類のトレーニングを行わないようにこのクラスを構成する場合、レイアウト分類のみが試行されます。同様に、クラスのレイアウトに一貫性がない場合、通常はコンテンツ分類子のみを使用することで最良の結果が得られます。分類子は常に特定の順序で処理されます。

クラスまたはプロジェクトの分類設定をテストする前に、プロジェクトをトレーニングします。プロジェクトのトレーニング後、分類トレーニングドキュメントセットのドキュメントは、処理中のドキュメントの比較対象として使用されます。ドキュメントが正常に分類されるためには、構成された分類閾値以上の信頼度がドキュメントに必要です。

分類子のプロパティを変更した後、またはトレーニングセットにドキュメントを追加または削除した後は、プロジェクトを再トレーニングする必要があります。

分類が構成されたら、いくつかの事前分類テストを実行します。事前分類テストの結果に満足したら、より詳細な分類ベンチマークを実行できます。

プロジェクトレベルでフィールドを定義する場合、抽出結果を使用してドキュメントが分類されます。たとえば、バーコードを抽出してドキュメントを分類できます。