ドキュメントとクラスタ化

クラスタ化を行うと、不明な一連のドキュメントが取得され、コンテンツまたはレイアウトに基づいてラベル付きのグループに編成されます。フォームや請求書を処理する場合は、通常、これらのドキュメントのレイアウトに一貫性があるため、レイアウトのクラスタ化を使用する必要があります。電子メール、手紙、契約書、または一般的な通信を処理する場合、これらのドキュメントのレイアウトには一貫性がないため、コンテンツのクラスタ化を使用する必要があります。ドキュメントの構造が不明な場合は、レイアウト クラスタ化を使用してください。クラスタ化のタイプは、[クラスタ化] ウィンドウの [構成] タブで選択します。

クラスタ化は複数回反復されます。ドキュメントはプロセスの各ステップを通してユーザーに提示され、ドキュメントの確認とクラスタのラベル設定が行われます。クラスタ化を開始する前に、ドキュメントのクラスタ化を解除して、クラスタが存在しない状態にします。クラスタ化が始まると、ドキュメントが調べられ、類似したレイアウトと類似したコンテンツを持つドキュメントがグループ化されて、ラベル解除されたクラスタに配置されます。ここでユーザーの操作が必要になります。複数のドキュメントを識別し、そのクラスタにラベルを付けるよう求められます。クラスタ化ツールによってクラスタの一部として識別された他のすべてのドキュメントは、自動的に更新されます。クラスタ化を続行すると、いくつかのドキュメントと推奨されるクラスタが表示されます。推奨されたクラスタを確認するか、別のクラスタを再割り当てするよう求められます。各ドキュメントとクラスタ ラベルを確認すると、クラスタ化機能は手動の変更を基にラーニングを行います。ラーニングが進行するにつれて、クラスタ化の結果は改善されます。

クラスタ化プロセスを通して、ドキュメントは 1 つのカテゴリから次のカテゴリに移動されます。すべてのドキュメントはクラスタ化が解除された状態で開始されます。

次に、類似したドキュメントがクラスタに割り当てられますが、クラスタにラベルは付いていません。

次のステップでクラスタにラベルが付けられ、その後で残りのクラスタ解除されたドキュメントが既存のクラスタ (ラベル付きまたはラベルなし) に割り当てられるか、新しいクラスタに割り当てられます。クラスタ化機能を行うと、最終的には、クラスタ名と一致するディレクトリ構造に一連のドキュメントが整理されます。

これらのドキュメントは、プロジェクトにドキュメント セットを追加する場合に使用できます。ドキュメントの使用目的は、プロジェクトに応じて、次の 3 つのうちのいずれかになります。

  • 適切に設定されたプロジェクトの場合、整理されたドキュメントをトレーニング セットとして使用する

  • 既存のプロジェクトの場合、整理されたドキュメントをトレーニング セットとして使用し、プロジェクトに新しいクラスを追加する

  • 新しいプロジェクトの場合、整理されたドキュメントをトレーニング セットとして使用し、プロジェクト用にプロジェクト階層全体を使用する

クラスタ化が完了したら、これらのドキュメントをカスタム ドキュメント セットとして使用できます。ドキュメント セットがプロジェクトに追加されたら、要件に応じて、ドキュメント サブセット、クラス、およびプロジェクト階層全体を追加できます。