構成 タブ - クラスタ化 ウィンドウ

[構成] タブを使用して、クラスタとして分類するドキュメントを含む、選択したドキュメント サブセットのクラスタ化設定を定義します。

[一般]

このグループには次の設定があります。

[プロジェクト クラス名を使用]

クラスタのラベルとしてプロジェクト クラス名を使用するには、この設定を選択します。(デフォルト:選択済み)

[割り当てられたクラスを持っていないクラスタ ドキュメントのみ]

クラスが割り当てられていないドキュメントのクラスタ化を実行するには、この設定を選択します。クラスが割り当てられたドキュメントは無視されます。(デフォルト:選択済み)

[ほとんどのドキュメントが構造化されていませんか?]

次のいずれかのクラスタ化メソッドを選択します。

  • [はい (コンテンツに基づくクラスタ)]

    ドキュメントには、コンテンツ分類のための認識結果が必要になります。使用可能な認識結果がない場合は、[オンデマンド認識] 設定の使用を推奨するエラー メッセージが表示されます。

  • [いいえ/不明 (レイアウトに基づくクラスタ)]

    レイアウトのクラスタ化に使用するドキュメントには、画像コンポーネントが含まれる必要があります。使用可能な画像がない場合は、エラー メッセージが表示されます。

選択したドキュメント サブセットの多くに、レター、電子メール、契約書、一般的な通信などの構造化されていないドキュメントが含まれている場合は、[はい] を選択してコンテンツのクラスタ化を使用します。ただし、フォームや請求書など、多くのドキュメントが構造化されている場合は、[いいえ] を選択してレイアウトのクラスタ化を使用します。ドキュメント サブセット内のドキュメントのタイプがわからない場合は、[いいえ] を選択します。

[コンテンツのクラスタ化]

このグループには次の設定があります。

[オンデマンド認識]

コンテンツのクラスタ化を実行する必要があり、すべてのドキュメントが認識エンジンによってすでに処理されているかどうかが不明な場合は、この設定を選択します。画像のフル テキスト検索が欠落している場合は、クラスタ化処理を開始する前に認識が実行されます。

認識コンテンツを持たないドキュメントは、クラスタ化できません。そのため、前のステップで認識を実行していない場合は、この設定を選択することをお勧めします。

[レイアウトのクラスタ化]

このグループには次の設定があります。

[最小クラスタ サイズ]

有効なクラスタとしてクラスタが結果を承認するために必要なドキュメントの最小数を指定できます。(デフォルト:10)

[最小信頼度]

値を選択して、ドキュメントがクラスタに割り当てられるように、ドキュメントの分類の信頼度を決定します。

共通の Transformation Designer ボタンの他に、次のボタンを使用できます。

[リセット]

デフォルトの構成設定を復元するには、この設定を選択します。

[クラスタ化を開始]

このボタンをクリックして、指定した設定を使用して、選択済みのドキュメント サブセットでクラスタ化処理を開始します。続行するには、クラスタ化メソッドを 1 つ以上選択する必要があります。