クラスタ化の構成と実行

クラスタ化を行うと、クラスタ解除された一連のドキュメントが取得され、レイアウト、コンテンツ、または両方に基づいてグループ化されます。プロジェクトの構成方法や、クラスタ化されたドキュメントの処理内容に応じて、いくつかの構成設定を使用できます。次の表では、[クラスタ化] ウィンドウの [構成] タブでさまざまな設定を選択する場合について説明します。

不明なドキュメントのグループを整理できます。以下の手順に従って、設定します。

  1. [ドキュメント] ウィンドウを 開きます (まだ開いていない場合)。
  2. 並べ替えられていないドキュメントを含むドキュメント セットおよびドキュメント サブセットを開くか、選択します。

    クラスタ化は、テスト セット、ベンチマーク セット、およびトレーニング セットでのみサポートされています。

    選択したドキュメント サブセット内のドキュメントが、選択したビューに表示されます。

  3. ドキュメント サブセットを右クリックして、[クラスタ化] をクリックします。

    [クラスタ化] ウィンドウが表示されます。

  4. [一般] グループで次の設定を構成します。
    1. プロジェクト内のクラスが構成されている場合は、[プロジェクト クラス名を使用] を選択します。

      この設定を選択すると、クラス化プロセス中にクラス名をクラスタ化のラベルとして使用できます。必要に応じて、新しいクラスタ ラベルを追加することもできます。

    2. 選択したドキュメント セットが他のテストに使用されている場合は、必要に応じて [割り当てられたクラスを持っていないクラスタ ドキュメントのみ] を選択します。

      この設定を選択すると、[分類結果] 内の既存のドキュメントを含めても、クラスタ化プロセスの速度が低下しなくなります。クラスタ化のためにロードされたドキュメントの数と選択されたドキュメントの数が一致しない場合は、この設定が原因である可能性があります。この設定をオフにすると、既存の分類結果が上書きされます。

    3. [ほとんどのドキュメントが構造化されていませんか?] リストでクラスタ化メソッドを選択します。

      ドキュメントの大部分が構造化されていない場合は、[はい] を選択します。それ以外の場合は、[いいえ] を選択します。

    4. [ほとんどのドキュメントが構造化されていませんか?] 設定で [はい] を選択した場合は、[最小クラスタ サイズ] の値を変更します。

      この設定の値は、クラスタが有効になるために必要なドキュメントの最小数を示します。各クラスタに多数のドキュメントが含まれていることがわかっている場合は、この数を増やします。

    5. [ほとんどのドキュメントが構造化されていませんか?][はい] 設定を選択した場合に、一部のドキュメントの認識結果が失われている可能性があるときは、[オンデマンド認識] を選択します。

      この設定を選択すると、ドキュメントの認識結果が失われている場合に、認識結果がオンデマンドで生成されます。認識結果のないドキュメントが多数ある場合は、この設定を選択することで、クラスタ化の最初のステップの実行に要する時間を短縮できます。

    6. [ほとんどのドキュメントが構造化されていませんか?] 設定で [いいえ] を選択した場合は、[最小信頼度] の値を選択します。
  5. [クラスタ化を開始] をクリックします。

    クラスタ化プロセスを示す進行状況バーが表示されます。クラスタ化が完了すると、[識別] タブが表示され、ドキュメントの処理を続行できるようになります。

  6. ドキュメントをクラスタに割り当てて、クラスタにラベルが付いていることを確認して、ドキュメントを識別します。

    3 つのドキュメントが表示されます。表示されたドキュメントをクラスタに割り当てるには、構成に応じて、新しいクラスタ ラベルを入力するか、既存のラベルを選択します。このタブに表示されるドキュメントは [クラスタ化を続行] をクリックするたびに異なります。数回繰り返すと、クラスタ化のプロセスから、推奨クラスタについて確認するよう求められます。

    1. 表示されたドキュメントごとに、クラスタのラベルを入力するか、[クラスタを割り当て] リストから選択します。

      ドキュメントが確認され、ラベルが付いたクラスタに割り当てられます。レイアウトのクラスタ化を使用して他のドキュメントがこのクラスタに割り当てられている場合、これらのドキュメントは自動的に確認されます。コンテンツのクラスタ化を使用しているドキュメントは、後のステップで手動で確認する必要があります。

    2. 表示されたドキュメントごとに、推奨クラスタが正しい場合は [確認] をクリックします。推奨クラスタが正しくない場合は、[割り当てる] をクリックしてクラスタを変更します。
    3. [統計] を定期的に表示して、進捗状況を確認します。
    4. 必要に応じて [フィルタ] 選択して、次のいずれかのカテゴリのドキュメントを表示します。
      • [フィルタなし]

      • [ラベルのあるクラスタの未確認ドキュメント]

      • [ラベル解除クラスタのドキュメント]

      • [クラスタ解除されたドキュメント]

    5. [クラスタ化を続行] をクリックして、ステップごとにドキュメントを処理します。

      すべてのドキュメントがクラスタ化されるまで、さらに多くのドキュメントが表示されます。クラスタ化が完了すると、続行するかどうかが確認され、[レビュー] タブが表示されます。

  7. クラスタ化されたドキュメントをレビューします。

    選択したドキュメント サブセット内のすべてのドキュメントが、クラスタおよびステータスと一緒に表示されます。これにより、クラスタの全体像を把握できます。また、ドキュメントをクラスタに割り当てる前に、変更することもできます。

    1. ラベルが付いていないクラスタ内にドキュメントが含まれている場合は、リストから [クラスタ ラベル] を選択します。

      クラスタにラベルを適用すると、このクラスタ内のすべてのドキュメントに同じラベルが割り当てられます。レイアウトのクラスタ化を使用してドキュメントがクラスタ化されている場合は、この処理が自動的に行われます。コンテンツのクラスタ化を使用しているドキュメントがクラスタ化されている場合は、手動で確認する必要があります。

    2. ラベル解除されたクラスタにラベルを追加した場合は、[クラスタ化を更新] をクリックします。

      クラスタ化が実行され、新しくラベルが付けられたクラスタに属するドキュメントが適切に更新されます。

    3. クラスタ解除されたドキュメントについては、リストから [クラスタ ラベル] を選択します。
    4. 未確認のドキュメントについて、これらが正しいクラスタ内にある場合は [確認] をクリックします。これらが正しくないクラスタ内にある場合は、[再割り当て] をクリックして、正しいクラスタに割り当てます。
    5. すべてのドキュメントが確認され、クラスタに割り当てられて、すべてのクラスタにラベルが付けられたら、[クラスタ化を更新] をクリックします。

      [割り当てる] タブがロードされます。

  8. クラスタ化されたドキュメントの中から、クラスタに割り当てられているものを選択します。
    1. プロジェクト階層がまだ構成されていない場合は、必要に応じて [クラスタ ラベルからプロジェクト クラスを作成] を選択します。

      この方法を使用すると、プロジェクト階層をすばやく構成できます。

      プロジェクトが読み取り専用の場合、この設定は無効になります。

    2. [最小コンテンツ信頼度] を指定します。

      コンテンツのクラスタ化の信頼度がこの値より小さいドキュメントは、割り当てステップに含まれません。

    3. [最小レイアウト信頼度] を指定します。

      レイアウトのクラスタ化の信頼度がこの値より小さいドキュメントは、割り当てステップに含まれません。

    4. [確認したドキュメント] を選択して、割り当てステップで確認されたすべてのドキュメントを含めます。
    5. [未確認のドキュメント] を選択して、割り当てステップで確認されなかったすべてのドキュメントを含めます。

      この設定を選択すると、未確認のクラスタが最小信頼度の基準を満たしていると想定されて、分類結果として割り当てられます。

  9. [OK] をクリックします。

    [クラスタ化] ウィンドウが閉じ、選択したドキュメント サブセットが更新されて、クラスタ ラベルに分類結果として反映されます。[クラスタ ラベルからプロジェクト クラスを作成] が選択されている場合、[プロジェクト ツリー] は新しいクラスを使用して更新されます。