ドキュメントのチャンク設定の構成

TotalAgility (キャプチャ データ) および TotalAgility 以外のドキュメントのチャンク設定を構成できます。TotalAgility ドキュメントの場合は、特定のドキュメント タイプに対してチャンクを設定できます。

  1. [システム] > [システム設定] > [システム] > [チャンク設定] に移動します。

    [チャンク設定] ダイアログ ボックスが表示されます。

  2. [TotalAgility ドキュメント] の設定を構成します。

    • TotalAgility ドキュメント

    • TotalAgility 以外のドキュメント

    • 特定のドキュメント タイプ

  3. [保存] をクリックします。

    • ナレッジベースに追加アクティビティを実行すると、TotalAgility ドキュメントと TotalAgility 以外のドキュメントに対して構成されたチャンク設定が適用されます。

    • TotalAgility ドキュメントを AI ナレッジベースに追加すると、そのドキュメント タイプに固有のチャンク設定が適用されます。ドキュメント タイプに対して特定の設定が構成されていない場合は、TotalAgility ドキュメントに対して構成されたデフォルトの設定が適用されます。

    • TotalAgility 以外のドキュメントを AI ナレッジベースに追加すると、TotalAgility 以外のドキュメントに対して構成されたデフォルトのチャンク設定が適用されます。

ナレッジベースに追加アクティビティ」も参照してください。

TotalAgility ドキュメントのチャンク設定

TotalAgility ドキュメントの設定を以下に示します。

設定

説明

チャンク タイプ

AI ナレッジベースへのドキュメントの追加時に、ドキュメントをチャンクと呼ばれる小さなセクションに分割する方法。さまざまなチャンク方法により、システムでのコンテンツの構造と要件に基づいてコンテンツを効果的に処理できるようになります。利用可能なチャンク タイプは次のとおりです。

セクション

セクション、見出し、またはサブ見出しに基づいてドキュメントをチャンクに分割します。それぞれのセクションはチャンクになります。このチャンク タイプは、情報のコンテキストを維持する場合に役立ちます。

[ページ]

個々のページに基づいてドキュメントを分割し、それぞれのページがチャンクになります。このチャンク タイプは、ページの形式が重要となる場合に役立ちます。ページベースのチャンクにより構造がそのまま維持されるため、特定のセクションの検索と参照の処理が容易になります。分散システム内の大きなドキュメントに対して使用する場合に便利です。

固定サイズ

ドキュメントのコンテンツ構造に関係なく、ドキュメントを指定したサイズのチャンクに分割します。固定サイズは、コンテンツのロジックに関係なく、処理において均一なサイズが必要となる場合に役立ちます。

チャンク サイズ

ドキュメントを分割できる文字数または単語数を示します。この設定は、ドキュメントがナレッジベースに追加される際に、一度に処理されるドキュメントの量を決定する場合に役立ちます。ドキュメントが大きい場合は、そのドキュメントを小さな管理しやすいセグメント (または「チャンク」) に分割すると、処理と情報検索速度が向上します。(デフォルト: 2000 文字、最小: 200 文字)

チャンク サイズ設定は、TotalAgility ドキュメントの固定サイズ チャンク タイプにのみ使用できます。

重複チャンク

コンテキストを維持するためにチャンク間で繰り返されるようにするコンテンツの量を指定します。重複は、特に 1 つのチャンクの終点によって次のチャンクの重要な情報の始点がキャプチャされない場合に、コンテキストを保持するために役立ちます。これは、テキストを重複のないチャンクに分割してしまうとその境界で重要なコンテキストが失われる可能性があるテキスト分割などのタスクに対して役立ちます。(セクションとページのデフォルト: チャンク内の文字数の 20%、固定サイズの場合: チャンク内の文字数の 10 %。重複の値を 0 にした場合、チャンク間に重複コンテンツが含まれないことを示します。)

Microsoft Word

チャンク タイプ

Microsoft Word ドキュメントのチャンク タイプ。利用可能なオプションは次のとおりです。[セクション] (デフォルト) と [固定サイズ]

チャンク サイズ

チャンク サイズ設定は、TotalAgility 以外の Microsoft Word ドキュメントの「固定サイズ」チャンク タイプにのみ使用できます。(デフォルト: 2000 文字、最小: 200 文字)

重複チャンク

デフォルトの重複チャンクのパーセンテージ。(セクションのデフォルトはチャンク内の文字数の 20% で、固定サイズのデフォルトはチャンク内の文字数の 10% です。)

TotalAgility 以外のドキュメントのチャンク設定

TotalAgility 以外のドキュメントでは、[固定サイズ] のチャンク タイプのみがサポートされます。

  • デフォルトのチャンク サイズは 2000 文字で、最小サイズは 200 文字です。

  • デフォルトの重複チャンクは、チャンク内の文字数の 10% です。

ドキュメント タイプのチャンク設定

キャプチャ ドキュメントのタイプごとにチャンク設定を構成できます。たとえば、請求書を不動産評価とは異なる方法でチャンクしたい場合などが挙げられます。

  1. をクリックします。

    [ドキュメント タイプのチャンク設定の追加] ダイアログ ボックスが表示されます。

  2. [ドキュメント タイプ] リストで、キャプチャ ドキュメント タイプを選択して、デフォルトのキャプチャ データと Microsoft Word ドキュメントのオプションを上書きします。

    抽出グループで定義されたドキュメント タイプが [ドキュメント タイプ] リストに表示されます。

  3. 必要に応じて、設定を構成します。「TotalAgility ドキュメントのチャンク設定」を参照してください。
  4. [保存] をクリックします。

    ドキュメントのタイプは表に記載されています。構成したドキュメント タイプのチャンク設定は変更または削除することができます。