トレーニング セットとナレッジベース

自動選択学習サンプルを集めたものは、トレーニング セットと呼ばれます。Transformation Designer の各プロジェクトには、分類/分割用のトレーニング セットと抽出用のトレーニング セットが 1 つずつ含まれています。

トレーニング セットとナレッジベース

分類/分割セット

分類/分割セットには通常、複数ページのドキュメントが含まれています。事例学習による分類は多くの設定を必要としないため、分類/分割セットを使用するシステムをトレーニングするのは非常に簡単です。

分類トレーニング セット

この分類セットには、次の情報が含まれています。

ファイル名
ファイルの名前。
使用
このサンプルを使用してモデルを構築するかどうかを定義し、ドキュメントを削除しなくても、管理者がモデルから除外できるようにします。
割り当てられたクラス
各サンプルをドキュメント タイプに割り当てて、TotalAgility がドキュメントを区別 (分類) できるようにします。マシン ラーニングの用語では、このプロセスは「サンプルのラベル付け」と呼ばれます。
分類結果と信頼度
自動選択学習サンプルのドキュメントをテストするときに、分類結果を表示します。一部のサンプルに誤ったラベルが付けられている可能性があるため、TotalAgility がサンプルを 100% 信頼することはありません。たとえば、サンプルを分類するときに (この高度な方法については、「TotalAgility のベンチマーク」を参照)、ドキュメント タイプ A のサンプルがドキュメント タイプ B として分類される場合は、サンプルのラベルが正しくないか、A と B をより適切に分類するために追加のサンプルが必要である可能性があります。

抽出セット

ドキュメントからデータを抽出するように TotalAgility に指示するには、このドキュメント タイプのサンプルを提供し、ポイント アンド クリック インターフェイスを使用して抽出するデータの場所を TotalAgility に示す必要があります。TotalAgility はこの情報に基づいて、必要なデータを抽出することを学習します。

抽出トレーニング セット

この抽出セットには、次の情報が含まれています。

ファイル名
ファイルの名前。
使用
このサンプルを使用してモデルを構築するかどうかを定義し、ドキュメントを削除しなくても、管理者がモデルから除外できるようにします。
トレーニング済み
サンプル ドキュメントを使用してモデルを作成したかどうかを示します。TotalAgility のサンプルの中に、新しい情報を提供しないものが極端に多く含まれている場合、これらのサンプルは無視されます。[トレーニング済み] フラグは、無視されるサンプルを示します。モデルに影響を与えることなくこれらのサンプルを削除して、トレーニング セットのサイズを小さく抑えることができます。
レイアウト ID
後でレイアウトを識別するために特定の抽出 (「特定ラーニングと汎用ラーニング」を参照) で作成される内部クラスの ID です。同じ ID は、内部クラスが同じであることを意味します。通常、TotalAgility は内部レイアウト ID ごとに 3 つのサンプルを使用します。残りのサンプルには「トレーニングされていない」というフラグが割り当てられていて、削除できます。
矛盾
矛盾を示します。2 つのドキュメントのレイアウト ID が同じであるにもかかわらず、各ドキュメント内の同じフィールドが異なる方法でトレーニングされている場合は、2 つのドキュメントが互いに矛盾しています。「矛盾の解決」を参照してください。
検証情報

ロケータによっては、トレーニングおよび抽出されたデータが正しいことを確認する検証ルールがロケータ レベルで設定されていることがあります。このようなルールに違反するデータが含まれているフィールドをトレーニングすると、このルールの列に警告と表示されます。この情報は、フィールド内の間違ったデータがトレーニングされたかどうかを識別するのに役立ちます。

分類結果と信頼度

分類/分割セット」で分類と信頼性を参照してください。

割り当てられたクラス
サンプルに割り当てられたドキュメント タイプ。

ナレッジベース

ナレッジベースは、マシン ラーニング モデルにおける TotalAgility の名称です。ナレッジベースは、モデルをトレーニングするときにサンプル ドキュメントから生成されます。したがって、ナレッジベース/モデルには、これらのサンプルから学習した知識が含まれていますが、サンプル自体は含まれていません。

サンプルを「トレーニング」すると、TotalAgility は内部ナレッジベースを作成し、実行時はこれのみを使用するようになります。ナレッジベースの利点は、本番システムに多くのサンプルを展開する必要がなく、元のサンプル ファイル内の機密情報を他のシステムで公開する必要がないため、危険にさらされないことです。

この内部ナレッジベース/モデルに加えて、トレーニング可能なロケータを使用することにより、エクスポート可能な抽出ナレッジベースを生成することもできます。これらのナレッジベースは、パスワードで保護できます。たとえば、パートナーとして、トレーニングした特定のドキュメント タイプからデータを抽出するナレッジベースを作成すると、サンプル ドキュメントを共有しなくても、このナレッジベースを顧客に販売または提供することができます。

実行順序

抽出にマシン ラーニングを使用する TotalAgility プロジェクト (抽出グループまたは共有プロジェクト) には、複数のモデルを含めることができます。システムを「トレーニング」するときに、汎用な抽出用と特定の抽出用の 2 つの内部ナレッジベースを生成できます。また、自分が作成したナレッジベースを TotalAgility プロジェクトに追加したり、ロケータにナレッジベースをインポートしたりできます。さらに、オペレータによってフラグが設定されたサンプルをトレーニングすることで、別の動的モデルを作成するときに、オンライン ラーニングで作成された他の内部ナレッジベースを追加することができます。

ドキュメントを抽出する場合、これらのモデルは次の順序で実行されます。

実行順序

  • TotalAgility が次に示すいずれかの手順で信頼できる結果を見つけると、実行は停止します。

  • TotalAgility は最初に特定のナレッジベースを実行します。これは、TotalAgility がレイアウトを認識して、データの場所を把握することを意味します。これらを認識できない場合は、より汎用なナレッジベースベースを試します。

  • TotalAgility はプロジェクトの内部ナレッジベースを実行します。このナレッジベースは Transformation Designer の管理者によって作成およびレビューされています。オンライン ラーニングの場合は、ナレッジベースを間接的に作成するオペレータが間違いを犯す可能性や、最初にレビューする必要があった矛盾する情報をトレーニングする可能性があるため、通常は、内部ナレッジベースの方が信頼性が高くなります。