トレーニング可能なロケータの特定のトレーニング

すべてのトレーニング可能なロケータは、特定のトレーニングと呼ばれるアルゴリズムを提供します。特定のトレーニングは、トレーニングされたドキュメントのレイアウトを認識し、そのレイアウトで抽出に使用できるすべての機能を関連付けます。

これらのロケータは、抽出時にレイアウト分類を内部で実行します。トレーニング ドキュメントのレイアウトが既知の場合は、同じレイアウトのトレーニング ドキュメントの情報に基づいてドキュメントが抽出されます。このアプローチの欠点は、レイアウトごとに少なくとも 1 つのドキュメントをトレーニングする必要があることです。特定のトレーニング アルゴリズムを汎用ナレッジベースと組み合わせて使用することで、必要なトレーニング ドキュメントの数が大幅に削減されます。

特定のトレーニング アルゴリズムとオンライン ラーニング ワークフローの緊密な統合により、追加のドキュメント トレーニングにかかる労力は大幅に削減されます。トレーニング ドキュメントが影響するのは同じレイアウトの他のドキュメントのみであるため、予期せぬトレーニング エラーが発生しても、特定のトレーニング アルゴリズムで適切に対処できます。

特定のトレーニング アルゴリズムのバックグラウンドでの動作を理解することは、ドキュメントが適切に抽出されない場合にトラブルシューティングを行うために重要です。特定のトレーニング アルゴリズムでは、構成されたクラスと必ずしも 1:1 の関係を持たない仮想クラスとテンプレートの組み合わせを使用してドキュメントが分類および抽出されます。

特定のトレーニングにおける仮想クラス

抽出中に、仮想クラスを使用してドキュメントに対してある種の分類が実行されます。これらの仮想クラスによって、同様のレイアウトを持つドキュメントがグループ化されます。これらの仮想クラスを構成する必要はなく、仮想クラスは自動的に作成され、特定のトレーニング アルゴリズムによってのみ使用されます。これらの仮想クラスは抽出にのみ使用されます。

たとえば、仮想クラスが請求書の特定のベンダーに関連付けられたとします。この場合、分類結果は請求書ですが、そのクラスのそれぞれのベンダーには独自の請求書レイアウトが設定されます。その結果、Transformation Designer 内に請求書クラスの一部である複数の仮想クラスが作成されます。

具体的なトレーニングでは、同じクラスのドキュメントに含まれるさまざまなレイアウトを区別する必要があります。これは仮想クラスを使用することで可能になります。

ドキュメントのトレーニングを行うと、そのレイアウトに基づいてドキュメントが分類され、内部的に仮想クラスに割り当てられます。本番環境でドキュメントのレイアウトが既存の仮想クラスと一致しない場合は、この新しいドキュメントの新しい仮想クラスが作成されます。これにより、1 つのクラスに複数の仮想クラスが含まれるようになります。

それぞれのドキュメントの仮想クラス情報は、Transformation Designer で確認することができます。抽出ドキュメント セットには、[レイアウト ID] という列が含まれています。この列の値は整数で、同じ仮想クラスを持つドキュメントは同じ値になります。

適切に抽出されないドキュメントが複数ある場合は、そのレイアウト ID が同様のレイアウトを持つ他のドキュメントと一致していることを確認してください。一致していない場合は、追加のトレーニング ドキュメントを追加することを検討してください。

特定のトレーニングのテンプレート

抽出中に、テンプレートによって特定のロケータのフィールドのセットが定義されます。つまり、抽出中に、トレーニング可能なロケータごとに少なくとも 1 つのテンプレートが作成されます。

ドキュメントのトレーニングを行うと、仮想クラスが割り当てられ、特定のトレーニング アルゴリズムによって現在のロケータのフィールドが抽出されて、ドキュメントに一致するテンプレートの検出が試行されます。

テンプレートが見つかった場合、ドキュメントはそのテンプレートに割り当てられます。一致するテンプレートが見つからない場合は、ドキュメントに基づいて新しいテンプレートが作成されます。

テンプレートと仮想クラスの連携によって抽出結果が生成され、抽出結果を改善するために、必要に応じて新しい仮想クラスとテンプレートが作成されます。