TotalAgility でのマシン ラーニングとオンライン ラーニング
このトピックでは、オンライン ラーニングと事例学習をサポートする TotalAgility のすべてのツールの概要を示します。
分類
TotalAgility では、次のタイプの分類がサポートされています。
-
コンテンツ ベース: テキストまたは OCR の結果が含まれているドキュメントのサンプルから学習します。
-
レイアウト ベース: グラフィカルなレイアウトに基づいてドキュメント タイプを区別する方法を学習します。OCR を必要とせず、通常は処理時間が短くなります。
どちらの分類も、事前トレーニングとオンライン ラーニングをサポートしています。
2 つの分類子は組み合わされることがあります。レイアウトベースの分類は高速で、OCR を必要としないため、最初に実行します。結果が信頼できない場合は、OCR を実行して、コンテンツベースの分類を実行します。
分割
TotalAgility 7.9.0 以降では、事前トレーニングとオンライン ラーニングが両方ともサポートされています。以前のバージョンでは、オンライン ラーニングを利用できませんでした。
ドキュメント分割は、複数ページのサンプル ドキュメントから学習します。すべてのドキュメント タイプの先頭のページ、中間のページ、最後のページを区別する方法が学習されます。ドキュメント分割を実行すると、最初にすべてのページが分類され、その後に、ページの分類結果に基づいて一連のページが個々のドキュメントに分割される可能性が高くなります。ドキュメント分割では、ページのコンテンツ分類子とレイアウト分類子を両方使用できます。
抽出
TotalAgility では、次のロケータとエバリュエータがサポートされています。
|
ロケータとエバリュエータ |
説明 |
事前トレーニングをサポートしますか? |
オンライン ラーニングをサポートしますか? |
特定ラーニングをサポートしますか? |
汎用ラーニングをサポートしますか? |
|---|---|---|---|---|---|
|
請求書固有のロケータ |
金額フィールドとヘッダー フィールドに使用されます |
はい |
はい |
はい |
はい |
|
トレーニング可能なグループ ロケータ |
トレーニング可能なカスタム フィールド (値とキーワード) に使用されます。 |
はい |
はい |
はい |
はい |
|
テーブル ロケータ |
ライン アイテムに使用されます。 |
はい |
はい |
はい |
いいえ |
|
テキスト コンテンツ ロケータ |
文中の語句やオブジェクトなど、自然言語のテキストに埋め込まれているデータに使用されます。 |
はい |
いいえ |
いいえ |
はい |
|
トレーニング可能なエバリュエータ |
トレーニング可能なグループ ロケータに似ています。唯一の違いは、トレーニング可能なグループ ロケータはドキュメント上のすべての単語を有効な候補と見なすのに対して、トレーニング可能なエバリュエータは別のロケータから提供された単語のみを考慮することです。したがって、トレーニング可能なエバリュエータの方が詳細な制御が可能ですが、必要なセットアップは多くなります。 |
はい |
いいえ |
はい |
いいえ |