マシン ラーニング プロジェクトを作成するための重要な手順

次に、TotalAgility でマシン ラーニング プロジェクトを作成するための一般的な手順を示します。

  1. ドキュメント タイプとフィールドを定義します。

  2. サンプルを提供して、これらのドキュメント タイプをシステムに伝えるか、これらのサンプル上のフィールドの場所をシステムに指示します。

    最初と 2 番目の手順は、システムのトレーニングに使用される事前トレーニングの手順です。これらの事前トレーニング手順を行うことで、システムは最初のドキュメントが本番環境に取り込まれる前であっても、分類や抽出を正常に行うことができます。

  3. システムをトレーニングします。ボタンをクリックするだけで、自動選択学習サンプルからモデルを作成できます。このモデル (サンプル自体ではなく、サンプルから取得された「知識」) が本番環境で使用されます。

その結果、設定なしですぐに使用できる、本番環境に対応したプロジェクトが、完全に機能するようになります。

手順 2 と 3 をスキップして、システムを事前にトレーニングすることなく、オンライン ラーニングに完全に依存することもできます。

分類抽出のチュートリアルを参照してください。

オンライン ラーニングとは、オペレータが行った修正を基に、本番中に学習するプロセスのことです。上記の手順 2 と 3 をスキップすると、オペレータが最初に行う分類と抽出の精度は 0% になり、データを手動で分類して入力する必要が生じます。TotalAgility はこれらの初期の変更内容および以降の変更内容から学習して、シーンの背後でモデルを改善 (再トレーニング) します。時間の経過とともに、手動分類が必要なドキュメントは減少し、手動入力が必要なデータは少なくなります。

バックエンドでは、次に示す 2 つの重要な手順が行われます。

  1. TotalAgility はドキュメントをモデルに追加し、モデルを再構築して、改善された新規モデルをできるだけ早く適用します (通常、次に処理するジョブにはすでに適用されています)。

  2. TotalAgility は、後で管理者がプロジェクトにダウンロードできるよう、トレーニング ドキュメントのコピーを保存します。

事前トレーニングとオンライン ラーニングの主な違いは、実行するユーザーと、実行する目的です。

システムを事前トレーニングする管理者の目的は、適切なトレーニング データをモデルに取り込むことです。

オンライン ラーニングを間接的に行うオペレータの目的は、ドキュメントの有効性と正確性をすばやく確立することです。全体的な精度が重視されることはほとんどありません。その結果、オペレータは、イメージ品質が非常に悪いドキュメントをトレーニングする、請求書の日付ではなく期日を選択する、1 つの値がドキュメントに複数回印刷されている場合にこの値を複数の場所で選択してシステムを混乱させる、などのミスを犯す可能性があります。

TotalAgility は、これらのさまざまな要因について、さまざまな方法で対応します。たとえば、特定のドキュメント タイプについて、ミスを犯したオペレータとミスを犯さなかったオペレータがいる場合、TotalAgility はオンライン ラーニングでこのモデルを構築するときに外れ値データを無視します。

オペレータから「矛盾する」データが提供された場合、TotalAgility は矛盾するデータにフラグを設定します。たとえば、請求書の日付がドキュメントに 2 回印刷されていたり、ミスを犯したオペレータの数と、ミスを犯さなかったオペレータの数が同じになったりすることがあります。管理者はこれらの矛盾を解決し、モデルを定期的にメンテナンスする必要があります。そうしないと、時間の経過とともにモデルの性能は若干低下します。

最初は「オンライン ラーニングのメンテナンス」を毎週実行し、プロジェクトとモデルが成熟するにつれて、頻度を徐々に減らすことをお勧めします。オンライン ラーニングのメンテナンスの詳細については、「新しいサンプルのダウンロードとメンテナンス」および「高度な知識」を参照してください。