抽出の新しいサンプルとプロジェクトのライフサイクル

プロジェクトが最初に本番状態になったときは、その抽出結果は理想的ではありません。この期間中にさらに多くのトレーニングドキュメントが蓄積され、時間とともに少なくなります。そのため、新しいプロジェクトでは特定のタスクをより頻繁に実行する必要があります。

トレーニングドキュメントが蓄積される際に、抽出トレーニングドキュメントは動的な特定ナレッジベースに置かれ、その他の抽出メソッドが失敗した場合にのみアクセスされます。これは、2 つのことを意味します。

抽出情報を含むこのナレッジベースのドキュメントは、その他の設定が失敗するまで使用されません。この場合、抽出パフォーマンスが低下する可能性があります。
動的な特定ナレッジベースのサイズが大きくなると、プロジェクトのパフォーマンスが低下する可能性があります。

動的な特定ナレッジベースが大きくなりすぎないようにし、トレーニングドキュメントを定期的に抽出セットに移動するには、[抽出] の [新しいサンプル] をインポートし、競合を解決して、次の時間間隔の後にプロジェクトをトレーニングします。

1 週間後
2 週間後
3 週間後
4 週間後
2 か月後
3 か月後
6 か月後
1 年後

1 年が経過すると、プロジェクトのドキュメントは正常に処理されるようになり、多くの問題が発生することはなくなります。現在、トレーニングドキュメントが収集されるのは、新しいベンダーまたはフォームが検出されたときだけです。引き続きプロジェクトの監視とドキュメントのインポートを行い、約 6 か月ごとにプロジェクトを再トレーニングします。

抽出の 新しいサンプル とプロジェクトのライフ サイクル

抽出の新しいサンプルとプロジェクトのライフサイクル