テーブル検出の管理

テーブル検出では、別の認識エンジンとマシン ラーニングを使用して、ドキュメント内の複数のテーブルを自動的に検出し、識別します。

テーブル検出は、右から左へ記述する言語をサポートしていません。

使用できる自動テーブル識別には 3 つのレベルがあります。

  1. テーブル検出

    テーブル検出は事前の構成なしで実行され、ドキュメント内のすべてのテーブルを自動的に検出します。クラスに対して [テーブル検出の有効化] 設定が有効になっている場合に発生します。この時点では、テーブル データは XDoc でのみ使用できます。このため、テーブル検出結果にアクセスする唯一の方法は、スクリプトを使用することです。

    スクリプトとテーブル検出の詳細については、「Transformation Designer スクリプト ヘルプ」を参照してください。

  2. テーブル分類

    テーブル分類は、関心のあるテーブルを識別します。そのためには、事前に用意されたラベル付きのテーブルを含むサンプル ドキュメントが必要です。この識別を行うには、該当するテーブル モデルを使用してトレーニング ドキュメントのテーブルにラベルを設定します。

    テーブルの分類結果は、アドバンスト テーブル ロケータの実行後に XDoc で利用できるようになります。つまり、スクリプトを使用して、分類結果に基づいてテーブルを見つけることもできます。

  3. テーブル分類と列分類

    列分類はドキュメント内の列を識別します。識別された列はテーブル モデルに自動的にマッピングされます。この識別を行うには、すでにラベル付けされたテーブルのテーブル モデルに基づいて各列にラベルを付けます。

    これにより、アドバンスト テーブル ロケータを使用して、ドキュメントから特定の列を含むテーブルを抽出できるようになります。

上記のレベル 2 および 3 は、設計時のトレーニングに依存します。テーブル検出に利用できるオンライン ラーニングはありません。また、本番中にトレーニング ドキュメントが収集されることもありません。これは、プロジェクトを本番環境にリリースする前に、検出されたテーブル データの使用方法についてプロジェクトをトレーニングする必要があることを意味します。

1 つのトレーニング ドキュメントに複数のテーブル ラベルを設定することができます。これらのラベルには、同じテーブル ラベルを指定することも、異なるテーブル ラベルの組み合わせを指定することもできます。

たとえば、年次報告書の営業経費テーブルを検索して、抽出するとします。会社の年次報告書には、営業経費テーブルなどの特定の情報を含めるという法的要件があります。これは法的要件ですが、これらのテーブルの多くは、テーブル名、列名、およびレイアウトが会社によって異なります。営業経費テーブルには、営業経費、運用費、営業予算などのさまざまなテーブル名が付いていることがあります。さまざまなテーブル名に対応するには、それぞれ異なるテーブル名を例として含むトレーニング ドキュメントを追加し、それらのテーブルに営業経費テーブル モデルのラベルを付けます。営業経費テーブルの列名も、会社によって異なる場合があります。つまり、同じ列に「今年」、「本年」、「2022 年」などの名前を付けることができます。さまざまな列名に対応するには、すでにラベルが付いているテーブルの各列に適切な列ラベルを付けて、さまざまな列名を持つ列が本番中に正しく識別されるようにすることが重要です。すべての列とテーブルにラベルを付けたら、プロジェクトをトレーニングします。次回に営業経費テーブルが検出された場合は、正しく識別され、抽出されます。

要件が時間の経過とともに変化する場合は、テーブル検出を更新し、プロジェクトを手動で再トレーニングする必要があります。これは、実行時にトレーニング ドキュメントが収集されず、テーブル抽出が自動的に改善されないためです。

関連トピック: