Google Cloud Document AI からの応答を使用したドキュメントの作成
Google Cloud は、クラウド サービスの一部として Document AI サービスを提供しています。
Document AI は、さまざまなドキュメント タイプからさまざまなタイプのデータを抽出するように特別に設計された、事前構築済みの複数のモデルとプロセッサが用意されています。
Document AI は、カスタム モデルや既存モデルのアップトレーニングもサポートしています。
OCR 応答には、プロセッサで検出されたフィールドを持つエンティティのコレクションが含まれます。各エンティティは 1 つのフィールドまたはテーブルの行を表します。
JSON 構造は、使用されるプロセッサに関係なく汎用のものとなります。したがって、サンプル プロセスでは、エンティティ名とドキュメント フィールド名の間のマッピングを保持する必要があります。例:
\\TotalAgilityInstall\Sample Processes\Third Party Data Extraction にあるサンプル パッケージ Google Cloud Document AI Package.zip を TotalAgility Designer にインポートします。
サンプル パッケージには以下のものが含まれています。
カテゴリ |
[データ抽出] > [Google Document AI] パッケージ内のすべてがこのカテゴリに追加されます。 |
プロセス |
|
抽出グループ |
ThirdPartyExtraction: この抽出グループには、いくつかのサンプル ドキュメント タイプが含まれています。 |
分類グループ |
ThirdPartyExtractionCG |
スキャン/VRS プロファイル |
サードパーティのデータ抽出プロファイル |
グローバル データ モデル |
GoogleDocumentAI_Extraction_Global: このモデルは、サービスからのサンプル応答を使用して生成されます |
フォーム |
スキャン新規ジョブ作成と検証フォーム。 |
サンプル プロセス: GoogleDocumentAI 領収書
このサンプル プロセスでは、経費 (領収書) プロセッサを使用して返されたフィールドにデータを入力する方法を示します。
このサンプル プロセスには次のアクティビティが含まれています。
アクティビティ | 説明 |
---|---|
Google AI 抽出 | プロセス内で JSON を使用してデータ オブジェクトを設定します。JSON は、coffee-chain-receipt-sample.jpg イメージに対する Google AI からのサンプル応答に対応します。(実際の作業シナリオでは、これにより Google AI が呼び出されます) |
抽出結果を処理 | JSON から領収書データを取得し、TotalAgility ドキュメントのフィールドに値を設定します。 |
生データの消去 | 生の JSON とデータ オブジェクトは不要になるので削除します。 |
検証 | ドキュメントを検証します。 |
実行時にこの検証を試行するには、次の手順を実行します。
-
GoogleAI Receipt_Scan.form を参照します。
-
Coffee-chain-receipt-sample.jpg イメージをスキャンします。
このサンプル プロセスは、このイメージのみで動作するように構成されています。
-
プロセスのジョブを作成します。
-
作業キューを選択し、[検証] アクティビティをクリックします。
ドキュメント フィールドのデータが表示されます。フィールドをクリックすると、ドキュメント イメージ上の領域が強調表示されます。
-
必要に応じて、ドキュメントの各フィールドを検証できます。
-
[はい] をクリックして検証を完了します。
サンプル プロセス: GoogleDocumentAI 給与明細プロセス
このプロセスは領収書プロセスと似ていますが、フィールドは給与明細ドキュメント タイプ用のものとなります。
スキャン フォームは GoogleDocumentAI PaySlip_Scan.form で、スキャンするイメージは googlePaySlip.png です。