Document Transformation

Document Transformation ステップでは、画像およびテキスト ドキュメントから情報を抽出して使用することができます。Kofax RPA Document Transformation Service は、.png.jpeg.jpg.tiftiff.pdf、および .txt ファイルを処理できます。複数のドキュメントは、.zip アーカイブまたはファイルを含むフォルダへのパスのいずれかの形で送信することができます。Kofax Transformation でドキュメントの区切り機能を使用すると、Kofax RPA は DT ブラウザ でナビゲートできる複数のドキュメントを受信できます。詳細については、Document Transformation ワークフロー を参照してください。

Kofax RPA Document Transformation Service は、Sentiment プロジェクトを使用して自然言語処理 (NLP) リクエストを処理し、テキストのムード (ポジティブまたはネガティブなど) を検出し、会社名、個人名などのエンティティを抽出することもできます。Sentiment プロジェクトを使用して顧客レビューを処理し、顧客がサービスに満足しているかどうかを理解できます。また、記事内の会社に関するすべての言及を検索するためにも使用できます。Sentiment プロジェクトは、KTT バージョン 6.3.1 以降で使用できます。詳細については、事前定義済みのプロジェクト の Sentiment プロジェクトを参照してください。

プロパティ

アクション

Kofax RPA Document Transformation Service を使用して、実行するアクションを選択します。

サービス URL

必要に応じて、Document Transformation Service を実行しているコンピュータの URL とポートを指定します。サービスがローカルにインストールされている場合は、このフィールドに localhost と入力します。URL には、http:// または https:// プレフィックスが含まれている必要があります。https を使用する場合、Web ホスティング サービスにはよく知られている認証機関によって受け入れられた証明書が必要です。

プロジェクトのタイプ
  • デフォルトのプロジェクト: このオプションは、事前定義済みのプロジェクトのセットを提供します。以下、事前定義済みのプロジェクト を参照してください。

  • カスタム プロジェクト: このオプションを選択する場合、[カスタム プロジェクト パス] でドキュメントを処理するプロジェクトへのパスを指定します。

ドキュメント ソース

ロボットが処理するドキュメントを検索する方法を選択します。

  • ローカル ファイル: [ファイル名] で処理するドキュメントのパスを入力します。ロボットを実行しているコンピュータからアクセス可能なイメージ ファイル、.zip アーカイブ、ファイルを含むフォルダ、またはその他のサポートされている形式のファイルのいずれかのフル パスを指定します。

  • ロボット ファイル システム: 構成済みのファイル システムへのパスとファイル名 (Myshare/doctotransform.pdf など) を入力します。ファイル システム名は、Management Console 内のロボット ファイル システム タブでの指定に対応している必要があります。

  • バイナリ変数: ドキュメントを含むバイナリ変数を指定します。

複数のドキュメントへのパスを指定すると、DT ブラウザ のツールバー ボタンを使用して複数のドキュメント間を移動することができます。
検証 URL
シン クライアント サービスの URL を指定するには、このオプションを選択します。このプロパティは、処理されたドキュメントを検証の目的で送信するために必要です。URL は、Document Transformation Service の ValidationService プロパティで指定します。URL は次のようになります。

http://localhost:8082

コールバック URL
ドキュメントの検証後に呼び出すシン クライアント サービスの REST ロボット URL を指定するには、このオプションを選択します。検証が完了すると、この URL は Management Console でロボットを起動するために使用されます。URL には、実行するロボットのパスとともに、Management Console アドレスが含まれている必要があります。URL は次のようになります。

http://localhost:8080/ManagementConsole/rest/run/Default project/binaryInputAndWait.robot

指定のロボットに対して [REST] ボタンをクリックすると、Management Console で有効なコールバック URL を見つけることができます。このようなロボットには、バイナリ タイプの doc という属性を持つ document と呼ばれる入力変数があります。ロボットが呼び出されると、ドキュメントの doc 属性には、変換されて検証された文書が含まれます。Management Console でログインのためのクレデンシャルが必要な場合は、URL に次のように指定します。

http://user:password@localhost:8080/ManagementConsole/rest/run/Default project/binaryInputAndWait.robot

詳細については、ロボットの実行RESTを参照してください。

事前定義済みのプロジェクト

Kofax RPA によってインストールされた KTT Project Builder のカスタム プロジェクトおよび Kofax RPA によって提供された変換プロジェクトを編集できます。Project Builder を開くと、そのドキュメントにアクセスできます。

バーコード プロジェクト
このプロジェクトの目的は、ドキュメントからすべてのバーコードを抽出することです。

バーコード プロジェクトの設定を変更するには、次のステップを実行します。

  1. Kapow_Barcodes.fpr プロジェクト ファイルを見つけます。

  2. このファイルを Project Builder で開きます。

  3. 左側のプロジェクト ツリーでクラス [デフォルト] を選択します。

  4. 目のシンボルをクリックして詳細を開きます。

  5. [ロケータ] で、BL バーコード ロケータをダブルクリックします。デフォルトでは、ロケータはバーコード タイプを自動検出するように設定されています。

  6. [タイプ] の下にある [自動検出] オプションをオフにして、特定のタイプを選択します。

  7. デフォルトでは、ロケータは方向を自動検出するように設定されています。[方向] の下にある [自動検出] オプションをオフにして、特定の方向を選択します。

  8. デフォルトでは、ロケータはドキュメントのすべてのページのバーコードを検索するように設定されています。バーコードの検出対象を特定のページのセットに制限するには、[領域] タブを選択し、[ロケータを有効化する対象] の設定を変更します。

  9. プロジェクトの編集が終了したら、すべてのダイアログ ボックスを閉じ、[プロジェクト] タブの [プロジェクトを保存] をクリックします。

請求書プロジェクト (請求書の消費税および請求書の VAT)

これらのプロジェクトは米国からの請求書を抽出するように設計されており、消費税もサポートしています。これらのプロジェクトでベンダーを適切に抽出するには、ERP マスター データを設定する必要があります。ベンダーおよび内部会社のマスター データは、csv ファイルとして提供する必要があります。プロジェクトには、会社固有のベンダーに適合できる vendors.csv ファイルと internal_venders.csv ファイルが含まれています。

マスター データを指定して構成するには、以下の手順を実行します。

前提条件
  • ベンダー ファイルは、Vendors.csv というセミコロンで区切られたドキュメントです。ファイルには次の列が必要です。

    • VendorID (必須)

    • CompanyCode (オプション)

    • Name (必須)

    • Street (必須)

    • City (必須)

    • ZIP (必須)

    • PostBox (オプション)

    • Country (必須、2 文字の国コード)

    • FIDNumber (オプション)

    • Phone (オプション)

    • Fax (オプション)

    • URL (オプション)

    • Email (オプション)

  • 内部のベンダー ファイルは Vendors_Internal.csv という名前にする必要があります。これは、Vendors.csv と同じ列を持つセミコロンで区切られたファイルです。内部ベンダーは、顧客のエンタープライズ内部のベンダーです。このファイルは、ベンダー結果から、通常の外部請求書の請求先住所と混同しやすい内部ベンダーを除外するために使用されます。

  1. Kapow_Invoices_SalesTax.fpr プロジェクト ファイルまたは Kapow_Invoices_VAT.fpr プロジェクトファイルを見つけて、Project Builder で開きます。

  2. [プロジェクト設定] を開きます。

  3. [データベース] タブを開きます。

    パスが正しくないため、2 つの Fuzzy データベース項目に赤色のフラグが付いていることに注意してください。

  4. [Vendors] をダブルクリックします。

  5. ネットワーク共有上の Vendors.csv のパスを選択します。

  6. [OK] をクリックしてダイアログ ボックスを閉じます。ファイルがインポートされます。

  7. [Vendors_Internal] をダブルクリックします。

  8. ネットワーク共有上の Vendors_Internal.csv のパスを選択します。

  9. [OK] をクリックしてダイアログ ボックスを閉じます。ファイルがインポートされます。

  10. ファイルの編集が終了したら、すべてのダイアログ ボックスを閉じ、[プロジェクト] タブの [プロジェクトを保存] をクリックします。

オンライン ラーニング
デフォルトでは、同様のドキュメントでのフィールド認識の確率を上げるために役立つオンライン ラーニングは請求書プロジェクトでのみ有効にできます。トレーニング ドキュメントが保存されるフォルダへのパスを指定する場合、そのフォルダがすでに存在していることを確認します。フォルダが存在しない場合、作成することを求める通知を受け取ります。続行するには、[はい] をクリックします。
言語プロジェクト
このプロジェクトの目的は、ドキュメントが記述される言語を特定することです。

このプロジェクトは設定可能ではありません。

OCR プロジェクト

このプロジェクトの目的は、ドキュメントのフル テキスト OCR の結果を返すことです。デフォルトではこのプロジェクトに検証プロセスが含まれていないことに注意してください。

OCR 認識言語をデフォルト (英語) から変更するには、以下の手順を実行します。

  1. Kapow_OCR.fpr プロジェクト ファイルを見つけます。
  2. このファイルを Project Builder で開きます。
  3. [プロジェクト設定] をクリックします。
  4. [プロジェクト設定] ダイアログ ボックスで、[認識] タブを選択します。
  5. [FineReader] ページ プロファイルを選択します。
  6. 希望の言語を確認します。
  7. すべてのダイアログ ボックスを閉じ、[プロジェクト] タブの [プロジェクトを保存] をクリックします。

US 住所抽出プロジェクト
このプロジェクトの目的は、ドキュメントからすべての US 住所を抽出することです。

このプロジェクトは設定可能ではありません。

Sentiment プロジェクト

このプロジェクトの目的は、テキストの雰囲気 (ポジティブまたはネガティブなど) を推測し、会社名、個人名などのエンティティを識別することです。変換されたドキュメントでは、ムードは -1 から 1 までの数字で Sentiment フィールドに表示されます。-1 は完全にネガティブで、1 は完全にポジティブです。たとえば、0.257545 はわずかにポジティブなテキストを表します。

デフォルトでは、プロジェクトは英語のテキストを処理します。Sentiment プロジェクトの言語バンドルは、3 つの .msi インストーラーで個別に配布されます。

  • Kofax NLP 規定欧米語 バンドル: 英語、フランス語、ドイツ語、ポルトガル語、スペイン語

  • Kofax NLP 規定欧米語以外の欧米語 バンドル: オランダ語、イタリア語、ルーマニア語

  • Kofax NLP 追加の言語 バンドル: 日本語、韓国語、標準中国語

言語バンドルはデフォルトではインストールされません。使用可能な言語を使用するには、該当する言語バンドルをインストールします。たとえば、英語を使用するには、Kofax NLP Western Default Language Bundle をインストールします。

バンドルは Windows プログラムとしてインストールされ、オプションはありません。言語バンドルを削除するには、コントロールパネルから [プログラムと機能] または [アプリと機能] を開き、バンドルを選択して [アンインストール] をクリックします。

認識言語をデフォルト (英語) から変更するには、以下の手順を実行します。

  1. Project Builder で Sentimentプロジェクトを開きます。

  2. [プロジェクト設定] をクリックします。

  3. [プロジェクト設定] ダイアログ ボックスで、[プロパティ] ボタンをクリックします。

  4. デフォルトの英語オプションをクリアします。

  5. 言語を選択します。

  6. すべてのダイアログボックスを閉じます。

  7. プロジェクト ツリーで、[デフォルトのプロジェクト] 定義を選択します。

  8. スクロール ダウンんして、言語リストから目的の言語を選択します。

  9. [プロジェクト] タブの [プロジェクトを保存] をクリックします。

カスタマイズ済みのプロジェクト
このオプションを選択するときは、ドキュメントを処理するプロジェクトのパス (c:\rpa\ocr など) を [プロジェクト名] プロパティに指定します。プロジェクト リンクは、Design Studio を実行しているコンピュータではなく、Document Transformation ホスト上のローカルにアクセス可能なフォルダでなければなりません。

DT ブラウザ

DT (Document Transformation) ブラウザは変換結果を表示し、ドキュメント内の抽出されたデータを処理するのに役立ちます。次の表は、DT ブラウザのツールバーの要素について説明します。


ドキュメント変換ブラウザのツールバー

ボタン

説明

[ページ] セクションでは、複数ページのドキュメント内を移動することができます。

組み込み Kapow ブラウザの [戻る] ボタン

複数ページのドキュメントで 1 つ前のページに戻ります。

組み込み Kapow ブラウザの [進む] ボタン

複数ページのドキュメントで 1 つ先のページに進みます。

ページ番号に移動

複数ページのドキュメントで指定のページに移動します。

[ドキュメント] セクションでは、複数または分割されたドキュメント内を移動できます。

組み込み Kapow ブラウザの [戻る] ボタン

前のドキュメントに移動します。

組み込み Kapow ブラウザの [進む] ボタン

次のドキュメントに移動します。

ドキュメントを番号で開く

番号で指定されたドキュメントに移動します。

ドキュメントを名前で開く

名前で指定されたドキュメントに移動します。

  • 通常のドキュメントの場合は、ファイル名を拡張子なしで指定します。例:mydocument.pdf ファイルの場合、mydocument で指定。
  • 分割されたドキュメントの場合は、拡張子なしのファイル名の後にアンダースコア (_) とページ範囲を接尾辞として付加します。たとえば、4 ページから成る mydocument.pdf ファイルが 2 ページに分割されている場合、分割されたドキュメントはそれぞれ mydocument_1-2 および mydocument_3-4 という名前にします。

[検証] セクションは、ドキュメントの検証に役立ちます。

送信して検証

指定された Document Transformation Thin Client サーバーに手動で検証するドキュメントを送信します。

ドキュメントの変換ステータス

変換されたドキュメントの状態 (エラーの説明がある場合)。

Document Transformation ワークフロー

Document Transformation アクションでは、選択したプロジェクトを使用してグラフィカル ドキュメントまたは PDF ドキュメントを処理します。プロジェクトは、OCR やその他の指定された操作を実行してドキュメントを処理および変換するモジュールです。

処理結果は Desktop Automation ロボットに戻され、レコーダー ビューの Document Transformation Browser で開かれます。サービスは、抽出されたすべての情報を含む要素ツリーを形成します。複数ページのドキュメントでは、DT ブラウザのツールバーの [前へ] および [次へ] ボタンを使用してページを移動できます。詳細については、DT ブラウザを参照してください。

ツリーの要素には、プロジェクトで定義された OCR 結果やその他の抽出結果の信頼度が含まれています。confidence 属性には、0 から 1 までの値を含めることができます。一番高い信頼度は 1 です。

変換されたドキュメントの要素プロパティ

der_x などの派生属性を使用して要素を見つけることができます。これはファインダーで使用できます。

変換されたドキュメントをエディターで開くと、変換結果の検証を実行するかどうかを決定できます。検証なしで変換結果に満足できた場合は、ドキュメントのデータを抽出して使用することができます。

検証は Document Transformation Thin Client によって実行されます。指定された Thin Client にドキュメントを送信するには、Document Transformation Browser の [プロキシ設定の構成] をクリックします。一意の URL が生成され、ロボットに返されます。ロボットは URL を抽出し、それを使用して電子メールなどを介して検証ユーザーにドキュメントを送信します。検証ユーザーは URL をクリックし、資格情報を入力します。その後、抽出されたデータを含むドキュメントが開きます。検証ユーザーは、変換されたドキュメントを調べ、必要であれば、ドキュメント内の抽出された情報を修正します。

ドキュメントの検証時に、ユーザーはオンライン ラーニングを有効にして、同じようなドキュメントでのフィールド認識の確率を上げることができます。この機能は、請求書などのサンプル ドキュメントのレイアウトの記憶に基づいています。自動フィールド入力を使用、ドキュメントに正しい値を手動で入力または選択することにより、ユーザーはナレッジ ベースに貢献します。これによってユーザーが次回同様のドキュメントを表示する際に、抽出結果が改善されます。

検証が終了すると、検証ユーザーはそのドキュメントを有効であるとマークします。有効であるとマークされたドキュメントは、Document Transformation アクションのコールバック URL で指定されたロボットの引数として使用されます。