Document Transformation

Document Transformation ステップでは、画像およびテキストドキュメントから情報を抽出して使用することができます。Kofax RPA Document Transformation Service は、.png、.jpeg、.jpg、.tif、tiff、.pdf、および .txt ファイルを処理できます。複数のドキュメントは、.zip アーカイブまたはファイルを含むフォルダへのパスのいずれかの形で送信することができます。Kofax Transformation でドキュメントの区切り機能を使用すると、Kofax RPA は DT ブラウザでナビゲートできる複数のドキュメントを受信できます。詳細については、Document Transformation ワークフローを参照してください。

Kofax RPA Document Transformation Service は、Sentiment プロジェクトを使用して自然言語処理 (NLP) リクエストを処理し、テキストのムード (ポジティブまたはネガティブなど) を検出し、会社名、個人名などのエンティティを抽出することもできます。Sentiment プロジェクトを使用して顧客レビューを処理し、顧客がサービスに満足しているかどうかを理解できます。また、記事内の会社に関するすべての言及を検索するためにも使用できます。Sentiment プロジェクトは、KTT バージョン 6.3.1 以降で使用できます。詳細については、事前定義済みのプロジェクトの Sentiment プロジェクトを参照してください。

プロパティ

アクション

Kofax RPA Document Transformation Service を使用して、実行するアクションを選択します。

サービス URL

必要に応じて、Document Transformation Service を実行しているコンピュータの URL とポートを指定します。サービスがローカルにインストールされている場合は、このフィールドに localhost と入力します。URL には、http:// または https:// プレフィックスが含まれている必要があります。https を使用する場合、Web ホスティングサービスにはよく知られている認証機関によって受け入れられた証明書が必要です。

プロジェクトのタイプ

デフォルトのプロジェクト: このオプションは、事前定義済みのプロジェクトのセットを提供します。以下、事前定義済みのプロジェクトを参照してください。
カスタムプロジェクト: このオプションを選択する場合、[カスタムプロジェクトパス] でドキュメントを処理するプロジェクトへのパスを指定します。

ドキュメントソース

ロボットが処理するドキュメントを検索する方法を選択します。

ローカルファイル: [ファイル名] で処理するドキュメントのパスを入力します。ロボットを実行しているコンピュータからアクセス可能なイメージファイル、.zip アーカイブ、ファイルを含むフォルダ、またはその他のサポートされている形式のファイルのいずれかのフルパスを指定します。
ロボットファイルシステム: 構成済みのファイルシステムへのパスとファイル名 (Myshare/doctotransform.pdf など) を入力します。ファイルシステム名は、Management Console 内のロボットファイルシステムタブでの指定に対応している必要があります。
バイナリ変数: ドキュメントを含むバイナリ変数を指定します。

複数のドキュメントへのパスを指定すると、DT ブラウザのツールバーボタンを使用して複数のドキュメント間を移動することができます。

検証 URL

シンクライアントサービスの URL を指定するには、このオプションを選択します。このプロパティは、処理されたドキュメントを検証の目的で送信するために必要です。URL は、Document Transformation Service の ValidationService プロパティで指定します。URL は次のようになります。

http://localhost:8082

コールバック URL

ドキュメントの検証後に呼び出すシンクライアントサービスの REST ロボット URL を指定するには、このオプションを選択します。検証が完了すると、この URL は Management Console でロボットを起動するために使用されます。URL には、実行するロボットのパスとともに、Management Console アドレスが含まれている必要があります。URL は次のようになります。

http://localhost:8080/ManagementConsole/rest/run/Default project/binaryInputAndWait.robot

指定のロボットに対して [REST] ボタンをクリックすると、Management Console で有効なコールバック URL を見つけることができます。このようなロボットには、バイナリタイプの doc という属性を持つ document と呼ばれる入力変数があります。ロボットが呼び出されると、ドキュメントの doc 属性には、変換されて検証された文書が含まれます。Management Console でログインのためのクレデンシャルが必要な場合は、URL に次のように指定します。

http://user:password@localhost:8080/ManagementConsole/rest/run/Default project/binaryInputAndWait.robot

詳細については、ロボットの実行のRESTを参照してください。

事前定義済みのプロジェクト

Kofax RPA によってインストールされた KTT Project Builder のカスタムプロジェクトおよび Kofax RPA によって提供された変換プロジェクトを編集できます。Project Builder を開くと、そのドキュメントにアクセスできます。

バーコードプロジェクト

このプロジェクトの目的は、ドキュメントからすべてのバーコードを抽出することです。

バーコードプロジェクトの設定を変更するには、次のステップを実行します。

Kapow_Barcodes.fpr プロジェクトファイルを見つけます。
このファイルを Project Builder で開きます。
左側のプロジェクトツリーでクラス [デフォルト] を選択します。
目のシンボルをクリックして詳細を開きます。
[ロケータ] で、BL バーコードロケータをダブルクリックします。デフォルトでは、ロケータはバーコードタイプを自動検出するように設定されています。
[タイプ] の下にある [自動検出] オプションをオフにして、特定のタイプを選択します。
デフォルトでは、ロケータは方向を自動検出するように設定されています。[方向] の下にある [自動検出] オプションをオフにして、特定の方向を選択します。
デフォルトでは、ロケータはドキュメントのすべてのページのバーコードを検索するように設定されています。バーコードの検出対象を特定のページのセットに制限するには、[領域] タブを選択し、[ロケータを有効化する対象] の設定を変更します。
プロジェクトの編集が終了したら、すべてのダイアログボックスを閉じ、[プロジェクト] タブの [プロジェクトを保存] をクリックします。

請求書プロジェクト (請求書の消費税および請求書の VAT)

これらのプロジェクトは米国からの請求書を抽出するように設計されており、消費税もサポートしています。これらのプロジェクトでベンダーを適切に抽出するには、ERP マスターデータを設定する必要があります。ベンダーおよび内部会社のマスターデータは、csv ファイルとして提供する必要があります。プロジェクトには、会社固有のベンダーに適合できる vendors.csv ファイルと internal_venders.csv ファイルが含まれています。

マスターデータを指定して構成するには、以下の手順を実行します。

前提条件

ベンダーファイルは、Vendors.csv というセミコロンで区切られたドキュメントです。ファイルには次の列が必要です。
- VendorID (必須)
- CompanyCode (オプション)
- Name (必須)
- Street (必須)
- City (必須)
- ZIP (必須)
- PostBox (オプション)
- Country (必須、2 文字の国コード)
- FIDNumber (オプション)
- Phone (オプション)
- Fax (オプション)
- URL (オプション)
- Email (オプション)
内部のベンダーファイルは Vendors_Internal.csv という名前にする必要があります。これは、Vendors.csv と同じ列を持つセミコロンで区切られたファイルです。内部ベンダーは、顧客のエンタープライズ内部のベンダーです。このファイルは、ベンダー結果から、通常の外部請求書の請求先住所と混同しやすい内部ベンダーを除外するために使用されます。

Kapow_Invoices_SalesTax.fpr プロジェクトファイルまたは Kapow_Invoices_VAT.fpr プロジェクトファイルを見つけて、Project Builder で開きます。
[プロジェクト設定] を開きます。
[データベース] タブを開きます。

パスが正しくないため、2 つの Fuzzy データベース項目に赤色のフラグが付いていることに注意してください。
[Vendors] をダブルクリックします。
ネットワーク共有上の Vendors.csv のパスを選択します。
[OK] をクリックしてダイアログボックスを閉じます。ファイルがインポートされます。
[Vendors_Internal] をダブルクリックします。
ネットワーク共有上の Vendors_Internal.csv のパスを選択します。
[OK] をクリックしてダイアログボックスを閉じます。ファイルがインポートされます。
ファイルの編集が終了したら、すべてのダイアログボックスを閉じ、[プロジェクト] タブの [プロジェクトを保存] をクリックします。

オンラインラーニング

デフォルトでは、同様のドキュメントでのフィールド認識の確率を上げるために役立つオンラインラーニングは請求書プロジェクトでのみ有効にできます。トレーニングドキュメントが保存されるフォルダへのパスを指定する場合、そのフォルダがすでに存在していることを確認します。フォルダが存在しない場合、作成することを求める通知を受け取ります。続行するには、[はい] をクリックします。

言語プロジェクト

このプロジェクトの目的は、ドキュメントが記述される言語を特定することです。

このプロジェクトは設定可能ではありません。

OCR プロジェクト

このプロジェクトの目的は、ドキュメントのフルテキスト OCR の結果を返すことです。デフォルトではこのプロジェクトに検証プロセスが含まれていないことに注意してください。

OCR 認識言語をデフォルト (英語) から変更するには、以下の手順を実行します。

Kapow_OCR.fpr プロジェクトファイルを見つけます。
このファイルを Project Builder で開きます。
[プロジェクト設定] をクリックします。
[プロジェクト設定] ダイアログボックスで、[認識] タブを選択します。
[FineReader] ページプロファイルを選択します。
希望の言語を確認します。
すべてのダイアログボックスを閉じ、[プロジェクト] タブの [プロジェクトを保存] をクリックします。

US 住所抽出プロジェクト

このプロジェクトの目的は、ドキュメントからすべての US 住所を抽出することです。

このプロジェクトは設定可能ではありません。

Sentiment プロジェクト

このプロジェクトの目的は、テキストの雰囲気 (ポジティブまたはネガティブなど) を推測し、会社名、個人名などのエンティティを識別することです。変換されたドキュメントでは、ムードは -1 から 1 までの数字で Sentiment フィールドに表示されます。-1 は完全にネガティブで、1 は完全にポジティブです。たとえば、0.257545 はわずかにポジティブなテキストを表します。

デフォルトでは、プロジェクトは英語のテキストを処理します。Sentiment プロジェクトの言語バンドルは、3 つの .msi インストーラーで個別に配布されます。

Kofax NLP 規定欧米語バンドル: 英語、フランス語、ドイツ語、ポルトガル語、スペイン語
Kofax NLP 規定欧米語以外の欧米語バンドル: オランダ語、イタリア語、ルーマニア語
Kofax NLP 追加の言語バンドル: 日本語、韓国語、標準中国語

言語バンドルはデフォルトではインストールされません。使用可能な言語を使用するには、該当する言語バンドルをインストールします。たとえば、英語を使用するには、Kofax NLP Western Default Language Bundle をインストールします。

バンドルは Windows プログラムとしてインストールされ、オプションはありません。言語バンドルを削除するには、コントロールパネルから [プログラムと機能] または [アプリと機能] を開き、バンドルを選択して [アンインストール] をクリックします。

認識言語をデフォルト (英語) から変更するには、以下の手順を実行します。

Project Builder で Sentimentプロジェクトを開きます。
[プロジェクト設定] をクリックします。
[プロジェクト設定] ダイアログボックスで、[プロパティ] ボタンをクリックします。
デフォルトの英語オプションをクリアします。
言語を選択します。
すべてのダイアログボックスを閉じます。
プロジェクトツリーで、[デフォルトのプロジェクト] 定義を選択します。
スクロールダウンんして、言語リストから目的の言語を選択します。
[プロジェクト] タブの [プロジェクトを保存] をクリックします。

カスタマイズ済みのプロジェクト

このオプションを選択するときは、ドキュメントを処理するプロジェクトのパス (c:\rpa\ocr など) を [プロジェクト名] プロパティに指定します。プロジェクトリンクは、Design Studio を実行しているコンピュータではなく、Document Transformation ホスト上のローカルにアクセス可能なフォルダでなければなりません。

DT ブラウザ

DT (Document Transformation) ブラウザは変換結果を表示し、ドキュメント内の抽出されたデータを処理するのに役立ちます。次の表は、DT ブラウザのツールバーの要素について説明します。

ボタン	説明
[ページ] セクションでは、複数ページのドキュメント内を移動することができます。
	複数ページのドキュメントで 1 つ前のページに戻ります。
	複数ページのドキュメントで 1 つ先のページに進みます。
	複数ページのドキュメントで指定のページに移動します。
[ドキュメント] セクションでは、複数または分割されたドキュメント内を移動できます。
	前のドキュメントに移動します。
	次のドキュメントに移動します。
	番号で指定されたドキュメントに移動します。
	名前で指定されたドキュメントに移動します。通常のドキュメントの場合は、ファイル名を拡張子なしで指定します。例：mydocument.pdf ファイルの場合、mydocument で指定。分割されたドキュメントの場合は、拡張子なしのファイル名の後にアンダースコア (_) とページ範囲を接尾辞として付加します。たとえば、4 ページから成る mydocument.pdf ファイルが 2 ページに分割されている場合、分割されたドキュメントはそれぞれ mydocument_1-2 および mydocument_3-4 という名前にします。
[検証] セクションは、ドキュメントの検証に役立ちます。
	指定された Document Transformation Thin Client サーバーに手動で検証するドキュメントを送信します。
	変換されたドキュメントの状態 (エラーの説明がある場合)。

Document Transformation ワークフロー

Document Transformation アクションでは、選択したプロジェクトを使用してグラフィカルドキュメントまたは PDF ドキュメントを処理します。プロジェクトは、OCR やその他の指定された操作を実行してドキュメントを処理および変換するモジュールです。

処理結果は Desktop Automation ロボットに戻され、レコーダービューの Document Transformation Browser で開かれます。サービスは、抽出されたすべての情報を含む要素ツリーを形成します。複数ページのドキュメントでは、DT ブラウザのツールバーの [前へ] および [次へ] ボタンを使用してページを移動できます。詳細については、DT ブラウザを参照してください。

ツリーの要素には、プロジェクトで定義された OCR 結果やその他の抽出結果の信頼度が含まれています。confidence 属性には、0 から 1 までの値を含めることができます。一番高い信頼度は 1 です。

変換されたドキュメントの要素プロパティ

der_x などの派生属性を使用して要素を見つけることができます。これはファインダーで使用できます。

変換されたドキュメントをエディターで開くと、変換結果の検証を実行するかどうかを決定できます。検証なしで変換結果に満足できた場合は、ドキュメントのデータを抽出して使用することができます。

検証は Document Transformation Thin Client によって実行されます。指定された Thin Client にドキュメントを送信するには、Document Transformation Browser の [ プロキシ設定の構成 ] をクリックします。一意の URL が生成され、ロボットに返されます。ロボットは URL を抽出し、それを使用して電子メールなどを介して検証ユーザーにドキュメントを送信します。検証ユーザーは URL をクリックし、資格情報を入力します。その後、抽出されたデータを含むドキュメントが開きます。検証ユーザーは、変換されたドキュメントを調べ、必要であれば、ドキュメント内の抽出された情報を修正します。

ドキュメントの検証時に、ユーザーはオンラインラーニングを有効にして、同じようなドキュメントでのフィールド認識の確率を上げることができます。この機能は、請求書などのサンプルドキュメントのレイアウトの記憶に基づいています。自動フィールド入力を使用、ドキュメントに正しい値を手動で入力または選択することにより、ユーザーはナレッジベースに貢献します。これによってユーザーが次回同様のドキュメントを表示する際に、抽出結果が改善されます。

検証が終了すると、検証ユーザーはそのドキュメントを有効であるとマークします。有効であるとマークされたドキュメントは、Document Transformation アクションのコールバック URL で指定されたロボットの引数として使用されます。

の検索で件の結果が返されました。

検索ヒント

Document Transformation

プロパティ

事前定義済みのプロジェクト

DT ブラウザ

Document Transformation ワークフロー

の検索で 件の結果が返されました。

検索ヒント

Document Transformation

プロパティ

事前定義済みのプロジェクト

DT ブラウザ

Document Transformation ワークフロー

の検索で件の結果が返されました。