ロケータ メソッド
Transformation Designer では、次のいずれかのロケータ メソッドを追加できます。
| アイコン | ロケータ メソッド | 説明 | 抽出タイプ |
|---|---|---|---|
|
|
[アドバンスト エバリュエータ] を使用して、請求書や注文書ドキュメントに一般的に使用される一連のサブフィールドについて、複数の入力ロケータから最適な抽出結果が返されるようにします。サブフィールドごとに入力ロケータの評価ステップと信頼度の閾値を定義して、投票プロセスで正しい結果が見つかるようにします。このエバリュエータは、請求書番号、注文日付、さまざまな金額、他のカスタム サブフィールドなど、一般的な請求書ヘッダ データの入力ロケータを 3 つまで比較できます。 |
グループ |
|
|
|
[住所ロケータ] は、構造化、非構造化、および半構造化された、印字の米国のドキュメント上で住所を検索します。住所ブロックの個々の要素は互いに隣接して配置されることが多く、横方向に 1 行、または 2~7 の行を持つ縦ブロックを形成することがあります。このロケータは、ドキュメントのすべてのページでこうしたブロックを検索し、それらを候補のリストとして返します。各候補には、抽出された情報の個々の部分 (名前、番地、市町村など) に対応するサブフィールドが含まれます。 |
グループ |
|
|
|
[アドバンスト エバリュエータ] を使用して、請求書や注文書ドキュメントに一般的に使用される一連のサブフィールドについて、複数の入力ロケータから最適な抽出結果が返されるようにします。サブフィールドごとに入力ロケータの評価ステップと信頼度の閾値を定義して、投票プロセスで正しい結果が見つかるようにします。このエバリュエータは、請求書番号、注文日付、さまざまな金額、他のカスタム サブフィールドなど、一般的な請求書ヘッダ データの入力ロケータを 3 つまで比較できます。 |
グループ |
|
|
|
[アドバンスト テーブル ロケータ] は、別の認識エンジンのテーブル抽出結果を使用して、ドキュメント上の 1 つ以上のテーブルを見つけます。このロケータ メソッドは、単独では何も抽出しません。このため、[アドバンスト テーブル ロケータ] を使用する前に、テーブル検出を構成してプロジェクトをトレーニングする必要があります。 |
テーブル |
|
|
|
クラス内のすべてのドキュメントにわたって一貫した位置にあるデータを抽出するには、[アドバンスト ゾーン ロケータ] を使用します。たとえば、フォームなどの構造化されているドキュメントからデータを抽出する場合などです。 |
グループ |
|
|
|
[金額グループ ロケータ] は、[請求書グループ ロケータ] および [注文グループ ロケータ] と連携して機能します。[金額グループ ロケータ] には、請求書の合計金額に関連する、またはそれを構成するすべてのフィールドが含まれています。ドキュメント上にこれらのフィールドをすべて表示する必要はありません。表示されるフィールドはシステム内部で決定され、すべての検証は実際に使用されるフィールドに基づいて行われます。 |
グループ |
|
|
|
自動抽出ロケータ メソッドは、大規模言語モデルと自然言語による指示を使用して、ドキュメントからデータを抽出します。つまり、ユーザーは抽出するデータを説明する際に、簡単な言葉で説明することができます。追加の構成、スクリプト、トレーニングは必要ありません。 |
グループ |
|
|
|
[バーコード ロケータ] は、ドキュメントからバーコード データを抽出します。ドキュメントによっては、スキャン プロセス中にフォームにスタンプまたはステッカーとして添付されるバーコードが含まれている場合があります。ドキュメント自体の一部としてバーコードが含まれている場合もあります。[バーコード ロケータ] は、最も一般的なバーコード タイプであれば、回転または反転されていても、自動的に検出できます。 |
シングル |
|
|
|
このロケータ メソッドは、小切手で一般的に見られるいくつかのフィールドを返します。1 つのロケータで複数のフィールドのデータを返すことができます。このロケータを使用して、金額、日付、受取人、口座番号、小切手番号、およびその他の関連する小切手情報を抽出します。 |
グループ |
|
|
|
[分類ロケータ] は、別の外部 Tungsten TotalAgility プロジェクトで定義された分類スキームを使用します。このプロジェクトは、ロケータ代替の形式で、ドキュメントの追加の分類結果を提供します。外部プロジェクトで使用されるのは、分類スキームのみです。[分類ロケータ] は、追加の分類ステップを使用して取得される情報をドキュメントに追加する場合に使用します。追加の分類ステップは通常、メイン プロジェクトのメイン分類から独立しているため、外部で定義された、トレーニング済みのプロジェクトが使用されます。[分類ロケータ] を使用すると、さまざまな側面からドキュメントを調べるマルチビュー分類と、ドキュメントまたはテキスト行に対して複数の分類結果を返すマルチトピック分類を利用できます。 |
シングル |
|
|
|
[データベース エバリュエータ] は、ドキュメントの入力データと一致するデータベース レコードを識別します。データベース レコードをページ全体または小さい領域の認識データと照合しようとする [データベース ロケータ] とは異なり、[データベース エバリュエータ] は他のロケータの結果から取得されたデータを使用します。 |
グループ |
|
|
|
ドキュメントはデータベース ロケータによって、候補として返される Fuzzy データベース内の 1 つ以上のレコードと照合されます。 |
グループ |
|
|
|
形式ロケータは、パターン マッチング (正規表現と単純表現) や高度なアルゴリズム (レーベンシュタインとトライグラム) などの形式定義で機能します。辞書やキーワードと連携した形式定義は、ゾーンを定義する必要がなく、ドキュメントからデータを抽出するために使用されます。ロケータはドキュメントのページ全体または一部の読み取りで実行され、ドキュメントのレイアウトではなく、データに固有の検索を使用してデータを抽出します。ロケータは、見つかった候補とデータ出力を評価します。 |
シングル |
|
|
|
[請求書グループ ロケータ] は、請求書ヘッダに関連するフィールドを返します。 |
グループ |
|
|
|
[請求書ヘッダ ロケータ] は、請求書から最も一般的に使用されるデータを抽出します。このロケータはどのようなレイアウトにも使用できるため、サプライヤ別に請求書を分類してそれぞれのサプライヤに異なる抽出スキームを設計する必要がありません。このロケータ メソッドは、他の 4 つのロケータから結果を取得します。数値、金額、日付が提供され、請求書番号、注文日付、合計、税額などの請求書ヘッダ データが抽出されます。 |
グループ |
|
|
|
[キーと値のペアのロケータ] は、データのペア (キーとそれに対応する値) を見つけるために事前トレーニングされた別の AI エンジンからの抽出結果を使用します。キーと値のペアをサブフィールドとして構成し、各サブフィールドに追加のキーワードを定義できます。キーワードにより、異なるドキュメントでキーが異なる場合でも、ペアを確実に見つけることができます。 |
グループ |
|
|
|
[行アイテム マッチング ロケータ] は、処理されたドキュメントとバックエンドのエンタープライズ リソース プランニング (ERP) システムからの情報を使用して、請求書または請求書関連ドキュメントの行アイテムを抽出して照合します。このロケータ メソッドは逆抽出機能を統合するテクノロジーを使用して、請求書の行アイテムを自動的に抽出して注文書データと照合します。 |
テーブル |
|
|
|
[名前付きエンティティ ロケータ] は、Natural Language Processing engine を使用して、抽出されたエンティティをフィールドに割り当てるために使用します。このエンジンの場合、通常の認識よりも 1 ページあたりの所要時間が数秒長くなります。このロケータ メソッドは、人、場所、組織、役職、時間、金額などの名前付きエンティティを抽出します。これらの名前付きエンティティは、電子メール、ドキュメント、またはレポートにあるような構造化されていない自然な文章に含まれています。 |
テーブル シングル |
|
|
|
[OCR 投票エバリュエータ] は、結果を [アドバンスト ゾーン ロケータ] と比較し、フィールドに保存する最適な結果を選択します。 |
グループ |
|
|
|
[注文グループ ロケータ] は、サプライヤまたはベンダーに関連する、OrderNumber と OrderDate というフィールドを返します。 |
グループ |
|
|
|
このロケータ メソッドを使用すると、Tungsten Document Library からドキュメント タイプを選択できます。選択したドキュメント タイプには必要なすべてのサブフィールドが設定されており、これらのサブフィールドの抽出は事前に構成されています。ロケータのサブフィールドをドキュメント タイプのフィールドに割り当てるだけで済みます。追加の抽出のセットアップは必要ありません。 |
グループ |
|
|
|
[関係エバリュエータ] は、ドキュメント上の位置に基づいて、あるロケータの最適な候補を別のロケータの最適な候補との関係によって見つけます。 |
シングル |
|
|
|
[スクリプト ロケータ] は、カスタム スクリプト イベントを使用してデータを検索し、ユーザーが独自の抽出結果を定義できるようにスクリプト イベントを発生させます。XDoc のロケータ フィールドはスクリプト ロケータ設定に基づいて用意され、単純フィールドまたはグループ フィールドにすることができます。ロケータ フィールドには、イベント ハンドラで代替を設定できます。そのやり方は、ユーザーに任されています。このスクリプト ロケータより先行するように定義されている他のロケータから結果を取得することも、カスタム データで代替を初期化することもできます。すべての代替は、スクリプト イベントの後、信頼度に基づいて並べ替えられます。 |
グループ シングル |
|
|
|
[センチメント ロケータ] により、Natural Language Processing engine の組み込み機能を使用してドキュメントからテキストのセンチメントを抽出します。つまり、[センチメント ロケータ] によって、ドキュメントに含まれる単語や語句に基づいたドキュメントの全体的なムードや印象を判断することができます。Natural Language Processing engine は、通常の認識よりも 1 ページあたりの所用時間が数秒長くなります。 |
シングル |
|
|
|
[標準エバリュエータ] は、いくつかの異なるロケータの結果を比較し、事前設定した条件に基づいて一連の結果を選択します。 |
シングル テーブル |
|
|
|
[サマリー ロケータ] により、Natural Language Processing engine の埋め込み機能を使用して、ドキュメントのサマリーを抽出します。このエンジンの場合、通常の認識よりも 1 ページあたりの所要時間が数秒長くなります。 |
シングル |
|
|
|
[テーブル ロケータ] により、ドキュメントにテーブル形式で表示されるデータを検索します。1 つの [テーブル ロケータ] によって、1 つのテーブル モデルに一致するテーブルを検索できます。 |
テーブル |
|
|
|
このロケータ メソッドにより、一貫したレイアウトを持たない非構造化ドキュメント内のデータを検索します。これによって、契約書、通信文書、あるいはエッセイや原稿からデータを抽出できます。このロケータは、半構造化ドキュメントに最適で、非構造化テキストが文章で構成されているドキュメント用に設計されています。非構造化ドキュメントからのデータ抽出にも適しており、多くのトレーニング ドキュメントを追加するほど結果が改善されます。 |
グループ |
|
|
|
[テーマ ロケータ] により、Natural Language Processing engine の組み込み機能を使用してドキュメントのテーマまたはトピックを抽出します。この情報は、スクリプトを使用したカスタムの分析に利用できます。Natural Language Processing engine は、通常の認識よりも 1 ページあたりの所用時間が数秒長くなります。 |
テーブル |
|
|
|
比較的小さなトレーニング セットで汎用の抽出結果を迅速に高い精度で取得する必要がある場合は、高度な最適化を行ったトレーニング可能なエバリュエータを使用します。このエバリュエータは、他のロケータからの代替を比較して、それらの代替の中から特定の基準のセットに一致するものを判断するために使用します。このエバリュエータは、入力ロケータからの代替の内容に依存します。また、誤った代替から学習を行って、トレーニングを改善します。 |
グループ |
|
|
|
[トレーニング可能なグループ ロケータ] は、使用できる範囲の広いトレーニング可能なロケータです。他の 3 つのグループ ロケータは、請求書ドキュメントおよび関連フィールド専用のグループ ロケータです。[トレーニング可能なグループ ロケータ] には、他のグループ ロケータでは扱うことのできない 1 ~ 30 個の追加サブフィールドを設定できます。 |
グループ |
|
|
|
[ベンダー ロケータ] により、[データベース ロケータ] の結果と他のロケータの結果を組み合わせて使用して、請求書からベンダー情報を検出、解析します。検出結果には、ベンダー ID、名前、住所、VAT ID、銀行情報、注文書番号などの情報が含まれ、[ベンダー ロケータ] はそれらの情報をデータベース レコードと照合し、高い信頼度でベンダーを識別します。 |
グループ |