ロケータメソッド

Transformation Designer では、次のいずれかのロケータメソッドを追加できます。

ロケータメソッド	説明	抽出タイプ
アドバンストエバリュエータ	[アドバンストエバリュエータ] を使用して、請求書や注文書ドキュメントに一般的に使用される一連のサブフィールドについて、複数の入力ロケータから最適な抽出結果が返されるようにします。サブフィールドごとに入力ロケータの評価ステップと信頼度の閾値を定義して、投票プロセスで正しい結果が見つかるようにします。このエバリュエータは、請求書番号、注文日付、さまざまな金額、他のカスタムサブフィールドなど、一般的な請求書ヘッダデータの入力ロケータを 3 つまで比較できます。	グループ
住所ロケータ	[住所ロケータ] は、構造化、非構造化、および半構造化された、印字の米国のドキュメント上で住所を検索します。住所ブロックの個々の要素は互いに隣接して配置されることが多く、横方向に 1 行、または 2～7 の行を持つ縦ブロックを形成することがあります。このロケータは、ドキュメントのすべてのページでこうしたブロックを検索し、それらを候補のリストとして返します。各候補には、抽出された情報の個々の部分 (名前、番地、市町村など) に対応するサブフィールドが含まれます。	グループ
アドバンストエバリュエータ	[アドバンストエバリュエータ] を使用して、請求書や注文書ドキュメントに一般的に使用される一連のサブフィールドについて、複数の入力ロケータから最適な抽出結果が返されるようにします。サブフィールドごとに入力ロケータの評価ステップと信頼度の閾値を定義して、投票プロセスで正しい結果が見つかるようにします。このエバリュエータは、請求書番号、注文日付、さまざまな金額、他のカスタムサブフィールドなど、一般的な請求書ヘッダデータの入力ロケータを 3 つまで比較できます。	グループ
アドバンストテーブルロケータ	[アドバンストテーブルロケータ] は、別の認識エンジンのテーブル抽出結果を使用して、ドキュメント上の 1 つ以上のテーブルを見つけます。このロケータメソッドは、単独では何も抽出しません。このため、[アドバンストテーブルロケータ] を使用する前に、テーブル検出を構成してプロジェクトをトレーニングする必要があります。	テーブル
アドバンストゾーンロケータ	クラス内のすべてのドキュメントにわたって一貫した位置にあるデータを抽出するには、[アドバンストゾーンロケータ] を使用します。たとえば、フォームなどの構造化されているドキュメントからデータを抽出する場合などです。	グループ
金額グループロケータ	[金額グループロケータ] は、[請求書グループロケータ] および [注文グループロケータ] と連携して機能します。[金額グループロケータ] には、請求書の合計金額に関連する、またはそれを構成するすべてのフィールドが含まれています。ドキュメント上にこれらのフィールドをすべて表示する必要はありません。表示されるフィールドはシステム内部で決定され、すべての検証は実際に使用されるフィールドに基づいて行われます。	グループ
自動抽出ロケータ	自動抽出ロケータメソッドは、大規模言語モデルと自然言語による指示を使用して、ドキュメントからデータを抽出します。つまり、ユーザーは抽出するデータを説明する際に、簡単な言葉で説明することができます。追加の構成、スクリプト、トレーニングは必要ありません。	グループ
バーコードロケータ	[バーコードロケータ] は、ドキュメントからバーコードデータを抽出します。ドキュメントによっては、スキャンプロセス中にフォームにスタンプまたはステッカーとして添付されるバーコードが含まれている場合があります。ドキュメント自体の一部としてバーコードが含まれている場合もあります。[バーコードロケータ] は、最も一般的なバーコードタイプであれば、回転または反転されていても、自動的に検出できます。	シングル
小切手ロケータ	このロケータメソッドは、小切手で一般的に見られるいくつかのフィールドを返します。1 つのロケータで複数のフィールドのデータを返すことができます。このロケータを使用して、金額、日付、受取人、口座番号、小切手番号、およびその他の関連する小切手情報を抽出します。	グループ
分類ロケータ	[分類ロケータ] は、別の外部 Tungsten TotalAgility プロジェクトで定義された分類スキームを使用します。このプロジェクトは、ロケータ代替の形式で、ドキュメントの追加の分類結果を提供します。外部プロジェクトで使用されるのは、分類スキームのみです。[分類ロケータ] は、追加の分類ステップを使用して取得される情報をドキュメントに追加する場合に使用します。追加の分類ステップは通常、メインプロジェクトのメイン分類から独立しているため、外部で定義された、トレーニング済みのプロジェクトが使用されます。[分類ロケータ] を使用すると、さまざまな側面からドキュメントを調べるマルチビュー分類と、ドキュメントまたはテキスト行に対して複数の分類結果を返すマルチトピック分類を利用できます。	シングル
データベースエバリュエータ	[データベースエバリュエータ] は、ドキュメントの入力データと一致するデータベースレコードを識別します。データベースレコードをページ全体または小さい領域の認識データと照合しようとする [データベースロケータ] とは異なり、[データベースエバリュエータ] は他のロケータの結果から取得されたデータを使用します。	グループ
データベースロケータ	ドキュメントはデータベースロケータによって、候補として返される Fuzzy データベース内の 1 つ以上のレコードと照合されます。	グループ
形式ロケータ	形式ロケータは、パターンマッチング (正規表現と単純表現) や高度なアルゴリズム (レーベンシュタインとトライグラム) などの形式定義で機能します。辞書やキーワードと連携した形式定義は、ゾーンを定義する必要がなく、ドキュメントからデータを抽出するために使用されます。ロケータはドキュメントのページ全体または一部の読み取りで実行され、ドキュメントのレイアウトではなく、データに固有の検索を使用してデータを抽出します。ロケータは、見つかった候補とデータ出力を評価します。	シングル
請求書グループロケータ	[請求書グループロケータ] は、請求書ヘッダに関連するフィールドを返します。	グループ
請求書ヘッダロケータ	[請求書ヘッダロケータ] は、請求書から最も一般的に使用されるデータを抽出します。このロケータはどのようなレイアウトにも使用できるため、サプライヤ別に請求書を分類してそれぞれのサプライヤに異なる抽出スキームを設計する必要がありません。このロケータメソッドは、他の 4 つのロケータから結果を取得します。数値、金額、日付が提供され、請求書番号、注文日付、合計、税額などの請求書ヘッダデータが抽出されます。	グループ
キーと値のペアのロケータ	[キーと値のペアのロケータ] は、データのペア (キーとそれに対応する値) を見つけるために事前トレーニングされた別の AI エンジンからの抽出結果を使用します。キーと値のペアをサブフィールドとして構成し、各サブフィールドに追加のキーワードを定義できます。キーワードにより、異なるドキュメントでキーが異なる場合でも、ペアを確実に見つけることができます。	グループ
行アイテムマッチングロケータ	[行アイテムマッチングロケータ] は、処理されたドキュメントとバックエンドのエンタープライズリソースプランニング (ERP) システムからの情報を使用して、請求書または請求書関連ドキュメントの行アイテムを抽出して照合します。このロケータメソッドは逆抽出機能を統合するテクノロジーを使用して、請求書の行アイテムを自動的に抽出して注文書データと照合します。	テーブル
名前付きエンティティロケータ	[名前付きエンティティロケータ] は、Natural Language Processing engine を使用して、抽出されたエンティティをフィールドに割り当てるために使用します。このエンジンの場合、通常の認識よりも 1 ページあたりの所要時間が数秒長くなります。このロケータメソッドは、人、場所、組織、役職、時間、金額などの名前付きエンティティを抽出します。これらの名前付きエンティティは、電子メール、ドキュメント、またはレポートにあるような構造化されていない自然な文章に含まれています。	テーブルシングル
OCR 投票エバリュエータ	[OCR 投票エバリュエータ] は、結果を [アドバンストゾーンロケータ] と比較し、フィールドに保存する最適な結果を選択します。	グループ
注文グループロケータ	[注文グループロケータ] は、サプライヤまたはベンダーに関連する、OrderNumber と OrderDate というフィールドを返します。	グループ
事前定義済みドキュメントタイプロケータ	このロケータメソッドを使用すると、Tungsten Document Library からドキュメントタイプを選択できます。選択したドキュメントタイプには必要なすべてのサブフィールドが設定されており、これらのサブフィールドの抽出は事前に構成されています。ロケータのサブフィールドをドキュメントタイプのフィールドに割り当てるだけで済みます。追加の抽出のセットアップは必要ありません。	グループ
関係エバリュエータ	[関係エバリュエータ] は、ドキュメント上の位置に基づいて、あるロケータの最適な候補を別のロケータの最適な候補との関係によって見つけます。	シングル
スクリプトロケータ	[スクリプトロケータ] は、カスタムスクリプトイベントを使用してデータを検索し、ユーザーが独自の抽出結果を定義できるようにスクリプトイベントを発生させます。XDoc のロケータフィールドはスクリプトロケータ設定に基づいて用意され、単純フィールドまたはグループフィールドにすることができます。ロケータフィールドには、イベントハンドラで代替を設定できます。そのやり方は、ユーザーに任されています。このスクリプトロケータより先行するように定義されている他のロケータから結果を取得することも、カスタムデータで代替を初期化することもできます。すべての代替は、スクリプトイベントの後、信頼度に基づいて並べ替えられます。	グループシングル
センチメントロケータ	[センチメントロケータ] により、Natural Language Processing engine の組み込み機能を使用してドキュメントからテキストのセンチメントを抽出します。つまり、[センチメントロケータ] によって、ドキュメントに含まれる単語や語句に基づいたドキュメントの全体的なムードや印象を判断することができます。Natural Language Processing engine は、通常の認識よりも 1 ページあたりの所用時間が数秒長くなります。	シングル
標準エバリュエータ	[標準エバリュエータ] は、いくつかの異なるロケータの結果を比較し、事前設定した条件に基づいて一連の結果を選択します。	シングルテーブル
サマリーロケータ	[サマリーロケータ] により、Natural Language Processing engine の埋め込み機能を使用して、ドキュメントのサマリーを抽出します。このエンジンの場合、通常の認識よりも 1 ページあたりの所要時間が数秒長くなります。	シングル
テーブルロケータ	[テーブルロケータ] により、ドキュメントにテーブル形式で表示されるデータを検索します。1 つの [テーブルロケータ] によって、1 つのテーブルモデルに一致するテーブルを検索できます。	テーブル
テキストコンテンツロケータ	このロケータメソッドにより、一貫したレイアウトを持たない非構造化ドキュメント内のデータを検索します。これによって、契約書、通信文書、あるいはエッセイや原稿からデータを抽出できます。このロケータは、半構造化ドキュメントに最適で、非構造化テキストが文章で構成されているドキュメント用に設計されています。非構造化ドキュメントからのデータ抽出にも適しており、多くのトレーニングドキュメントを追加するほど結果が改善されます。	グループ
テーマロケータ	[テーマロケータ] により、Natural Language Processing engine の組み込み機能を使用してドキュメントのテーマまたはトピックを抽出します。この情報は、スクリプトを使用したカスタムの分析に利用できます。Natural Language Processing engine は、通常の認識よりも 1 ページあたりの所用時間が数秒長くなります。	テーブル
トレーニング可能なエバリュエータ	比較的小さなトレーニングセットで汎用の抽出結果を迅速に高い精度で取得する必要がある場合は、高度な最適化を行ったトレーニング可能なエバリュエータを使用します。このエバリュエータは、他のロケータからの代替を比較して、それらの代替の中から特定の基準のセットに一致するものを判断するために使用します。このエバリュエータは、入力ロケータからの代替の内容に依存します。また、誤った代替から学習を行って、トレーニングを改善します。	グループ
トレーニング可能なグループロケータ	[トレーニング可能なグループロケータ] は、使用できる範囲の広いトレーニング可能なロケータです。他の 3 つのグループロケータは、請求書ドキュメントおよび関連フィールド専用のグループロケータです。[トレーニング可能なグループロケータ] には、他のグループロケータでは扱うことのできない 1 ～ 30 個の追加サブフィールドを設定できます。	グループ
ベンダーロケータ	[ベンダーロケータ] により、[データベースロケータ] の結果と他のロケータの結果を組み合わせて使用して、請求書からベンダー情報を検出、解析します。検出結果には、ベンダー ID、名前、住所、VAT ID、銀行情報、注文書番号などの情報が含まれ、[ベンダーロケータ] はそれらの情報をデータベースレコードと照合し、高い信頼度でベンダーを識別します。	グループ

ロケータ メソッド

ロケータメソッド