形式定義タブ - 形式ロケータのプロパティウィンドウ

[形式] タブでは、1 つ以上の形式定義を追加できます。これらの定義は、正規表現や単純表現などのパターンマッチングメソッドを使用して、ドキュメントから情報を照合および抽出するために使用します。トライグラムやレーベンシュタインなどの追加のアルゴリズムを使用することができます。また、パターンマッチングやアルゴリズムに加えて、辞書を使用することもできます。辞書エントリに一致するコンテンツが返されます。

ドキュメントが傾いている場合は、行が重なるため、形式の認識が失敗することがあります。このため、[形式ロケータ] で処理する前に、ドキュメントが傾いていないことを確認する画像処理をドキュメントに適用することをお勧めします。

次の設定を使用できます。

[形式]

このグループには次の設定があります。

[形式]

[形式] リストの上部では、次のメニュー設定を使用できます。

[選択した形式定義を削除]

下のリストから削除する形式定義を選択します。

[正規表現]

正規表現を使用すれば、複雑な形式のパターンを正確に指定できます。正規表現構文を使用して特定のパターンを表現することができます。

次の事前定義済みの表現が選択できます。

[金額]

次のような事前定義された金額の正規表現を使用できます。

123,45 (コンマ付き金額)
$123.45 (点付き金額)
$123 45 (ブランク付き金額)

[日付]

次のような事前定義された日付の正規表現を使用できます。

24.01.2003 (数字日付 DDMM(YY)YY)
01.24.2003 (数字日付 MMDD(YY)YY)
6.Dezember 2003 (ドイツ語日付 I)
6.Dez 2003 (ドイツ語日付 II)
December 6, 2003 (英語日付 I)
6 December 2003 (英語日付 II)
Dec 6, 2003 (英語日付 III)
6 Dec 2003 (英語日付 IV)

[単純表現]

単純表現を使用すれば、単純な形式のパターンを指定できます。単純表現では、多くの文字がその文字自体を表します。ただし、一部の文字には特別な意味があります。

[レーベンシュタイン]

レーベンシュタイン形式定義は、指定した文字列の各出現を検出するエラートレラントアルゴリズムであるため、入力エラーやスペルミスを原因とする 1 文字または 2 文字の誤記を検出することができます。この設定は、OCR の許容誤差に適しています。結果の信頼度は、OCR エラーの数に特に左右されます。

[トライグラム]

トライグラム形式定義もまた、エラートレラントアルゴリズムです。トライグラム形式定義では、表現がトライグラムと呼ばれる 3 つの文字のグループに分けられます。同一グループの数により、一致するかどうかを判断します。この設定は、短い語句または音声テキストを照合する場合に使用します。

[選択した単純表現にサンプルまたは部分的な単純表現を挿入します]

この設定は、[形式] のリストで単純表現が選択されている場合にのみ使用できます。

選択した場合、事前定義された部分的な単純表現が単純表現に追加されます。次の設定から選択します。

[数値]

数値については、次の事前定義済みの形式定義から選択します。

# (数値 (0-9))
#[m-n] (m～n の数字)
'#####' (固定長の数値表現)

[アルファベット]

アルファベット文字については、次の事前定義済みの形式定義から選択します。

@ (任意の 1 文字のアルファベット (a-Z))
@[m-n] (m～n 回繰り返される任意のアルファベット (a-Z))
'@@@@@' (固定長のアルファベット表現)

[英数字]

英数字については、次の事前定義済みの形式定義から選択します。

? (英数字)
?[m-n] (m～n 回繰り返される任意の英数字)
'?????'(固定長の英数字表現)

[サンプルまたは部分的な正規表現や辞書を選択した正規表現に挿入します]

この設定は、[形式] のリストで正規表現が選択されている場合にのみ使用できます。

選択した正規表現に、事前定義された部分的な正規表現を追加する場合に選択します。次の設定から選択します。

[番号]

数値については、次の事前定義済みの形式定義から選択します。

\d (数字)
\d? (任意の数字)
\d+ (1 以上の数字)
\d{n} (n 番号)
#d[m-n] (m～n の数字)

[文字]

アルファベット文字については、次の事前定義済みの形式定義から選択します。

.(任意の単一文字)
.? (任意の文字)
.+ (任意の文字 1 回以上)
.{n} (任意の文字 n 回)
.{m,n} (任意の文字 m～n 回)

[辞書]

利用可能なデータベースのリストから、挿入する辞書を選択します。必要なデータベースがリストにない場合は、[辞書を構成] をクリックして、プロジェクトに別の辞書を追加します。

プロジェクトに辞書が追加されていない場合、この設定は使用できません。[辞書を構成] クリックして、プロジェクトに辞書を追加します。

[辞書を構成]

サブメニューから、次のいずれかを選択します。

[辞書設定]

ここをクリックして [辞書設定] ウィンドウを開き、プロジェクト設定で追加された辞書を選択します。

選択した辞書のエントリがドキュメントに配置されます。たとえば、頻繁に使用する月の名前を含む辞書を使用する場合、その辞書は、ドキュメント上の日付を検索する形式定義の一部として使用できます。辞書には「December」と「Dec,」が含まれているため、どちらもドキュメントに配置できます。

[辞書を更新]

辞書ごとに、辞書の更新を行って最新のデータを確実に使用できるようにするためのエントリが存在します。

次の設定は、各形式で使用できます。

[使用]

使用する形式ごとに、このチェックボックスをオンにするかクリアします。たとえば、「形式を一度に定義」を有効にすると、それぞれの形式を個別にテストする場合に役立ちます。類似した 2 つの形式がある場合は、これらの形式をテストして、本番環境でより高いパフォーマンスを示す形式を判断することができます。効果の低い形式を無効にするには、[使用] 設定をクリアします。形式は後で使用する場合があるため、削除しないでください。

[形式タイプ]

形式タイプを表示します。これには、正規表現、単純表現、レーベンシュタイン、またはトライグラムの形式定義が含まれます。

[形式表現]

形式定義の構文を表示します。

[単語全体]

この設定は、正規表現の形式定義でのみ使用できます。

この設定 [単語全体] アイコンを選択すると、より長い文字列内にある不要な候補に対して低いレベルの信頼度を割り当てます。たとえば、5 桁の郵便番号を検索するための形式を考えてみてください。この設定を選択すると、11 桁の電話番号などといった、ドキュメント内のより長い数字にある不要な候補に対して低い信頼度が割り当てられます。

[大文字と小文字を区別しない]

この設定 [大文字と小文字を区別しない] アイコンを選択している場合、[形式ロケータ] はこの形式の大文字と小文字を区別しません。このオプションを選択しない場合、[形式ロケータ] は大文字と小文字が異なる候補を無視します。たとえば、[大文字と小文字を区別しない] 設定を無効にして「Last Name」の正規表現検索を実行すると、信頼度の高い結果として「Last name」は返されません。

[空白を無視]

この設定 [空白を無視] アイコンを選択すると、フォーマットの実行時にスペースは無視されます。たとえば、社会保障番号は、番号の間にスペースがある状態で印刷されている場合があります。この設定を使用することで、結果が確実に検出されます。

[完全一致を検索]

この設定は、辞書が含まれる正規表現の形式定義でのみ使用できます。

この設定 [完全一致を検索] アイコンを選択している場合、辞書で完全に一致する場合にのみ値が返されます。

これにより正確なマッチングが保証されます。「[January]」が「[Janvary]」として誤って読み込まれている場合、誤った日付が返されることはありません。

[文字を無視]

形式定義検索で無視する文字を入力します。

[説明]

形式定義の説明を入力します。サンプルの一致をこの説明に含めて、予想される一致を明確にできます。

[エラーの説明]

形式定義に問題がある場合は、この列に読み取り専用のエラーが表示されます。

[形式] リストの下には次の設定があります。

[テスト値]: テキストを入力して、どの形式定義により目的の文字列が検出されるかをテストします。

ウィンドウの下部にあるボタンの説明は、「共通 Transformation Designer ボタン」を参照してください。

形式定義 タブ - 形式ロケータのプロパティ ウィンドウ

形式定義タブ - 形式ロケータのプロパティウィンドウ