一般 タブ - データベース ロケータのプロパティ ウィンドウ

このタブを使用してデータベースを選択し、最大代替数、信頼度値、および [データベース ロケータ] のレコードにある空フィールドのペナルティを設定します。

[データベース]

このグループには次の設定があります。

[ロケータについて既存のデータベースを選択]

この設定は、データベース ロケータを機能させるために必須です。抽出中に認識データと比較するデータベースを選択します。抽出された値がデータベース エントリと一致する場合、その値の信頼度は高くなります。これにより、抽出されたデータの認識エラーの影響が最小限に抑えられます。(デフォルト: なし)

[このロケータで見つからないはずのレコードを持つデータベースを選択 (例: 自分の住所など)]

必要に応じて、検出された値を候補のリストから除外するレコードを含むデータベースを選択します。これらの値の 1 つがドキュメントで見つかった場合、このロケータの最終的な抽出結果から除外されます。このタイプのデータベースは、一般に除外データベースと呼ばれます。(デフォルト: なし)

このウィンドウの 「ロケータ アルゴリズムのプロパティ」 は、この除外データベースには適用されません。代わりに、変更できない 80% という最小信頼度値が事前定義されています。80% 以上の信頼度を持つ除外データベース検索のすべての候補は、メインデータ ベース検索から除外されます。このデータベースの信頼度の計算方法は、[プロジェクト設定] の [データベース] タブからアクセス可能な個々のデータベース プロパティ ウィンドウで調整できます。

[データベース設定]

このボタンをクリックして、[プロジェクト設定][データベース] タブを開きます。

[ロケータ アルゴリズムのプロパティ]

このグループには次の設定があります。

[最大代替]

このロケータによって返される候補の数を制限する数値を入力します。[距離] 設定を使用している場合に比較可能な候補が 2 つ以上あると、最良の結果が得られます。(デフォルト:10)

連想検索データベースを使用する場合、この設定の値を増やすと良好な結果が得られる場合があります。たとえば、データベースに 100,000 件を超えるレコードが含まれる場合、またはデータベースに重複したレコードあるいは類似した内容のレコードが含まれる場合、最大代替を 50 などに増やすと、全体的な抽出結果が向上します。

ただし、候補の最大数を増やすと、検討を要するマイナスの副作用が発生する可能性があります。抽出速度に悪影響を及ぼすだけではなく、ドキュメントを処理するための全体的な時間が増加する可能性があります。テストとベンチマークを実行することで、この設定に対する最適な値を決定し、全体的な抽出結果を高めることができます。

[最小信頼度]

数値を入力するか、スライダを使用して、候補として使用される一致に必要な最小信頼度を指定します。この閾値を超える信頼度を持つ一致のみが返されます。(デフォルト:40)

[空フィールドのペナルティ]

値を入力するか、スライダを使用して、データベース内の空フィールドのペナルティを指定します。レコード内にある空のフィールドの割合が最大ペナルティになります。[空フィールドのペナルティ] により、適用される最大ペナルティを指定します。たとえば、データベースに 10 個のフィールドを持つレコードが含まれているとします。1 つのレコードに 2 つの空のフィールドが含まれている場合、最大ペナルティは 20% です。[空フィールドのペナルティ] の値が 100 の場合、フィールドに適用される実際のペナルティは 20% です。ただし、[空フィールドのペナルティ] の値が 50 の場合、フィールドに適用される実際のペナルティは 10% になります。(デフォルト:50)

[最適化]

次のいずれかの最適化の値を選択します。

  • [速度を向上]. (デフォルト:選択済み)

    この値を選択すると、データベースの照合操作が高速化されます。最小信頼度の設定とこの選択の組み合わせは、全体的な精度の結果に影響を及ぼす可能性があります。

  • [精度を向上]

    ドキュメントをデータベース レコードと照合する場合に精度を重視するには、この値を選択します。

この設定は、基本的なデータベース処理用に構成されたローカル Fuzzy データベースを使用している場合は使用できません。

[数値を連結する最大距離 (mm)]

個別の数値と見なされるための条件として、互いの数値が離れている必要がある距離を選択します。ここで指定した距離内の数値は、同じ全体数の一部と見なされます。たとえば、この値を変更して、電話番号の数列に含まれるスペースによって各パーツが個別の番号と見なされないようにすることができます。(デフォルト:5 mm)

ウィンドウの下部にあるボタンの説明は、「共通 Transformation Designer ボタン」を参照してください。