ローカル Fuzzy データベースのプロパティ ウィンドウ

このウィンドウは、次の設定を使用して、データベースにローカルに保存されたインポート ファイルを選択するために使用します。

[参照したインポート ファイル (テキストまたは csv ファイル)]

次のいずれかの参照ファイルの場所を選択します。

  • [ファイル システム]

    ローカル Fuzzy データベースの目的の場所を参照します。ウィンドウを閉じるとインポート プロセスが自動的に開始され、インポートされたデータベースの行数をカウントするメッセージ ボックスが表示されます。3 つのフィールドがある 100 万行は、インポートに約 1 分かかります。

  • [Web]

    ローカルの Fuzzy データベース ファイルの URL を入力します。

    [テスト] をクリックして、指定した URL への接続が利用可能であることを確認します。

    認証が必要な場合は、ユーザー名とパスワードを入力します。

[列の構成]

このテーブルには次の列があります。エントリの名前を変更するには、行をクリックしてからその行のセルをクリックします。

[列の名前]

データベース列の名前。

[検索]

フィールドに対して選択した場合、そのフィールドがデータベース検索に含まれます。

ドキュメントに存在する可能性がある各フィールドに対してこの値を選択します。

[フィルタ]

検出される可能性のあるレコードの数を減らすために、検索前にデータをフィルタリングできます。この設定がフィールドに対して選択されている場合、フィルタリング インデックスに含まれます。フィルタリングは、スクリプトを使用する場合にのみ可能です。

この設定は、次の設定の両方が [最適化] グループのみで選択されている場合に使用できます。

  • [メモリにデータベース インデックスをロード]

  • [データベース処理] の値は [アドバンスト] に設定されます。

[インポート オプション]

このグループには次の設定があります。

[大文字と小文字を区別しない]

すべての検索文字列とルックアップ文字列を小文字に変換するには、この設定を選択します。大文字と小文字は区別されません。(デフォルト:選択済み)

[フィルタでは大文字と小文字が区別されます]

この設定は、スクリプトに入力されたフィルタリング テキストがデータベースのエントリと確実に一致するようにするために選択します。大文字と小文字が正確に一致しない場合、レコードは返されません。(デフォルト:選択済み)

この設定は、少なくとも 1 つのフィールドの [列の構成] グループで [フィルタ] 設定が選択され、次の設定の両方が [最適化] グループのみで選択されている場合に使用できます。

  • [メモリにデータベース インデックスをロード]

  • [データベース処理] の値は [アドバンスト] に設定されます。

[最初の行にキャプションが含まれています]

入力ファイルの最初のレコードに列ヘッダーが含まれている場合は、この設定を選択します。(デフォルト:選択済み)

[フィールド区切り文字]

このフィールドに値を入力して、インポート ファイルの内容を個々のフィールドに区切る文字を指定します。デフォルト:[;] (セミコロン))

[タブ]

[フィールド区切り文字] 設定で指定した文字に加えて、区切り文字としてタブを使用するには、このチェックボックスを選択します。

[単語区切り文字]

データベースのフィールドに複合語が含まれている場合、複合語の各部分が個別に検索および評価されるように、共通の文字を指定できます。(デフォルト:-, (スペース、ハイフン、コンマ))

たとえば、デフォルト設定を使用すると、複合語 「[Diagon-Alley]」 は、「[diagon]」 と 「[alley]」 の 2 つの単語として扱われ、個別に検索および評価されます。

単語区切り文字は、OCR に定義された区切り文字に一致している必要があります。

[タブ]

[単語区切り文字] 設定で指定した文字に加えて、タブを単語区切り文字として使用する場合は、このチェックボックスを選択します。

[スペース]

[単語区切り文字] 設定で指定した文字に加えて、単語区切り文字としてスペースを使用する場合は、このチェックボックスを選択します。

[無視する文字]

このフィールドに文字のリストを入力して、入力レコードから不要な文字をフィルタします。カンマ (、) など、入力に含まれる可能性のある文字をフィールド区切り文字に使用する場合は、引用符 (") を使用して入力文字列を識別する必要があります。ただし、最終結果の一部としてこれらの引用符を残したくない場合もあります。(デフォルト:."'! (ピリオド、引用符、単一引用符、および感嘆符)

引用符を「無視する文字」として定義すると、引用符は削除されます。無視する文字としてタブまたはスペースを定義するには、対応するチェックボックスをオンにします。

[スペース]

[無視する文字] 設定で指定した文字に加えて、スペースを無視する場合は、このチェックボックスを選択します。

[最適化]

このグループには次の設定があります。

[インポート ファイルからの自動更新]

ソース ファイルが更新されたときにローカル Fuzzy データベースを自動的に更新するには、この設定を選択します。(デフォルト:オフ)

[メモリにデータベース インデックスをロード]

データベースをメモリにロードするには、この設定を選択します。(デフォルト:選択済み)

この設定をオフにすると、[列の構成] グループの [フィルタ] 設定が無効になります。

[データベース処理]
設定のいずれかを選択して、データベース検索に必要な処理のレベルを決定します。以下から選択します。
  • [ベーシック]

    この値は、Kofax Capture および Kofax TotalAgility がインストールされているコンピュータに十分なメモリまたは処理能力がない場合に選択します。この値を選択すると、結果の精度が予想よりも低くなる場合がありますが、このオプションで [アドバンスト] 値を選択した場合よりも結果の生成にかかる時間が大幅に短縮される可能性があります。

    この設定で [ベーシック] 値を選択すると、[列の構成] グループの [フィルタ] 設定が無効になります。

    この設定では、Kofax TotalAgility 5.0 による検索動作を複製し、ユーザーが精度ではなく、速度に集中できるようにします。

  • [アドバンスト]。(デフォルト:選択済み)

    最も正確な検索結果が必要な場合は、この値を選択します。この値を選択すると、[ベーシック] を選択した場合よりも結果の精度が高くなります。ただし、結果の生成にかかる時間は、データベースのサイズおよび複雑性、使用可能なメモリ、サーバーで使用可能な処理コアの数に応じて異なります。大量のメモリと複数の処理コアを使用してない環境、またはデータベースの規模が非常に大きく複雑な環境では、[ベーシック] が適している場合もあります。

    この値を選択すると、このデータベースを使用するデータベース ロケータをさらに最適化して、速度または精度を高めることができます。

使用するプロジェクトに対する最適な値が不明な場合は、この Fuzzy データベースを使用するデータベース ロケータの構成を行い、複数の抽出ベンチマークを実行して、2 つの [データベース処理] の結果を比較することをお勧めします。

[文字列置換]

このグループには次の設定があります。

文字列置換テーブルは、ドキュメント内およびデータベース内の [検索テキスト][テキスト置換] に置き換えます。これは、テキスト検索の結果を標準化するために使用します。

複数のプロジェクトで同じ辞書を使用する場合は、文字列置換のリストを作成して、他のプロジェクトで使用するためにエクスポートできます。

次のボタンを使用して、文字列の置換を管理できます。

[テーブル レコードのプレビュー]

このテーブルには、選択したデータベースのプレビューが表示されます。

ウィンドウの下部にあるボタンの説明は、「共通 Transformation Designer ボタン」を参照してください。