フィールドの抽出

フィールドを定義し、ドキュメント タイプからデータを抽出できます。

ドキュメントから抽出されるデータを定義します。このデータに基づいて、各ドキュメント タイプのメタデータ フィールドおよび関連する検証設定が作成されます。

  1. [フィールド抽出] タブをクリックします。
  2. 切り替えボタンを使用して、[フィールドを定義し、システムでドキュメント タイプからデータを抽出するように学習させます] に対して [はい] を選択します。デフォルト: なし)

    構成されたドキュメント タイプが下に表示されます。

  3. フィールドを定義するドキュメントをクリックします。

    次のように、選択したドキュメントのプレビューが中央ペインに表示されます。


    Quick Capture: 抽出

  4. マウスを使用して、ドキュメントから抽出するフィールドをなげなわで指定します。

    [フィールド抽出トレーニング] ダイアログ ボックスが表示され、選択したテキストが専用モードで表示されます。

  5. フィールド プロパティを構成します。
    1. フィールドが [新しいフィールド] または [既存のフィールド] のいずれであるかを選択します。既存のフィールドの場合は、必要に応じて保存し、後でドキュメント タイプから編集できます。新しいフィールドの場合は、次のプロパティを構成します。
    2. フィールドの [名前] を入力します。
    3. [タイプ] リストで次のフィールド タイプのいずれかを選択して、プロパティを構成します。

      [テキスト]

      1. [フォーマッタ] リストで、ドキュメント タイプ フィールドに関連付けるフォーマッタを次の中から 1 つ選択します。
        • [フォーマッタなし]: 選択した場合、フォーマットのためにドキュメントからテキスト、文字、または数字が取得されることはありません。

        • [デフォルトの金額フォーマッタ]: デフォルトの通貨形式と典型的な小数点の記号の形式が含まれます。

        • [デフォルトの日付フォーマッタ]: 日付の順序や日付の出力形式など、基本的な日付形式が含まれます。たとえば、フォーマッタは「10/4/20」を取得して、「10.04.2020」の形式にフォーマットします。このようにして、使用可能な日付形式のいくつかのバリエーションを、1 つの形式に標準化できます。日付フォーマッタは、月の名前も認識するよう構成できるため、「April 10th, 2020」を「10.04.2020」に変換することもできます。

      2. 必要に応じて、フィールドに次の検証ルールを定義します。

        • [必須です]: フィールドを必須にする場合は、このオプションを選択します。

        • [最小文字長]: これを選択すると、結果で許容される最小文字数を入力または選択できます。抽出結果が最小文字数より少なかった場合、フィールドが無効としてマークされます。(デフォルト: 1)

        • 最大文字長: これを選択すると、結果で許容される最大文字数を入力または選択できます。抽出結果が最大文字数より多かった場合、フィールドが無効としてマークされます。(デフォルト: 10)

        • [許可される文字の定義]: これを選択した場合、結果で許可される文字を入力できます。

        • [制限された文字の定義]: これを選択した場合、結果で許可されない制限された文字を入力できます。

          許可されている文字セット以外の文字がフィールドに含まれている場合、そのフィールドは無効とマークされ、検証オペレータによるレビューが必要になります。

      [日付]

      1. [フォーマッタ] リストで [フォーマッタなし] または [デフォルトの日付フォーマッタ] を選択します。

      2. [必須です]: フィールドを必須にする場合は、このオプションを選択します。

      3. 日付を基準として使用し、ドキュメントで見つかった日付と比較するには、[基準日] で次のいずれかのオプションを選択します。

        • [今日]: ドキュメントが処理される日付を指定します。

        • [固定の日付]: 使用する基準日を入力または選択できます。

      4. 必要に応じて、次のオプションを構成します。

        • [参照日の前の期間]: このオプションを選択すると、ドキュメント内で検索する日付が基準日前の過去 N 日に制限されます。過去 N 日以内に該当しない日付は無効になります。(デフォルト: クリア。このオプションを選択した場合、デフォルトは 0 日です)。

        • [参照日の後の期間]: このオプションを選択すると、ドキュメント内で検索する日付が基準日後の N 日以内に制限されます。この日付の範囲に該当しない日付は無効になります。これは、すべての日付がドキュメントの処理日以前に制限されることを意味します。(デフォルト: クリア。このオプションを選択した場合、デフォルトは 0 日です)。

      [数字]

      1. [フォーマッタ] リストで [フォーマッタなし] を選択するか、必要に応じて [デフォルトの金額フォーマッタ] を選択します。

      2. 必要に応じて、[必須です] を選択するか、クリアします。

  6. 手順 3 〜 5 を繰り返して、ドキュメント タイプ内の他のドキュメントのフィールドを抽出します。
  7. [保存] をクリックします。

    次に示すように、プレビュー ペインにドキュメント タイプが表示され、抽出されたフィールドが緑色で表示されます。フィールドにマウスを置くと、そのフィールドがトレーニングされていること、および競合の有無を示すメッセージがポップアップ表示されます。


    Quick Capture: 抽出されたフィールド

    フィールドを編集するには、ここで をクリックするか、ドキュメント タイプ内で をクリックします。トレーニングをキャンセルするには、 をクリックします。

    • フィールド タイプと検証ルールを構成すると、ルールに一致しないフィールドをシステムで検索できます。トレーニングされていないドキュメントで抽出可能なフィールドを確認することもできます。

    • ドキュメント タイプごとに、各フィールドのインスタンスを 3 つシステムに示す必要があります。ただし、各フィールドのインスタンスを 1 回または 2 回示した後で、各サンプル上のフィールドを検索できた場合は除きます。

フィールドの編集

ドキュメント タイプ フィールドは、次のいずれかの方法で編集できます。

  • [ステータス] で をクリックします。[フィールド抽出トレーニング] ダイアログ ボックスで、必要に応じてフィールドを編集します。

  • ドキュメント タイプの をクリックして、選択したフィールドのリストを開きます。[ドキュメント タイプ "<ドキュメント タイプ名>" のフィールド] ダイアログ ボックスで編集するフィールドを選択し、必要に応じて変更を加えて、[保存] をクリックします。

トレーニングをキャンセルするには、 をクリックします。