PDF ファイル

Kofax TotalAgility はドキュメント処理用に PDF/A ファイル形式をサポートしています。

電子メールには通常、画像とともに保存できない追加情報を提供する電子ドキュメントが添付ファイルとして含まれています。この追加情報は、構造化されていないフル テキストの場合もあれば、構造化されたテキスト情報の場合もあります。電子メールの添付ファイルを PDF/A ドキュメントに変換することにより、これらの添付ファイルのすべての情報を保持できます。

PDF/A は、電子ドキュメントを長期間アーカイブするためのファイル形式です。これは、Adobe Systems Inc. の PDF リファレンス バージョン 1.4 に基づいています。PDF/A は、実際は PDF のサブセットであり、長期間のアーカイブには適さない PDF 機能を省略したものです。PDF/A ドキュメントには、使用されるすべてのフォントが埋め込まれているため、PDF/A ファイルは、フォントが埋め込まれていない同等の PDF ファイルよりもサイズが大きくなることがあります。

PDF ファイルが正しく認識されるためには、300 DPI の解像度を使用する必要があります。他の解像度では、正しくない抽出および分類結果が得られる可能性があります。

ドキュメントにグループ化する必要がある単一のテキストまたは画像ファイルと異なり、PDF ファイルは適切なドキュメント長に分割されています。

したがって、PDF ファイルにはいくつかのコンテンツ再構築操作を使用できません。

PDF ドキュメントの場合は、ドキュメントを変更するほとんどの編集機能が無効になっています。したがって、ページの削除、PDF ドキュメントの分割、2 つの PDF ドキュメントの結合はできません。ただし、ページの回転、PDF ドキュメントに対する付箋のリジェクト、移動、削除、追加はできます。

また、スクリプトによるコンテンツの再構築は、PDF ドキュメントの物理構造が変更されない場合に限定されます。コンテンツの再構築と同様に、スクリプトを使用して PDF ドキュメントのリジェクト、移動、削除、または付箋の追加を行うことができます。

PDF ファイルは結合または分割できないため、分割のテストや分割ベンチマーク統計の生成に PDF ファイルを使用することはできません。分割ベンチマーク テスト中は、選択したドキュメント セット内のドキュメントが個別のページに分割され、その後、プロジェクトの分割設定を使用して分類されたドキュメントに結合されます。PDF ファイルは分割できないため、この方法で使用することはできません。1 つ以上の PDF ファイルを含む一連のドキュメントの分割ベンチマーク統計を生成しようとすると、エラーが発生します。

通常、PDF ファイルには、全文が埋め込まれています。Kofax TotalAgility はこの埋め込みテキストを使用できるため、認識を実行する必要はありません。この埋め込みテキストは、通常の認識結果と同様に、抽出、コンテンツ分類などの目的に使用できます。

PDF にドキュメントのセキュリティ制限が適用されていても、Kofax TotalAgility では問題になりません。ドキュメントは引き続き正常に抽出されます。次のリストに、PDF に適用されるセキュリティ制限のうち、Kofax TotalAgility が処理して、引き続き PDF ドキュメントを正常に抽出できるものを示します。

  • 印刷

  • ドキュメント アセンブリ

  • アクセシビリティのためのコンテンツのコピー

  • ページ抽出

  • コメント

  • フォーム フィールドの入力

  • 署名

  • テンプレート ページの作成