段落検出

段落検出は認識の一部として実行され、文字認識を利用します。検出された段落は、[分類ロケータ] またはスクリプトで使用できます。

たとえば、大規模な法的契約を処理しており、それらすべてに補償条項または知的財産条項などがあるかどうかを確認する必要がある場合は、ドキュメント全体を読み込むのではなく、段落検出と [分類ロケータ] を使用して段落を分類し、分類した条項がユーザーに示されるようにすることができます。この場合、フィールドに 1 つの段落を入力するか、テーブルに複数の段落を入力することで、より適切な方法を使用して検出を実行できます。これにより、オペレータは特定の条項にすばやくアクセスしたり、条項が検索されていないドキュメントを見つけたりすることができます。

同様に、政府によって毎日発行されるドキュメントを受け取り、その中には新たに登録された企業のリストが含まれるとします。このドキュメントを処理する際には、それぞれの新しい企業とそれに対応する住所をデータベースに配置する必要があります。ドキュメントは、各企業が小さな段落にまとめられた非常に密な 6 列の PDF として構造化されています。こういった場合にスクリプトで段落検出を使用すると、データベースにデータを入力できるようになります。

それぞれの文は通常、段落の最初の文をインデントする、段落間に縦の空白を追加する、または段落に番号を付けることによって、段落にグループ化されています。段落検出ではこの典型的な形式をを検出に使用しますが、次のような他の状況で段落を検出することもできます。

  • ドキュメントに複数の列がある場合。

  • 段落に異なるフォントとテキスト サイズが含まれる場合。

  • 段落に、太字、斜体、上付き、下付き、テキストの色、背景のテキストの色など、さまざまなフォント効果を持つテキストが含まれる場合。

  • テキスト フローに埋め込まれた画像がある場合。

  • 段落に番号付きまたは箇条書きのリストが含まれる場合。

段落検出は、ドキュメントがテキスト ベースで、画像、テーブル、またはドキュメントを分割するその他のコンテンツがない場合に最も効率よく機能します。ドキュメント レイアウトがより複雑化するほど、段落検出で得られる結果は減少します。

さらに、段落の検出に関連するその他の既知の問題がいくつかあります。

  • 右から左に記述する言語は、現在サポートされていません。

  • テキスト ファイルはサポートされていません

  • 段落検出は文字認識の品質に依存するため、認識結果に誤りがある場合には次のような問題が発生することがあります。

    • ドキュメントのレイアウトによっては、単語が正しく認識されず、段落が複数の不要な段落に分割される場合があります。

    • 箇条書きが認識されず、箇条書きのリスト項目が前の段落の一部として認識される場合があります。

    • ノイズの一部が箇条書きの中黒として認識され、余分な段落が検出される場合があります。

  • 段落検出は、印字されたフォントでの作業に特化しています。つまり、手書きフォントの場合は、記号の比率や形状が一定ではないため、問題が発生する可能性があります