トレーニング可能なドキュメント分割 のためのページの分類方法

トレーニング可能なドキュメント分割を使用して複数のページがあるドキュメントを分類すると、個々のページが分類され、信頼度の値が割り当てられます。

このため、[プロジェクト設定] - [分類] タブで構成された分類設定は重要です。少なくとも 1 つの分類方法を有効にする必要があります。「コンテンツ分類を使用しない」「レイアウト分類を使用しない」の両方を選択することは避けてください。これは、コンテンツ分類を使用するために必要なライセンスがない場合にも重要です。

最初に Transformation Server インスタンスが実行されるときに、各ページが分類され、これらのページの分類結果に応じて、ドキュメントが分割および分類されます。

ページは次のように分類できます。

  • ドキュメントの最初のページ。

  • ドキュメントの中のページ。

  • ドキュメントの最後のページ。

通常、単一ページのドキュメントは、最初のページとして高い信頼度で分類されます。

コンテンツの個々のページが処理され、利用可能なページの分類結果が得られます。

このような結果は、周囲のドキュメントと比較されます。利用可能なページの分類結果を評価して、ページをドキュメントに分割する最も論理的な方法を決定します。たとえば、中のページが最初のページと最後のページで囲まれている場合、そのドキュメントは 3 ページのドキュメントである可能性があります。

分割の設定は、最高レベルの信頼度と次に高いレベルの信頼度の間に少なくとも 10% の差が必要であることを示しています。

差異が 10% 未満の場合、ページ分類の競合が発生し、ドキュメントが Document Review に表示されます。これにより、ユーザーは分類と分割を確認できます。