Extraire depuis un PDF

Cette activité extrait le texte et les images d'un document PDF contenu comme données binaires dans une variable binaire sélectionnée.

En règle générale, le document PDF a été téléchargé dans la variable à l'aide d'une étape Extraire la cible. La sortie de l'activité « Extraire depuis un PDF » est une page HTML contenant le texte et les images extraites du document PDF. Dans les étapes suivantes, les informations souhaitées peuvent ensuite être extraites de la page, de la même manière que pour les autres pages HTML.

Notez ce qui suit :

  • Les documents PDF ne contiennent pas d'informations de structure telles que des tableaux ou des paragraphes, mais uniquement des positions de textes et de graphiques, qui peuvent ou non être positionnés pour ressembler à des tableaux ou des paragraphes. Cela peut rendre difficile l'extraction des informations souhaitées à partir de documents PDF. Toutefois, l'étape Extraire depuis un PDF appliquera des instructions heuristiques pour regrouper le texte en paragraphes HTML, selon les informations de position disponibles.
  • L'étape Extraire depuis un PDF ne peut pas extraire les données saisies dans les formulaires. Pour rendre les données du formulaire disponibles pour l'extraction, vous devez aplatir le document à l'aide d'un outil tiers.

Propriétés

L'activité « Extraire du texte d'un PDF » peut être configurée à l'aide des propriétés suivantes :

Variable PDF

La variable binaire contenant le document PDF sous forme de données binaires.

Inclure les images

Spécifie si les images intégrées doivent être extraites. Notez que toutes les images et graphiques ne peuvent pas être extraits de documents PDF ; cela dépend de la manière dont ils ont été incorporés à l'origine dans le document.

Inclure les XObjects de formulaire

Cette option permet l'extraction des XObjects de formulaire à partir du PDF. Les XObjects de formulaire regroupent les objets dans un fichier PDF. Les objets peuvent inclure du texte, des images, des éléments vectoriels, etc. XObjects de formulaire est généralement utilisé pour stocker des objets référencés plusieurs fois dans un document.

Inclure le positionnement

Spécifie si les positions des textes doivent être extraites. Les positions peuvent être utiles pour trouver la structure du document.

Inclure le formatage

Spécifie si la mise en forme (noms de police, tailles, etc.) des textes doivent être extraites. Comme les positions, la mise en forme peut être utile pour trouver la structure du document.

Fusionner le texte

Par défaut, le convertisseur qui a généré le HTML depuis le PDF fusionnera le texte qui se trouve sur la même ligne en un seul élément HTML, même si ceux-ci sont représentés sous la forme de texte différent dans le document PDF. Bien que cela puisse souvent être souhaitable, cela peut dans certains cas avoir pour effet que le texte, qui était initialement très éloigné, se confondra et semblera être juste à côté de l'autre. Un cas typique où il serait souhaitable de désactiver cette fonctionnalité est si le document contient plus d'une colonne. La désactivation de la fonction tentera de préserver la structure des colonnes.