Extraire le contenu de HTML

Design Studio propose six étapes pour extraire le contenu d'une balise dans une page HTML :

  • L'activité Extraire est utilisée pour extraire le contenu textuel de la balise, en incluant éventuellement les balises HTML.
  • L'activité Extraire l'URL est utilisée pour extraire une URL d'un attribut de balise contenant une URL, et rendre cette URL absolue.
  • L'activité Extraire l'attribut de balise est utilisée pour extraire la valeur d'un attribut de balise.
  • L'activité Extraire la cible est utilisée pour extraire des données binaires telles que des images et des fichiers PDF, mais elle traite tout type de données binaires.
  • L'activité Extraire le paramètre de formulaire est utilisée pour extraire un paramètre de formulaire d'une URL de formulaire dans la balise trouvée et stocker sa valeur dans une variable.
  • L'activité Extraire l'option sélectionnée est utilisée pour extraire l'option sélectionnée d'une balise <select> et la stocker dans une variable.

Pour reformater (ou normaliser) le contenu extrait, utilisez les activités Extraire et Extraire l'attribut de balise et configurez les convertisseurs de données dans la liste.

L'activité Extraire depuis un PDF est utilisée pour extraire le texte d'un document PDF contenu sous forme de données binaires dans un attribut sélectionné. Elle extrait les données et produit une page HTML qui contient les données sous une forme structurée qui permet au robot d'y accéder. Cette activité est utilisée dans une première étape avant l'extraction des données proprement dites, au cours de laquelle vous pouvez exécuter une boucle sur le HTML produit et en extraire du texte.