Extraire le contenu de HTML

Design Studio propose six étapes pour extraire le contenu d'une balise dans une page HTML :

  • L'activité Extraire est utilisée pour extraire le contenu textuel de la balise, en incluant éventuellement les balises HTML.
  • L'activité Extraire l'URL est utilisée pour extraire une URL d'un attribut de balise contenant une URL, et rendre cette URL absolue.
  • L'activité Extraire l'attribut de balise est utilisée pour extraire la valeur d'un attribut de balise.
  • L'activité Extraire la cible est utilisée pour extraire des données binaires telles que des images et des fichiers PDF, mais elle traite tout type de données binaires.
  • L'activité Extraire le paramètre de formulaire est utilisée pour extraire un paramètre de formulaire d'une URL de formulaire dans la balise trouvée et stocker sa valeur dans une variable.
  • L'activité Extraire l'option sélectionnée est utilisée pour extraire l'option sélectionnée d'une balise <select> et la stocker dans une variable.

Pour reformater (ou normaliser) le contenu extrait, utilisez les activités Extraire et Extraire l'attribut de balise et configurez les convertisseurs de données dans la liste.

Il existe deux activités pour extraire des données de divers formats de données binaires, par exemple, PDF ou Flash. Ces activités sont différentes des précédentes en ce sens qu'elles extraient les données et produisent une page HTML qui contient les données sous une forme structurée qui permet au robot d'y accéder. Ces activités sont utilisées dans une première étape avant l'extraction des données proprement dites, au cours de laquelle vous pouvez exécuter une boucle sur le HTML produit et en extraire du texte.

  • L'activité Extraire depuis un PDF est utilisée pour extraire le texte d'un document PDF contenu sous forme de données binaires dans un attribut sélectionné.
  • L'activité Extraire le contenu Flash est utilisée pour extraire les données d'un objet Flash dans une balise trouvée.