Extraire
L'activité Extraire extrait du texte et le stocke dans une variable.
Il existe des possibilités pour spécifier le contenu à extraire, comme seulement le texte ou tout y compris les balises. Avant que le texte ne soit stocké, il peut être traité à l'aide d'une liste de convertisseurs de données et les espaces inutiles en début et en fin de phrase peuvent être supprimés.
La manière la plus simple d'utiliser l'activité Extraire consiste à extraire depuis une seule balise trouvée. Il est également possible d'extraire depuis une plage de balises, c'est-à-dire toutes les balises depuis une balise trouvée jusqu'à une autre balise trouvée.
Propriétés
L'activité Extraire peut être configurée à l'aide des propriétés suivantes :
- Extraire depuis
-
Spécifie la partie de la balise trouvée qui sera extraite.
- Balise trouvée spécifie que toute la balise trouvée doit être extraite.
- Plage de balises spécifie qu'une plage de balises doit être extraite. Les balises de début et de fin peuvent être sélectionnées et si vous souhaitez inclure ou non ces balises dans la plage.
- Extraire ceci
-
Spécifie le contenu à extraire.
- Texte uniquement spécifie que seul le texte doit être extrait.
- Texte structurée spécifie que seul le texte doit être extrait, mais qu'il doit être structuré de la même manière qu'il apparaîtrait dans un navigateur. Le système peut deviner l'emplacement d'un titre et insérer du texte avant et/ou après. Vous pouvez définir les options suivantes.
- Inclure les tableaux et les images alignés
-
Spécifie que les tableaux et images alignés à gauche ou à droite du texte sont inclus dans le texte de sortie. La désactivation de cette option peut parfois entraîner la suppression du contenu souhaité.
- Inclure les URLs
-
Spécifie que les URL réelles dans les balises de lien seront incluses dans le texte de sortie.
- Inclure les alternatives de textes d'image
-
Spécifie que la représentation textuelle des images sera incluse dans le texte de sortie.
- Inclure les champs de formulaire
-
Spécifie que la représentation textuelle des champs de formulaire sera incluse dans le texte de sortie.
- Insérer ceci avant un titre
-
Spécifie que cette activité doit deviner l'emplacement des en-têtes et insérer le texte spécifié avant eux.
- Insérer ceci après un titre
-
Spécifie que cette activité doit deviner l'emplacement des en-têtes et insérer le texte spécifié après eux.
-
Texte structuré avancé spécifie que seul le texte doit être extrait, mais qu'il doit être structuré de la même manière qu'il apparaîtrait dans un navigateur. Les noms de balise peuvent être convertis en n'importe quel texte. Vous pouvez définir les options suivantes.
- Inclure les tableaux et les images alignés
-
Spécifie que les tableaux et images alignés à gauche ou à droite du texte sont inclus dans le texte de sortie. La désactivation de cette option peut parfois entraîner la suppression du contenu souhaité.
- Inclure les URLs
-
Spécifie que les URL réelles dans les balises de lien seront incluses dans le texte de sortie.
- Inclure les alternatives de textes d'image
-
Spécifie que la représentation textuelle des images sera incluse dans le texte de sortie.
- Inclure les champs de formulaire
-
Spécifie que la représentation textuelle des champs de formulaire sera incluse dans le texte de sortie.
- Conversions de balise
-
Spécifie les conversions de balise à utiliser. Une conversion de balise s'effectue sous la forme balise = texte. Par exemple, « <h1> = <head1> » et « </h1> = </head1> » convertiraient les en-têtes HTML de niveau 1 en balises <head1> spéciales. Veuillez noter que le côté droit des conversions peut être n'importe quoi, il n'a pas besoin d'être une balise ordinaire.
-
HTML spécifie que le HTML entier doit être extrait.
- Formater le HTML
-
Spécifie que le HTML doit être reformaté (impression élégante).
- Encoder les URL
-
Spécifie que les URL dans les valeurs d'attribut doivent être codées en HTML. Ceci est fortement recommandé, car il est nécessaire de générer du HTML conforme aux normes qui fonctionnera de manière cohérente sur différents navigateurs. Dans certains cas, lorsque le code HTML doit être soumis à un traitement simple pour reconnaître et comparer des URL, il peut être toutefois nécessaire de laisser les URL non codées.
- Extraire des URL relatives
-
Spécifie que toutes les URL doivent être extraites comme relatives. Ainsi, si elle est présente, la partie de base de l'URL est supprimée.
-
XML spécifie que le XML entier doit être extrait. Cela ne fonctionne que si la page est une page XML.
- Inclure une déclaration XML
-
Spécifie que la déclaration XML (par exemple, <?xml version="1.0" encoding="UTF-8"?>) doit, si elle est présente, être incluse dans le XML extrait. Cela signifie que l'on peut extraire une partie d'un document XML et obtenir un nouveau document XML avec la déclaration appropriée en haut.
- Convertisseurs
-
Une liste optionnelle de convertisseurs de données qui doivent traiter le texte.
- Supprimer les espaces inutiles
-
Si cette option est sélectionnée, les espaces au début et à la fin du texte seront supprimés avant de stocker le texte dans la variable.
- Variable
-
Spécifie la variable dans laquelle stocker le texte extrait.