Réécrire la page

L'étape Réécrire la page prend la page HTML située dans la fenêtre actuelle, extrait le contenu HTML de cette page et de tous les cadres qu'elle peut contenir, puis génère en outre les liens vers d'autres pages ainsi que les URL des images, des feuilles de style et d'autres ressources dont dépend la page. Ensuite, la page peut être consultée hors ligne exactement telle qu'elle était au moment de l'extraction.

Tous les JavaScript et gestionnaires d'événements seront supprimés du HTML extrait car ce HTML extrait représente le résultat obtenu après avoir déjà chargé la page et ses cadres et exécuté tout le JavaScript susceptible de générer du contenu supplémentaire. Toutes les URL de la page seront réécrites, d'abord selon une transformation spécifiée par l'utilisateur, puis elles seront converties en URL relatives. Les URL des feuilles de style en ligne seront également réécrites.

Les feuilles de style externes dont les URL sont générées par l'étape doivent être exécutées via l'étape Réécrire la feuille de style qui applique une transformation similaire : réécriture des URL des feuilles de style importées et des images référencées dans la feuille de style.

L'étape Réécrire la page est destinée à être utilisée dans les robots qui disposent d'un contrôleur externe pour alimenter les URL des pages, les feuilles de style et d'autres ressources à réécrire dans le robot.

Activités d'étape associées

Pour capturer un instantané rapide et hors ligne d'une page, l'étape Prendre une capture instantanée peut être utilisée. Il n'est pas nécessaire que le robot soit contrôlé par une application externe mais, en une seule étape, cette activité téléchargera et sauvegardera toutes les ressources nécessaires dans le système de fichiers, constituant une capture instantanée complète et autonome.

Contrairement à l'étape Réécrire la page, l'activité de l'étape Prendre une capture instantanée ne conserve pas les liens entre les différentes captures instantanées et ne réutilise pas les ressources partagées entre ces captures instantanées.

L'exécution de cette étape est contrôlée par la clé de licence.

Propriétés

L'étape Réécrire la page peut être configurée à l'aide des propriétés suivantes :

URL de la page originale

Spécifiez la variable contenant l'URL originale de la page dans la fenêtre actuelle. Il s'agit de l'URL qui a été utilisée pour charger la page. Notez que l'URL actuelle de la page peut être différente si le serveur est redirigé vers une page différente de celle qui a été demandée.

Convertisseurs de données

Les convertisseurs de données qui spécifient la transformation à effectuer sur les URL de la page. Cela peut être utilisé pour spécifier la transformation de l'URL vers un emplacement dans le système de fichiers. Les convertisseurs de données doivent générer une URL absolue (qui peut être une URL de fichier), que l'étape convertira automatiquement en une URL relative à l'URL de la page d'origine. Pour la réécriture d'URL avancée, nous vous recommandons le convertisseur de données Convertir à l'aide de JavaScript.

Pages extraites

La variable dans laquelle stocker les pages extraites. L'étape extraira le HTML de la page dans la fenêtre actuelle ainsi que le HTML pour chacun des cadres. Celui-ci sera affiché au format JSON, qui contient également l'URL d'origine et l'URL réécrite pour chacune des pages. Seule la page principale aura cependant son URL d'origine spécifiée.

Pour charger la sortie JSON dans une fenêtre, utilisez l'étape Créer une page avec le nom de la variable contenant le JSON comme source de contenu. Dans les options de l'étape, vous devrez peut-être spécifier explicitement que le type de contenu est JSON et que le codage est UTF-8.

URLs

La variable dans laquelle stocker les URL extraites. L'étape extraira les URL de toutes les pages, images, feuilles de style et autres ressources directement liées à la page et ses cadres. Notez que les feuilles de style et les pages liées peuvent elles-mêmes contenir des URL ; celles-ci ne seront pas incluses dans la liste.

Les URL sont générées au format JSON, donnant à la fois l'URL d'origine ainsi que l'URL réécrite absolue de chaque URL. En outre, le type d'URL est fourni et déterminé par le contexte dans lequel l'URL se produit – par exemple, toutes les URL trouvées dans les balises <IMG> sont marquées du type IMAGE.

Les types disponibles sont :

PAGE

Un lien trouvé dans une balise d'ancrage. Notez que cela ne signifie rien sur le type de contenu de cette page, car elle n'a pas encore été chargée.

IMAGE

Une image.

FEUILLE DE STYLE

Une feuille de style CSS externe.

RESSOURCE

Une ressource binaire, par exemple un PDF trouvé dans un cadre ou un objet Flash.

Continuer quand
Ajoutez un critère d'attente pour l'étape. Si vous avez plusieurs critères d'attente, l'exécution s'arrête lorsqu'un critère d'attente est satisfait. Vous pouvez avoir plusieurs critères d'attente remplis, par exemple si vous attendez deux éléments HTML qui apparaissent dans le même chargement, ou si vous attendez un élément dans le cadre principal et que le paramètre Chargement de la page initiale en cours est configuré. Pour plus d'informations, voir Utiliser les critères d'attente.
Options

Les options du robot peuvent être remplacées par les propres options de l'étape. Une option marquée d'un astérisque dans la boîte de dialogue Options remplacera celle de la configuration du robot. Toutes les autres options seront les mêmes que celles spécifiées pour le robot.