🕸 Télécharger le contenu d’un site web

sept.

2019

🕸 Télécharger le contenu d’un site web

Pour archiver un site web ou simplement tester les liens on a souvent besoin d’un outil qui permet de faire un miroir du contenu d’un domaine.

J’ai longtemps utilisé httrack une solution libre permettant d’aspirer un site web. Cependant, ce programme n'est plus mis à jours depuis longtemps et il y a beaucoup efficace aujourd’hui.

ඏ

Et le programme est disponible sur toutes les distributions Linux, il s’agit de wget.

Voici comment utiliser wget pour faire un miroir d’un site Internet :

wget -m -k -p -c -E https://www.example.org/

Si jamais la commande wget n’était disponible sur votre système, vous pouvez facilement l’installer à l’aide de :

sudo apt-get update && sudo apt-get upgrade && sudo apt-get install wget -y

ඏ

Version courte

Option	Description
`-m`	Active le mode miroir
`-k`	Converti les fichiers pour un usage local
`-p`	Télécharge également les dépendances
`-c`	Complète les fichiers qui sont éventuellement en plusieurs parties
`-E`	Corrige les extensions des fichiers locaux

ඏ

Version longue

-m ou --mirror – Activation des options appropriées pour la création d’un miroir. Cette option active la récursivité et l’horodatage, définit une profondeur de récursion infinie et conserve les listes de répertoires FTP. C’est équivalent à -r -N -l inf --no-remove-listing.
-k ou --convert-links – Une fois le téléchargement terminé, les liens des documents seront convertis pour les rendre compatibles avec un affichage local. Cela concerne non seulement les liens hypertextes visibles, mais également toute partie du document qui renvoie au contenu externe, tels que les images incorporées, les liens vers les feuilles de style, les liens hypertextes vers du contenu non HTML, etc.
-p ou --page-requisites – Cette option demande à wget de télécharger tous les fichiers nécessaires pour afficher correctement une page HTML donnée. Cela inclut des éléments tels que des images en ligne, des sons et des feuilles de style référencées. Par défaut, lors du téléchargement d’une seule page HTML, les documents requis pour l’afficher correctement ne sont pas téléchargés.

L’utilisation de -r avec -l peut aider, mais comme par défaut wget ne fait la distinction entre les documents externes et les documents en ligne, il ne reste généralement que des « documents feuilles » dont les éléments requis manquent.

-c ou --continue – Continuez à obtenir un fichier partiellement téléchargé. Ceci est utile lorsque vous souhaitez terminer un téléchargement démarré par une instance précédente de wget ou par un autre programme. L’idée est de ne pas refaire l’ensemble du téléchargement, mais également d’aller récupérer des morceaux manquant (cas de fichier découpé).

Si vous utilisez -c sur un fichier de taille égale à celle du serveur, wget refusera de télécharger ce fichier et d’afficher un message explicatif. La même chose se produit lorsque le fichier est plus petit sur le serveur que localement (probablement parce qu'il a été modifié sur le serveur depuis votre dernière tentative de téléchargement) --- parce que « continuer » n'est pas significatif, aucun téléchargement ne sera fait.

L’autre côté de la médaille, en utilisant -c, tout fichier plus volumineux sur le serveur que localement sera considéré comme un téléchargement incomplet et seuls les octets ( length(remote) – length(local) ) seront téléchargés et ajouté à la fin du fichier local. Ce comportement peut être souhaitable dans certains cas. Par exemple, vous pouvez utiliser wget -c pour télécharger uniquement la nouvelle partie qui a été ajoutée à une collection de données ou à un fichier journal.

Toutefois, si le fichier est plus volumineux sur le serveur parce qu’il a été modifié, par opposition à un simple ajout, vous obtiendrez un fichier tronqué. wget n’a aucun moyen de vérifier que le fichier local est vraiment un préfixe valide du fichier distant. Vous devez faire particulièrement attention lorsque vous utilisez -c avec -r, car chaque fichier sera considéré comme un candidat de téléchargement incomplet.

Si vous essayez d’utiliser -c, vous obtiendrez un fichier corrompu si vous disposez d’un proxy HTTP boiteux insérant une chaîne "transfert interrompu" dans le fichier local.

Notez que -c ne fonctionne qu’avec les serveurs FTP et les serveurs HTTP prenant en charge l’en-tête « Range ».

-E ou --html-extension – Si un fichier de type application/xhtml+xml ou text/html est téléchargé et que l’URL ne se termine pas par \.[Hh][Tt][Mm][Ll]? (regex), cette option entraînera l’ajout du suffixe .html. au nom de fichier local. Ceci est utile, par exemple, lorsque vous mettez en miroir un site distant qui utilise des pages .asp ou jsp, mais que vous voulez que les pages en miroir soient visibles sur votre serveur Apache standard. Une autre utilisation intéressante est le téléchargement de documents générés par CGI. Une URL du type http://site.com/article.cgi?25 sera enregistrée sous la forme article.cgi?25.html.

Notez que les noms de fichier modifiés de cette manière seront téléchargés de nouveau chaque fois que vous ferez un miroir du site, car wget ne peut pas dire que le fichier X.html local correspond à l’URL distante X (car il ne sait pas encore que l’URL produit une sortie de type application/xhtml+xml ou text/html.

wget s’assurera également que tous les fichiers téléchargés de type text/css se terminent par le suffixe .css.

*wget veillera également à ce que tous les fichiers téléchargés avec un Content-Encoding de br, compress, deflate ou gzip se terminent avec les suffixes .br, .Z, .zlib et .gz respectivement.

À l’avenir, cette option pourrait bien être étendue pour inclure des suffixes pour d’autres types de contenu, y compris des types de contenu non analysés par wget.

ඏ

Rechercher les liens morts

Avec wget il y a un moyen facile de rechercher les liens cassés (ou liens mort) en sauvegardant l’affichage dans un fichier :

wget -o wget.log -r -l 10 --spider https://www.example.org/

Explication rapide des options :

Option	Description
`-o`	Sauvegarde le résultat dans un fichier pour une analyse ultérieure (Attention c’est `o` minuscule)
`-r`	Suis les liens (traitement récursif)
`-l`	Définie la profondeur de la récursion
`--spider`	Utilise le mode « toile » de wget

Pour obtenir la liste des liens morts, il suffit alors d’utiliser :

grep -B 2 '404' wget.log | grep 'http' | cut -d ' ' -f 4 | sort -u

Ou tout sur la même ligne:

wget -r -l 100 --spider https://www.example.org/ 2>&1 | grep -B 2 '404' | grep 'http' | cut -d ' ' -f 4 | sort -u

Attention : Cette commande ne permet pas de retrouver les liens cassés qui sortant, on limite l’analyse au site donné.

ඏ

En savoir +

La commande man est toujours inintéressante pour ce genre de petit outil, mais si vous préférer une version en ligne :

Man page de wget
Man page de wget en français, attention elle peut-être en retard par rapport à la documentation anglaise,

Autres liens :

Documentation de wget en français avec quelques exemples d’utilisation.
Autre astuces avec wget

ᦿ

Vos commentaires

Pas encore de commentaire - ajouter le votre.
Ajouter votre commentaire

cClaude.rocks ☕ Le blog

Version courte

Version longue

Rechercher les liens morts

En savoir +