Aspirer un site web
From Deimos.fr / Bloc Notes Informatique
Contents
1 Introduction
Il existe des logiciels permettant de faire des aspirations web, mais pourquoi les utiliser quand une simple commande permet de faire la même chose.
2 Utilisation
Pour aspirer mozilla.org par exemple, utilisez cette commande :
wget |
wget --random-wait -r -p -e robots=off -U mozilla http://www.mozilla.org |
- -p : Inclure tous les fichiers, images etc...
- -e : robots=off bypasser le fichier robot.txt
- -U : Indiquer mozilla comme browser qui va aspirer
- --random-wait : Permet à wget de randomiser en secondes les téléchargements sur le site afin d'éviter les blacklists
Autres paramètres utiles :
- --limit-rate=20k : Limite la vitesse de téléchargement à 20k
- -b : wget continue à tourner même si vous vous déloguez (comme nohup)
- -o : $HOME/wget_log.txt fichier de logs