Aspirer un site web

From Deimos.fr / Bloc Notes Informatique
Jump to: navigation, search

1 Introduction

Il existe des logiciels permettant de faire des aspirations web, mais pourquoi les utiliser quand une simple commande permet de faire la même chose.

2 Utilisation

Pour aspirer mozilla.org par exemple, utilisez cette commande :

Command wget
wget --random-wait -r -p -e robots=off -U mozilla http://www.mozilla.org

  • -p : Inclure tous les fichiers, images etc...
  • -e : robots=off bypasser le fichier robot.txt
  • -U : Indiquer mozilla comme browser qui va aspirer
  • --random-wait : Permet à wget de randomiser en secondes les téléchargements sur le site afin d'éviter les blacklists

Autres paramètres utiles :

  • --limit-rate=20k : Limite la vitesse de téléchargement à 20k
  • -b : wget continue à tourner même si vous vous déloguez (comme nohup)
  • -o : $HOME/wget_log.txt fichier de logs