Wget "...301 Moved Permanently"

MalditaInformatica · Février 21, 2016, 3:46am

Bonjour,

J’essaie d’aspirer des pages via Wget mais je ne retrouve que des liens html vides. Je ne trouve aucune réponse satisfaisante sur le net. Quelqu’un pourrait m’aider?

Merci

–2011-11-04 19:48:11-- casarosada.gov.ar/discursos/ … la-matanza
Résolution de www.casarosada.gov.ar…. 200.1.116.83
Connexion vers www.casarosada.gov.ar|200.1.116.83|:80…connecté.
requête HTTP transmise, en attente de la réponse…301 Moved Permanently
Emplacement: casarosada.gov.ar/index.php?option=error [suivant]
–2011-11-04 19:48:11-- casarosada.gov.ar/index.php?option=error
Connexion vers www.casarosada.gov.ar|200.1.116.83|:80…connecté.
requête HTTP transmise, en attente de la réponse…404 Not Found
2011-11-04 19:48:12 ERREUR 404: Not Found.

kamui57 · Février 21, 2016, 3:46am

[code]20:16:26 stepharch@toshi:~ 5$ wget http://www.casarosada.gov.ar/discursos/25449-inauguracion-del-hospital-materno-infantil-doctor-alberto-ballestrini-en-la-la-matanza --user-agent=“Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3” --2011-11-04 20:16:46-- http://www.casarosada.gov.ar/discursos/25449-inauguracion-del-hospital-materno-infantil-doctor-alberto-ballestrini-en-la-la-matanza
Résolution de www.casarosada.gov.ar… 200.1.116.83
Connexion vers www.casarosada.gov.ar|200.1.116.83|:80…connecté.
requête HTTP transmise, en attente de la réponse…200 OK
Longueur: non spécifié [text/html]
Sauvegarde en : «25449-inauguracion-del-hospital-materno-infantil-doctor-alberto-ballestrini-en-la-la-matanza»

[       <=>                             ] 41 053      11,0K/s   ds 3,7s

2011-11-04 20:16:54 (11,0 KB/s) - «25449-inauguracion-del-hospital-materno-infantil-doctor-alberto-ballestrini-en-la-la-matanza» sauvegardé [41053]

20:16:54 stepharch@toshi:~ 6$[/code]

MalditaInformatica · Février 21, 2016, 3:46am

Salut,

Merci de ta réponse. C’est super que ça marche chez toi, mais je n’arrive toujours pas à savoir ce qu’il faut faire. A vrai dire je ne suis vraiment pas forte en informatique…

kamui57 · Février 21, 2016, 3:46am

Désolée, je savais pas s’il fallait expliquer ou non alors j’ai fait au plus court

Lorsque tu visites un site web avec firefox (ou autre), ton ordi donne un certain nombre d’infos au serveur pour qu’il te renvoie la page, notamment l’ip, mais aussi une chaîne contenant des infos sur le navigateur, le système d’exploitation… qui s’appelle l’user-agent.

Il peut servir pour les robots des moteurs de recherche, pour que le webmaster d’un site puisse dire aux robots de ne pas indexer certaines pages. Il sert aussi à détecter le navigateur web de l’utilisateur pour donner un affichage d’un site web différent selon le navigateur, l’exemple qui me vient à l’esprit est la détection d’internet explorer pour contourner ce qu’il ne supporte pas comme fonctions de mise en forme (CSS3).

(edit : c’est une honte, mon url ↑↑↑ n’est pas prise en compte et tout l’effet comique tombe à l’eau ! Je vais brûler les locaux de la balise url ! Merde yen a pas… Bon… rentre “about:robots” dans firefox si tu l’utilises stp )

Chacun peut voir son user-agent en visitant un site qui l’affiche, par exemple celui-ci. Le mien :

J’utilise Linux, 64 bits, avec firefox 7.0.1, le moteur de rendu (programme qui affiche les pages) est gecko.

D’autres sont affichés :

[quote]BlackBerry8300/4.2.2 Profile/MIDP-2.0 Configuration/CLDC-1.1 VendorID/107 UP.Link/6.2.3.15.02011-10-16 20:20:17
Mozilla/5.0 (Windows NT 6.1; rv:5.0) Gecko/20100101 Firefox/5.02011-10-16 20:21:42
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.202 Safari/535.12011-10-16 20:21:13
Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+2011-10-16 20:21:10[/quote]
Des gens surfent avec des Blackberry, Mac, Windows.

wget a aussi son user-agent. Mais wget n’est pas un navigateur, le webmaster sait que c’est un programme pour télécharger et enregistrer sur le pc, scriptable, il a peut-être pas envie que des gens fassent une boucle de wget sur son site, alors il bloque l’user-agent de wget (ou n’accepte que certains, jsais pas moi), bref il bloque wget. Du coup on va camoufler wget en firefox en prenant un user-agent de navigateur comme ceux vus au-dessus. La commande wget ressemblera alors à

wget [urldusite] --user-agent="[user-agent]"

Tu peux regarder ma commande d’au-dessus, c’est exactement ça.

wget  http://www.casarosada.gov.ar/discursos/25449-inauguracion-del-hospital-materno-infantil-doctor-alberto-ballestrini-en-la-la-matanza --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3"

Si tu veux télécharger plusieurs pages du site, vaut mieux être sympa avec lui et attendre un peu entre chaque requête, comme dit chez werebuild. Pour leurs requêtes récursives, ils ajoutent l’option -w 2.

MalditaInformatica · Février 21, 2016, 3:46am

Je te remercie beaucoup! J’ai suivi tes conseils et ça marche, j’ai la page . Maintenant il faudra que j’arrive à inclure ça dans mon script! …

Merci encore!