Connexion et récupération des fichiers avec curl sur pagemploi


#1

Bonjour;
Je voudrai, dans la mesur du possible, votre aide, car je ne sais pas par ou prendre mon problème:
Mon épouse est assistante maternelle, et je voudrais récupérer (pour elle) les bulletins de salaires, de préférence automatiquement (mais déjà à la main,ce serait bien), avec un script.

Perso, je pense de suite à curl, qui peut passer les identifiants, mais comment trouver la bon formatage à passer pour valider l’autentification. Je doute que juste

curl <l'adresse de page emploi> -d les identifiants

cela fonctionne du premier coup.
Mais il faut, à priori, “cookifier” la connexion je suppose?
Et la, j’avoue que je sèche un peu.

Ensuite, il faut récupérer la page et la parser, bon, ça, ça devrait aller (quoi que je reviendrais sûrement).

Merci pour vos pistes éventuelles.
Rémi (et son épouse)


#2

Bonjour,

Je ne connais pas trop curl mais j’utilise de temps en temps wget pour ce genre de choses. Un truc du genre devrait fonctionner :

# enregistrement de tes identifiants dans un fichier
echo 'username=XXXX&password=XXXXXX' > les_identifiants

# pour enregistrer le cookie
wget -O - --save-cookies /chemin/vers/cookie --keep-session-cookies --post-file=les_identifiants <l'adresse de page emploi>
```
# pour télécharger les fichiers
wget -p -A <motif_ou_suffixe_éventuel_de_fichier> --load-cookies /chemin/vers/cookie <l'adresse de page emploi>

#3

@lsam Merci pour ton avis.
Je vais tenter ce soir.
Ce qui me fait “peur”, c’est que chaque page différente n’apparait dans le navigateur, que comme l’adresse du site terminée par un #, au lieu d’une vrai adresse de page que j’aurais pu interpréter.
Je vais déjà faire quelques tests, je verrais après.
Merci encore pour ton avis.


#4

ça dépend de comment est fait le site web en question, de comment il te fournit un cookie ou token d’authentification, etc.
Tu peux faire l’opération manuellement une première fois sur le site web, avec Firefox (ou autre) et la console web (Ctrl-Maj-K) ouverte, pour voir un peu comment ça se passe.


#5

Je viens de faire un test.
J’ai eu une réponse: robot.txt !
pas top.
la page de login c’est “https://www.pajemploi.urssaf.fr/pajeweb/logindec.htm
Par contre, les fichiers à récupérer, sont
géré comme ceci sur la page:

  <p class="p-tableaudebord">
   Avril 2019<br/>Mme xxxxxxxxxxxxxx
    <br/>
          <a href="#" title="Consulter le dernier bulletin de salaire de Mme xxxxxxxxxxx" onclick="document.getElementById('ref').value='z125874hh4444';document.formBulletinSalaire.submit();">
                       Consulter le bulletin de salaire&nbsp;<img class="img-tableaudebord" src="/pajewebdeclaratif/images/pajeweb/lien_externe.gif" alt="" />
      </a>
</p>

Il faut que je récupère la valeur ‘z125874hh4444’, nous sommes d’accord la dessus, mais je la passe à qui après? c’est la grande question!?