Connexion et récupération des fichiers avec curl sur pagemploi

rsuinux · Juillet 23, 2019, 9:15am

Bonjour;
Je voudrai, dans la mesur du possible, votre aide, car je ne sais pas par ou prendre mon problème:
Mon épouse est assistante maternelle, et je voudrais récupérer (pour elle) les bulletins de salaires, de préférence automatiquement (mais déjà à la main,ce serait bien), avec un script.

Perso, je pense de suite à curl, qui peut passer les identifiants, mais comment trouver la bon formatage à passer pour valider l’autentification. Je doute que juste

curl <l'adresse de page emploi> -d les identifiants

cela fonctionne du premier coup.
Mais il faut, à priori, “cookifier” la connexion je suppose?
Et la, j’avoue que je sèche un peu.

Ensuite, il faut récupérer la page et la parser, bon, ça, ça devrait aller (quoi que je reviendrais sûrement).

Merci pour vos pistes éventuelles.
Rémi (et son épouse)

lsam · Mai 14, 2019, 11:45am

Bonjour,

Je ne connais pas trop curl mais j’utilise de temps en temps wget pour ce genre de choses. Un truc du genre devrait fonctionner :

# enregistrement de tes identifiants dans un fichier
echo 'username=XXXX&password=XXXXXX' > les_identifiants

# pour enregistrer le cookie
wget -O - --save-cookies /chemin/vers/cookie --keep-session-cookies --post-file=les_identifiants <l'adresse de page emploi>
```
# pour télécharger les fichiers
wget -p -A <motif_ou_suffixe_éventuel_de_fichier> --load-cookies /chemin/vers/cookie <l'adresse de page emploi>

rsuinux · Mai 15, 2019, 11:34am

@lsam Merci pour ton avis.
Je vais tenter ce soir.
Ce qui me fait “peur”, c’est que chaque page différente n’apparait dans le navigateur, que comme l’adresse du site terminée par un #, au lieu d’une vrai adresse de page que j’aurais pu interpréter.
Je vais déjà faire quelques tests, je verrais après.
Merci encore pour ton avis.

Sputnik93 · Mai 15, 2019, 2:28pm

ça dépend de comment est fait le site web en question, de comment il te fournit un cookie ou token d’authentification, etc.
Tu peux faire l’opération manuellement une première fois sur le site web, avec Firefox (ou autre) et la console web (Ctrl-Maj-K) ouverte, pour voir un peu comment ça se passe.

rsuinux · Juillet 21, 2019, 3:01pm

Je viens de faire un test.
J’ai eu une réponse: robot.txt !
pas top.
la page de login c’est “https://www.pajemploi.urssaf.fr/pajeweb/logindec.htm”
Par contre, les fichiers à récupérer, sont
géré comme ceci sur la page:

<p class="p-tableaudebord">
    Avril 2019<br/>Mme xxxxxxxxxxxxxx
    <br/>
    <a href="#" title="Consulter le dernier bulletin de salaire de Mme xxxxxxxxxxx" onclick="document.getElementById('ref').value='z125874hh4444';document.formBulletinSalaire.submit();">
                       Consulter le bulletin de salaire&nbsp;<img class="img-tableaudebord" src="/pajewebdeclaratif/images/pajeweb/lien_externe.gif" alt="" />
    </a>
</p>

Il faut que je récupère la valeur ‘z125874hh4444’, nous sommes d’accord la dessus, mais je la passe à qui après? c’est la grande question!?

rsuinux · Juillet 21, 2019, 2:57pm

Bonjour,
Je continue à chercher à récupérer les fichiers pour mon épouse sur page-emploie. Les vacances, ça sert aussi à ça!
j’ai donc bien une connexion sur la page de login, mais c’est après que ça merde:
La class css donne un “tableau de bord” mais en fait, derrière, j’ai ça:

function onclick(event) {
    document.getElementById('ref').value = '2019187Y16456';
    document.formBulletinSalaire.submit();
}

Est ce que curl ou wget peut lancer un script? Par ce que ça va revenir à ça, en fin de compte?

Merci de vos avis.
Rémi.

Sputnik93 · Juillet 22, 2019, 9:01am

ça je ne sais pas. Si ce n’est pas possible de passer par wget ou curl pour simuler des clics, tu peux peut-être regarder du côté des solutions type Selenium (https://docs.seleniumhq.org/).