Bon, je fais un petit point d’avancement, au cas où ça puisse intéresser quelqu’un…
Déjà, j’ai écarté tous les outils qui sont des plateformes en ligne (SAAS), gratuits ou pas : Apache Airflow, Hevo, Stitch… Et quantité d’autres qui sont sur le même créneau.
Ensuite, j’ai écarté Scriptella qui ne semble pas maintenu : v 1.1 en décembre 2012, v 1.2 en octobre 2019, et rien depuis.
Je me suis orienté vers Apache NiFi, qui est un ETL installable en local. En gros ça se présente comme un moteur de traitement de données en continu, on a donc un process qui tourne en tâche de fond sur une JVM (version 21 mini), ainsi qu’un serveur web en local pour faire tourner dans un navigateur l’interface qui sert à la fois à la programmation et au suivi visuel des flux de données. Ca semble très puissant, trop puissant pour mon besoin, le truc qui prend 10 minutes à faire en PowerQuery (télécharger un CSV, le trier et l’afficher) demande un effort significatif en NiFi : une boîte pour télécharger le fichier, une boite pour interpréter que c’est du CSV, une boite pour splitter le fichier en enregistrements, une boite pour extraire la colonne qui va servir au tri, une boite pour faire le tri, une boite pour refusionner les enregistrements… Et je n’en suis pas encore venu à bout.
Ajoutez à ça que NiFi n’est pas dans les paquets Debian, c’est possible que je préfère à terme jeter l’éponge et que je garde mon Excel/Power Query dans une VM…
PS : comme je suis encore en phase de transition, c’est la version Windows de NiFi que j’ai testée, parce que je ne me voyais pas trop bidouiller mon Debian pour l’install.