Scanner de page web

bellecuisse · Février 20, 2016, 4:24pm

bonjour tout le monde
je tente d 'extraire de informations de pages web… non pas pour du spam…
mais pour remettre a jour certaines informations.
voici mon debut mais … pas top
je pense le faire avec httrack mais pour le moment ca ne marche pas…
et surtout ca prend trop de place…
for i in $( cat 15.txt ) ; do webcheck -f $i | grep consultation >> result.txt; done;

ps: 15.txt comprends 300 sites
pour le moment je ne vois que les liens et non les informations neccessaires a ma recherche

avez vous des solutions plus simple pour eviter des usines a gaz?
merci pour vos pistes

antalgeek1 · Février 20, 2016, 4:24pm

slt

à une époque je m’étais fait un outil qui dumpait le code source de la page (avec lynx ou w3m je ne sais plus)
ensuite je le balançais dans un petit prog compilé qui recherchait des entêtes et qui me ressortait les données dans un tableau trié directement dans une appli gtk
j’avais aussi une fonction export sous gnumeric

le pb est que je trouvais ce que je cherchais à savoir :

pour les textes pas de pépin les sites en question étaient typés
pour les images j’en étais arrivé à gérer des numéros de version pour les différencier

je ne sais pas si cela peut t’aider mais je dois pouvoir retrouver des sources

bellecuisse · Février 20, 2016, 4:24pm

ben je veux bien ca pourra me donner des idées.
merci a toi

antalgeek1 · Février 20, 2016, 4:24pm

sur ta mp asap
n’hésite pas à me relancer je suis charette en ce moment

bellecuisse · Février 20, 2016, 4:24pm

mp asap??
c’est koi…traduction svp