Sauvegarde page web

Bonjour,

je suis un archiviste de pages web c’est ma passion.
En gros je garde des articles de blogs, des docs pour mon usage perso et pro en même temps.

je voudrai savoir comment vous faites pour sauvegarder vos contenues.

– Suite –
Perso, j’utilise le service https://www.printwhatyoulike.com/ afin de les sauvegarder en pdf que je stocke sur un google drive.

désole les libristes mais google drive permet de rechercher dans les pdfs.

sinon j’utilise mon wiki pour résumer les commandes.
Il est basé sur wiki.js.

Ma méthode pour sauvegarder un article intéressant:

  1. passer Firefox en mode lecture (F9) (merci aux devs Mozilla pour ce mode, ça change la vie !)
  2. « Enregistrer sous » (Ctrl+S) pour garder l’article au format HTML
  3. ou « Imprimer » (Ctrl+P) et « Enregistrer au format PDF » pour le PDF

EDIT: pour faire des recherches de caractères dans des fichiers PDF multiples, il y a pdfgrep en CLI, je n’ai pas du tout regardé si les gestionnaires de fichiers graphiques (Nemo, Nautilus, etc.) gèrent cette fonctionnalité

1 J'aime

Bonjour,

xpdf et evince aussi !
findinpdf

Bonjour Jipete,
je parlais de la recherche à travers plusieurs pdf.

Bonjour Sputnik93,

merci pour ton retour. Ta méthode est bien.
mais tout le problme c’est comment stocker et retrouvé l’information.

En effet. J’ai naïvement regardé si Nextcloud pouvait faire de la recherche dans des pdf, mais ça ne semble pas être le cas. J’ai pas de PC Linux sous la main pour vérifier, mais c’est possible que Nautilus puisse faire de la recherche dans les PDF (probablement après une indexation par tracker).

Tu peux aussi utiliser poppler-utils, pdfgrep

Merci

mais le soucis c’est que j’aime bien accéder à mes documents et à mes archives un peu partout sur terre.

moi aussi. Pour ça j’ai mon propre serveur de fichier, un NAS.

Bonne idée mais je pensais un service online que je payerai

  • mes notes soient accessibles de partout ( solution Nas, ou cloud éthique)
  • que je puisse capturer des pages webs ( printasyoulike)
  • que je puisse rechercher des mots dans les pdfs ( pdf grep, google drive)

j’avais penser à Joplin mais la capture de page est crade.

Bonjour,

Je peux le faire depuis mon ordinateur avec les fichiers PDF stockés dessus.
En fait, c’est très intégré au bureau Plasma (KDE) et je n’ai qu’à taper le terme que je cherche dans le menu des application et j’ai une liste de fichiers texte, PDF et autre qui le contiennent.
Les moteurs de recherche libres, ça existe.

1 J'aime

la plupart du temps quand je tombe sur un article intéressant je fais de même. Mais lorsque le site en lui même est complet sur un domaine, je l’archive à l’aide de httrack pour pouvoir le reployer sur des pages que j’appelle mes madcats. De même il m’arrive parfois de sauvegarder uniquement l’article au format html et de redéfinir le code source pour en avoir une archive propre.

Je trouve la pratique utile pour les enfants que l’on voudrai former au web.
Car en fait pas besoin de connaitre la recherche google pour apprendre à utiliser un navigateur.
De plus de cette manière on peut contrôler le contenu auquel ils ont accès.

c’est une bonne pratique :slight_smile:

Actuellement j’ai trois version de madcats.

Des fois y’a un bouton imprimer (sites officiels), des fois non. Dans ce cas je vire tout ce que je veux pas de la page via l’inspecteur (ouiiii mais ma femme elle efface les noeux html… :grinning_face_with_smiling_eyes: ) puis j’imprime en pdf