Sauvegarde page web

anon93295908 · Février 17, 2022, 10:13am

Bonjour,

je suis un archiviste de pages web c’est ma passion.
En gros je garde des articles de blogs, des docs pour mon usage perso et pro en même temps.

je voudrai savoir comment vous faites pour sauvegarder vos contenues.

anon93295908 · Février 17, 2022, 10:15am

– Suite –
Perso, j’utilise le service https://www.printwhatyoulike.com/ afin de les sauvegarder en pdf que je stocke sur un google drive.

désole les libristes mais google drive permet de rechercher dans les pdfs.

sinon j’utilise mon wiki pour résumer les commandes.
Il est basé sur wiki.js.

Sputnik93 · Février 17, 2022, 11:31am

Ma méthode pour sauvegarder un article intéressant:

passer Firefox en mode lecture (F9) (merci aux devs Mozilla pour ce mode, ça change la vie !)
« Enregistrer sous » (Ctrl+S) pour garder l’article au format HTML
ou « Imprimer » (Ctrl+P) et « Enregistrer au format PDF » pour le PDF

EDIT: pour faire des recherches de caractères dans des fichiers PDF multiples, il y a pdfgrep en CLI, je n’ai pas du tout regardé si les gestionnaires de fichiers graphiques (Nemo, Nautilus, etc.) gèrent cette fonctionnalité

jipete · Février 17, 2022, 11:08am

Bonjour,

xpdf et evince aussi !
findinpdf

anon93295908 · Février 17, 2022, 12:10pm

Bonjour Jipete,
je parlais de la recherche à travers plusieurs pdf.

anon93295908 · Février 17, 2022, 12:24pm

Bonjour Sputnik93,

merci pour ton retour. Ta méthode est bien.
mais tout le problme c’est comment stocker et retrouvé l’information.

Sputnik93 · Février 17, 2022, 1:33pm

En effet. J’ai naïvement regardé si Nextcloud pouvait faire de la recherche dans des pdf, mais ça ne semble pas être le cas. J’ai pas de PC Linux sous la main pour vérifier, mais c’est possible que Nautilus puisse faire de la recherche dans les PDF (probablement après une indexation par tracker).

Zargos · Février 17, 2022, 4:35pm

Tu peux aussi utiliser poppler-utils, pdfgrep

anon93295908 · Février 17, 2022, 4:56pm

Merci

mais le soucis c’est que j’aime bien accéder à mes documents et à mes archives un peu partout sur terre.

Zargos · Février 17, 2022, 5:02pm

moi aussi. Pour ça j’ai mon propre serveur de fichier, un NAS.

anon93295908 · Février 17, 2022, 5:11pm

Bonne idée mais je pensais un service online que je payerai

mes notes soient accessibles de partout ( solution Nas, ou cloud éthique)
que je puisse capturer des pages webs ( printasyoulike)
que je puisse rechercher des mots dans les pdfs ( pdf grep, google drive)

j’avais penser à Joplin mais la capture de page est crade.

Almtesh · Février 20, 2022, 9:35am

Bonjour,

Je peux le faire depuis mon ordinateur avec les fichiers PDF stockés dessus.
En fait, c’est très intégré au bureau Plasma (KDE) et je n’ai qu’à taper le terme que je cherche dans le menu des application et j’ai une liste de fichiers texte, PDF et autre qui le contiennent.
Les moteurs de recherche libres, ça existe.

Acksop · Février 23, 2022, 7:21pm

la plupart du temps quand je tombe sur un article intéressant je fais de même. Mais lorsque le site en lui même est complet sur un domaine, je l’archive à l’aide de httrack pour pouvoir le reployer sur des pages que j’appelle mes madcats. De même il m’arrive parfois de sauvegarder uniquement l’article au format html et de redéfinir le code source pour en avoir une archive propre.

Je trouve la pratique utile pour les enfants que l’on voudrai former au web.
Car en fait pas besoin de connaitre la recherche google pour apprendre à utiliser un navigateur.
De plus de cette manière on peut contrôler le contenu auquel ils ont accès.

c’est une bonne pratique

Actuellement j’ai trois version de madcats.

DarkGagan · Février 24, 2022, 12:14am

Des fois y’a un bouton imprimer (sites officiels), des fois non. Dans ce cas je vire tout ce que je veux pas de la page via l’inspecteur (ouiiii mais ma femme elle efface les noeux html… ) puis j’imprime en pdf