Convertir PDF en ODT ou WORD

fleurdelyse · Décembre 1, 2023, 1:23pm

J’ai tenté de convertir un fichier pdf en docx sur Libre Office Writer ce qui ouvre Libre Office Draw et montre un fichier modifié dans sa forme et difficilement éditable.
Je veux éviter les applis internet qu’on annonce gratuites mais qui sont finalement payantes. J’ai installé les paquets pdftk et poppler-utils mais ne connaît pas la syntaxe de ces commandes ou outils. J’aimerais donc connaître la façon de convertir en ligne de commande un pdf en odt, word ou xml afin de pouvoir éditer le fichier. Merci de me renseigner à ce sujet.

limax · Décembre 1, 2023, 5:57pm

Bonjour
Pour modifier un pdf directement, j’utilise master-pdf-editor .
Attention si tu veux une version gratuite

Master PDF Editor 4 though, which is free for non-commercial use with no restrictions

Il faut la version 4 (et non la 5 qui est payante).
master-pdf-editor-4.3.89_qt5.amd64.deb

Tu as les liens ici pour télécharger le deb

limax · Décembre 1, 2023, 6:15pm

Et si tu veux absolument le convertir en odt alors ouvre le pdf directement avec soffice (ou libre-office).

dindoun · Décembre 1, 2023, 9:19pm

bah justement il dit que ça ne marche pas bien

limax · Décembre 1, 2023, 9:33pm

ah oui tu as raison^^

Le plus souvent je récupère le texte avec pdftotext, les images avec pdfimage et je refais le document en markdown ou en tex.

josephtux · Décembre 2, 2023, 5:27pm

Et pour éditer directement un pdf, Debian offre xournal

loicmtp · Décembre 2, 2023, 5:46pm

Y a une commande gérée via python pip

pdf2odt

dindoun · Décembre 3, 2023, 2:35pm

salut,
Convertir PDF en ODT (En ligne et Gratuit) — Convertio : marche très bien , très rapide, très léger (Mopdf x1.3) ;1 essai
Convertir PDF en ODT - rapide, en ligne, gratuit - PDF24 Tools : marche très bien , peu rapide, lourd (Mopdf x 16) ; 1 essai

pdf2odt : imparfait
python3 -m venv ytdlp-poub&& source ytdlp-poub/bin/activate && pip install pdf2odt tesseract pytz && pdf2odt --pdf machin.pdf --tesseract machin.odt ; echo "ne pas oublier de détruire le dossier ytdlp-poub"

loicmtp · Décembre 3, 2023, 5:42pm

Ok

Tschuss

ps: j’ai la solution…ca m’a pris 10 sec pour faire la conversion et ca marche comme un charme meme la mise en page est sublime

dindoun · Décembre 3, 2023, 7:03pm

tu as fait comment?
perso, j’ai eu des erreurs avec pdf2odt; Tu as utilisé tesseract? Tu as du texte ou que des images?

flyingbuddy · Décembre 6, 2023, 2:12pm

Dans les dépôts Debian, « Tschuss », j’ai pas trouvé !!!

Par contre, avec les poppler-utils,
https://packages.debian.org/sid/poppler-utils
et avec
$ pdftotext -layout monpdf.pdf montextdupdf.txt

On récupère le texte. Ce qui dans bien des cas, peut être suffisant…

J’avais par le passé utilisé des solutions type scanner ( paper(s) ou gimagereader, je ne sais plus trop… ), un peu « lourdes »…

Je n’ai pas encore essayé py2pdf ,
mais selon la doc ci-dessous
pdf2odt · PyPI …
C’est un outil de même type, mais sans GUI
Peut-être que le rendu, sans trop de réglages, est de bonne, qualité, à voir.

Mais loicmtp, si tu pouvais nous en dire un peu plus, si tu glisses sur une piste Libre…

flyingbuddy · Décembre 5, 2023, 3:02pm

Quelqu’un a-t-il déjà essayé ou utilisé pandoc pour cela ?

https://pandoc.org/

https://packages.debian.org/bookworm/pandoc

dindoun · Décembre 5, 2023, 3:43pm

Pandoc can convert to PDF, but not from PDF.
pandoc ne peut pas convertir un fichier pdf

flyingbuddy · Décembre 5, 2023, 3:49pm

Je viens de réessayer… aussi et pas de plus de conversion non plus à partir de odg : format non reconnu!

fleurdelyse · Décembre 9, 2023, 4:59pm

Merci dindoun. Convertio fait bien la job. Un jeu d’enfant! Est-ce que le script que tu as indiqué permet la conversion du fichier pdf « machin » en fichier .odt?

dindoun · Décembre 10, 2023, 8:26pm

oui, le script convertit mais le résultat est à vérifier ( perso j’ai eu des paragraphes où il ne fallait pas sur 1 exemple )

fleurdelyse · Décembre 17, 2023, 5:33pm

Merci. Le visionneur de document Okular permet de rendre un document dans un autre format (moteur de rendu). Dans le guide de l’utilisateur on peut voir l’icône de rendu en ODT dans la même colonne que Epub, Fiction Book, Markdown, PDF et Text (j’en oublie un ou deux) mais dans la version stable de Debian (23.08.4) qui est installé sur mon portable, l’icône ODT ne figure pas. Est-ce que ce format a été retirée par le développeur de l’application ou est-ce que je devrais avoir une autre version (plus récente?, plus ancienne?) de l’application via Flatpak par exemple? J’irai voir du côté de Flatpak (environnement bac à sable). Si vous connaissez la façon d’accéder au rendu en ODT, me le faire savoir svp. Joyeuses Fêtes.

dindoun · Décembre 17, 2023, 5:50pm

je viens de trouver
okular-backend-odt
mais je ne trouve rien avec epub/odt ou autre dans les préférences ou les menus

fleurdelyse · Décembre 17, 2023, 6:16pm

Intéressant. Via l’application Okular, quand on accède à la configuration des moteurs de rendu, on voit le format epub main non le format odt (qui apparaît toutefois comme un choix possible selon Okular dans le guide l’utilisateur du site internet). De quelle façon le backend que tu mentionnes est-il accessible, sur la ligne de commande? en mode graphique de l’application?
Merci d’apporter quelques précisions si cela est possible.

dindoun · Décembre 17, 2023, 6:23pm

le CMS spip contient un odt to spip donc odt vers html/javascript,
cela pourrait être une solution bien que pas parfaite:

créer un site spip
automatiser l’import d’odt vers spip, « publier » l’article
page html vers pdf

pour okular :
je n’ai pas trouvé la configuration des moteurs de rendus depuis le gui ( faut-il regarder les fichiers de conf directement ?à
quant à okular-backend-odt, je n’ai aps compris à quoi il servait

mais est-ce que ça aide?