Voilà, depuis Inkscape 0.46 (Je crois) on peut “traiter” les document au format pdf. Les camarades du journal dont je gère le site internet me faisaient parvenir les articles aux format word et je me débrouillais avec la mise en page. le dernier m’est parvenu avec en plus une version pdf que j’ai ouverte avec Inkscape. Pas de problème pour récupérer les textes des articles.
Mais voilà, si je me contente d’un copier-coller ils se retrouvent formatés comme dans le journal. exemple pour être plus clair: j’ai un article sur trois colonnes; je le copie et le colle; il est bien en une seule colonne, d’un seul tenant mais avec les passages à la ligne “comme sur la page du journal” et non avec les passages à la ligne voulu par l’auteur. Les paragraphes, quoi.
En gros, comment faire pour le déformater quitte à ce que je remette les line-break moi-même?
Pour la mise en page InkScape c’est pas terrible, pour faire ce genre de truc utilise Scribus, une fois que tu as récupéré ton document. Tu peux aussi reformater le texte sous Abiword par exemple !
Merci. Là, c’est juste pour récupérer le texte du document reçu au format PDF.
Je récupère mieux avec Inkscape. Je n’avais pas pensé à Abiword car j’ai la mauvaise habitude de conserver OpenOffice alors que Abiword me convient très bien.
J’ai trouvé une solution avec Gedit et le greffon joindre/couper les lignes.
Il va vraiment falloir que je me remette à Abiword.
Scribus ne fonctionne pas aussi bien pour récupérer les textes. Cela chevauche lors de la sélection d’une colonne à l’autre. Je pense que cela vient de la conversion du document à l’imprimerie. Il a du être converti à partir de XPress.
Sinon, j’ai trouvé deux autres solutions de bidouilles: Après avoir mis les line breaks sous Bluefish, un petit coup de nettoyage avec Tidy; ou se servir de Amaya et coller le texte dans une fenêtre source à la place de l’environnement WYSWYG.
pdftotext
pdftotext version 3.02
Copyright 1996-2007 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-layout : maintain original physical layout
-raw : keep strings in content stream order
-htmlmeta : generate a simple HTML file, including the meta information
-enc <string> : output text encoding name
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert page breaks between pages
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-q : don't print any messages or errors
-cfg <string> : configuration file to use in place of .xpdfrc
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information
Tiens, vous avez vu que depuis une mise-à-jour (Je ne sais pas laquelle) Inkscape n’ouvre plus les fichiers pdf?
Pour ceux que cela intéresse, il suffit d’installer la version 0.46-2 de Inkscape actuellement dans sid.