gscan2pdf problème d'encodage

Bonjour à tous,

j’ai installé tesseract et gscan2pdf sur ma machine Debian 8 + xfce.

Tesseract marche bien, mais j’e rencontre un problème avec les fichiers texte produits par gscan2pdf : à l’ouverture j’ai le message suivant : “le document n’est pas en UTF-8 valide”.

En jouant avec les encodages (les divers ISO) je parviens à afficher quelque-chose, mais ce ne sont pratiquement que des signes cabalistiques avec un seul mot par ligne. Bref pas utilisable.

J’ai cherché dans les paramètre de gscan2pdf : rien pour choisir son encodage.

Si quelqu’un avait des pistes, voire une solution…

Merci !

Ton système est en quelle langue? Ici, par exemple, “Français (Canada)”:

$ env | grep LANG
LANG=fr_CA.utf8
GDM_LANG=fr_CA.utf8

Assure-toi d’avoir la langue avec “.utf8”, pour voir / changer celles-ci:

sudo dpkg-reconfigure locales

En complément:
https://wiki.debian.org/ChangeLanguage

J’ai bien fr_FR.utf8. Si ce n’était pas le cas, je suppose que dès l’étape Tesseract le problème se manifesterait.

Edit : jusqu’ici j’essayais d’ouvrir le fichier avec Mousepad ; installation de Gedit et nouvel essai : là, ça marche, même si les sauts de ligne intempestifs demeurent.

Bonjour,

Sur Stretch pas de pb.

Tu peux lancer gscan2pdf en console avec la commande

`~$ gscan2pdf --log=nom de fichier log.log’

C’est bavard et ça t’aidera sans doute à y voir plus clair.
Chez moi ça donne

~$ gscan2pdf --log=/home/toto/tmp/gscan2pdf.log
INFO - Starting gscan2pdf 1.3.9
INFO - Log level DEBUG
INFO - Using fr_FR.utf8 locale

En ce qui me concerne j’utilise OCRfeeder…

@+

`

En fin de compte, j’ai de bien meilleurs résultats en utilisant tesseract tout seul. Du coup, je pense bricoler un script en m’aidant de cette page : https://www.linux.com/learn/how-scan-and-ocr-pro-open-source-tools

Souci : ce sera mon dépucelage en matière scriptature, du coup j me pose pas mal de questions…