Gscan2Pdf met tout en "boîte"

Papy_Octet · Février 21, 2016, 7:42pm

Bonjour,

Je scanne des documents en 300 PPP en niveaux de gris. Les images (.png) sont excellentes … à mon avis. Contraste bien marqués et les lettres ont l’air “lisibles”.

Pour convertir ces scans en texte, j’utilise gscan2pdf et comme outil dans ce logiciel : tesseract.
Les deux autres outils (Gocr et cunéiforme) ne semblent pas vouloir fonctionner. Je sélectionne les images importées dans le logiciel puis demande la reconnaissance des caractère et là … attente infinie.

Avec tesseract, cela fonctionne mais … chaque mot est “mis dans une boîte”. La reconnaissance est parfaite pour moi sauf ces boîtes.
J’enregistre la reconnaissance au format de texte (.txt) mais la présentation de la reconnaissance des caractère reste identique : chaque mot est placé dans une “boîte”.
Voici un extrait du code généré :

[code]

CONCOURS DE DENTELLE

Belgique : A l’ occasion de sa 4ème exposition internationale des 04 et 05 octobre 2014 à Gembloux, << Le Fuseau de |’Ourchet >> organise un concours sur le thème << Dentelles d'ici et d'ailleurs >> soit en dentelle contemporaine ou en dentelle traditionnelle. Uniquement des œuvres inédites. Renseignements et formulaire d'inscription : nadinelamirov@hotmal|.com 010/41.79.86 ou 0477/37.94.27

...

[/code] Et l'image d'une partie du document scanné : [img]http://imagizer.imageshack.us/v2/640x480q90/9/tldu.png[/img] Pour pouvoir exploiter ce résultat de la reconnaissance, j'ai comme solution de renommer le fichier en .html puis de l'ouvrir dans Iceweasel. Là, le texte est affiché sans que les boîtes soient visibles. Je sélectionne ensuite le texte affiché à l'écran de Iceweasel et le copie dans LibO Writer où je peux un peu mieux exploiter la reconnaissance de caractères malgré la présence des boîtes qui séparent, cette fois, des groupes de mots (petits paragraphes du document original.).

Sous Ubuntu (jusqu’à 13.04), je n’avais ce genre de problème d’affichage.

Pourquoi Gscan2pdf enregistre-t-il un fichier .html alors que je demande un fichier texte à l’enregistrement ?

Quelqu’un aurait-il une solution pour éventuellement supprimer toutes les “box” contenues dans le fichier .html et pour me rendre le contenu de la reconnaissance de caractère exploitable ?

Édition du message
(références des logiciels)
Debian 7.1
Gscan2pdf 1.0.4
LibO Write 4.1.2.3
Iceweasel 17.0.10
Le scanner : Epson perfection V30

Merci d’avance.

Zbf · Février 21, 2016, 7:42pm

Simple, tu l’ouvres dans iceweasel, tu l’imprimes (comme ça tu n’as plus les boites), et tu le rescannes pour le passer dans un logiciel OCR.

Non, mais dans iceweasel, si tu fais un CTRL+S, tu peux choisir le format de sortie “texte”. Après, je trouve ça peu pratique, et le résultat ne sera pas parfait, mais si ça peut te dépanner une fois…

Le manuel de gscan2pdf est atypique.
manpages.debian.org/cgi-bin/man. … &locale=en
Il parle des étapes de compilation… ça n’a rien à faire dans un man il me semble.

Pas de bug remarqué à ce sujet: bugs.debian.org/cgi-bin/pkgrepor … t=unstable

Papy_Octet · Février 21, 2016, 7:42pm

Bonjour Zbf,
Lorsque j’imprime dans un .pdf, que j’imprime la page avec Ctrl+S, rien n’y fait, le “cadre” autour de chaque petit paragraphe est présent et perturbe la mise-en-page ultérieure quand je place ces textes dans mon blog.

J’ai joint le fichier .odt contenant le résultat du scan. On y voit les “boîtes” qui englobent chacun des petits paragraphes et qui perturbent la future mise en page.

Le fichier d’origine généré par gscan2pdf (format .txt ou .html) est refusé en pièce jointe : “Le chargement a été rejeté car le fichier envoyé a été identifié comme un éventuel vecteur d’attaque.”

A+
Kid2013_4.odt (31.8 KB)

Zbf · Février 21, 2016, 7:42pm

Ehe, ma 1ère phrase était une boutade, je parlais d’imprimer (sur papier) le document, mais à ne pas faire bien sûr

Je vois effectivement les cadres de découpage en paragraphes.
Un moyen de les virer, c’est de tout sélectionner (CTRL+A), de copier (CTRL+C) puis de les recoller dans un nouveau document, non pas avec un copier coller classique, mais en allant dans le menu Edit puis “Collage spéciale” (Special Paste, je l’ai en anglais) et choisir “Texte non formaté”

Le mieux serait quand même d’avoir un logiciel OCR qui sâche faire cela directement, mais je n’en utilise pas donc je ne sais pas.

Papy_Octet · Février 21, 2016, 7:42pm

Oui, bien entendu. Mais chose curieuse, ce logiciel OCR et tesseract fonctionnaient très bien et … sans ces boîtes" entourant les mots ou les paragraphes … dans Ubuntu

Zbf · Février 21, 2016, 7:42pm

ça peut venir de plusieurs choses,

une configuration utilisateur différente, une option activée dans un cas et pas dans l’autre
une version de gscan2pdf différente
une option de compilation différente (bien que je pense qu’entre Debian et Ubuntu elles soient semblables)
une dépendance de gscan2pdf qui agit différemment
un bug

Papy_Octet · Février 21, 2016, 7:42pm

Bref, par évident de déterminer d’où vient le problème.

Je vais me tourner vers Python et voir ce qu’il est possible de faire

:text-happynewyear: Passez un excellent réveillon et BONNE ANNÉE À VOUS

Papy_Octet · Février 21, 2016, 7:42pm

Bonjour,

J’ai trouvé un moyen relativement aisé pour résoudre ce problème de “boîtes englobantes” dans le fichier .odt.

Après avoir regardé attentivement la “contruction” de ce fichier et de son contenu, je me suis rendu compte qu’il y avait une multitude de sections. Chacune de ces sections contient un des fameux “paragraphes” résultant de l’OCR.

En supprimant simplement toutes ces sections dans le “Navigateur de fichier > Sections ==> Éditer ==> Supprimer”, je récupère les textes sans les “boîtes” qui étaient de simples indicateurs de sections.

Cette manœuvre supprime les “indicateurs” de sections mais ne modifie pas le contenus de ces sections.

Merci pour vos aides.

BONNE ANNÉE 2014 à tous.

[i]Édition :

complété l’info.[/i]