Gscan2Pdf met tout en "boîte"

Bonjour,

Je scanne des documents en 300 PPP en niveaux de gris. Les images (.png) sont excellentes … à mon avis. Contraste bien marqués et les lettres ont l’air “lisibles”.

Pour convertir ces scans en texte, j’utilise gscan2pdf et comme outil dans ce logiciel : tesseract.
Les deux autres outils (Gocr et cunéiforme) ne semblent pas vouloir fonctionner. Je sélectionne les images importées dans le logiciel puis demande la reconnaissance des caractère et là … attente infinie.

Avec tesseract, cela fonctionne mais … chaque mot est “mis dans une boîte”. La reconnaissance est parfaite pour moi sauf ces boîtes.
J’enregistre la reconnaissance au format de texte (.txt) mais la présentation de la reconnaissance des caractère reste identique : chaque mot est placé dans une “boîte”.
Voici un extrait du code généré :

[code]

CONCOURS DE DENTELLE

Belgique : A l’ occasion de sa 4ème exposition internationale des 04 et 05 octobre 2014 à Gembloux, << Le Fuseau de |’Ourchet >> organise un concours sur le thème << Dentelles d'ici et d'ailleurs >> soit en dentelle contemporaine ou en dentelle traditionnelle. Uniquement des œuvres inédites. Renseignements et formulaire d'inscription : nadinelamirov@hotmal|.com 010/41.79.86 ou 0477/37.94.27

...
[/code] Et l'image d'une partie du document scanné : [img]http://imagizer.imageshack.us/v2/640x480q90/9/tldu.png[/img] Pour pouvoir exploiter ce résultat de la reconnaissance, j'ai comme solution de renommer le fichier en .html puis de l'ouvrir dans Iceweasel. Là, le texte est affiché sans que les boîtes soient visibles. Je sélectionne ensuite le texte affiché à l'écran de Iceweasel et le copie dans LibO Writer où je peux un peu mieux exploiter la reconnaissance de caractères malgré la présence des boîtes qui séparent, cette fois, des groupes de mots (petits paragraphes du document original.).

Sous Ubuntu (jusqu’à 13.04), je n’avais ce genre de problème d’affichage. :blush:

Pourquoi Gscan2pdf enregistre-t-il un fichier .html alors que je demande un fichier texte à l’enregistrement ?

Quelqu’un aurait-il une solution pour éventuellement supprimer toutes les “box” contenues dans le fichier .html et pour me rendre le contenu de la reconnaissance de caractère exploitable ?

Édition du message
(références des logiciels)
Debian 7.1
Gscan2pdf 1.0.4
LibO Write 4.1.2.3
Iceweasel 17.0.10
Le scanner : Epson perfection V30

Merci d’avance.

Simple, tu l’ouvres dans iceweasel, tu l’imprimes (comme ça tu n’as plus les boites), et tu le rescannes pour le passer dans un logiciel OCR. :stuck_out_tongue:

Non, mais dans iceweasel, si tu fais un CTRL+S, tu peux choisir le format de sortie “texte”. Après, je trouve ça peu pratique, et le résultat ne sera pas parfait, mais si ça peut te dépanner une fois…

Le manuel de gscan2pdf est atypique.
manpages.debian.org/cgi-bin/man. … &locale=en
Il parle des étapes de compilation… ça n’a rien à faire dans un man il me semble.

Pas de bug remarqué à ce sujet: bugs.debian.org/cgi-bin/pkgrepor … t=unstable

Bonjour Zbf,
Lorsque j’imprime dans un .pdf, que j’imprime la page avec Ctrl+S, rien n’y fait, le “cadre” autour de chaque petit paragraphe est présent et perturbe la mise-en-page ultérieure quand je place ces textes dans mon blog.

J’ai joint le fichier .odt contenant le résultat du scan. On y voit les “boîtes” qui englobent chacun des petits paragraphes et qui perturbent la future mise en page.

Le fichier d’origine généré par gscan2pdf (format .txt ou .html) est refusé en pièce jointe : “Le chargement a été rejeté car le fichier envoyé a été identifié comme un éventuel vecteur d’attaque.”

A+
Kid2013_4.odt (31.8 KB)

Ehe, ma 1ère phrase était une boutade, je parlais d’imprimer (sur papier) le document, mais à ne pas faire bien sûr :wink:

Je vois effectivement les cadres de découpage en paragraphes.
Un moyen de les virer, c’est de tout sélectionner (CTRL+A), de copier (CTRL+C) puis de les recoller dans un nouveau document, non pas avec un copier coller classique, mais en allant dans le menu Edit puis “Collage spéciale” (Special Paste, je l’ai en anglais) et choisir “Texte non formaté”

Le mieux serait quand même d’avoir un logiciel OCR qui sâche faire cela directement, mais je n’en utilise pas donc je ne sais pas.

Oui, bien entendu. Mais chose curieuse, ce logiciel OCR et tesseract fonctionnaient très bien et … sans ces boîtes" entourant les mots ou les paragraphes … dans Ubuntu :118

ça peut venir de plusieurs choses,

  • une configuration utilisateur différente, une option activée dans un cas et pas dans l’autre
  • une version de gscan2pdf différente
  • une option de compilation différente (bien que je pense qu’entre Debian et Ubuntu elles soient semblables)
  • une dépendance de gscan2pdf qui agit différemment
  • un bug

Bref, par évident de déterminer d’où vient le problème.

Je vais me tourner vers Python et voir ce qu’il est possible de faire :stuck_out_tongue:

:text-happynewyear: Passez un excellent réveillon et BONNE ANNÉE À VOUS :114 :obscene-drinkingcheers:

Bonjour,

J’ai trouvé un moyen relativement aisé pour résoudre ce problème de “boîtes englobantes” dans le fichier .odt.

Après avoir regardé attentivement la “contruction” de ce fichier et de son contenu, je me suis rendu compte qu’il y avait une multitude de sections. Chacune de ces sections contient un des fameux “paragraphes” résultant de l’OCR.

En supprimant simplement toutes ces sections dans le “Navigateur de fichier > Sections ==> Éditer ==> Supprimer”, je récupère les textes sans les “boîtes” qui étaient de simples indicateurs de sections.

  • Cette manœuvre supprime les “indicateurs” de sections mais ne modifie pas le contenus de ces sections.

Merci pour vos aides.

BONNE ANNÉE 2014 à tous.

[i]Édition :

  • complété l’info.[/i]