Bonjour,
Je scanne des documents en 300 PPP en niveaux de gris. Les images (.png) sont excellentes … à mon avis. Contraste bien marqués et les lettres ont l’air “lisibles”.
Pour convertir ces scans en texte, j’utilise gscan2pdf et comme outil dans ce logiciel : tesseract.
Les deux autres outils (Gocr et cunéiforme) ne semblent pas vouloir fonctionner. Je sélectionne les images importées dans le logiciel puis demande la reconnaissance des caractère et là … attente infinie.
Avec tesseract, cela fonctionne mais … chaque mot est “mis dans une boîte”. La reconnaissance est parfaite pour moi sauf ces boîtes.
J’enregistre la reconnaissance au format de texte (.txt) mais la présentation de la reconnaissance des caractère reste identique : chaque mot est placé dans une “boîte”.
Voici un extrait du code généré :
[code]
CONCOURS DE DENTELLE
Belgique : A l’ occasion de sa 4ème exposition internationale des 04 et 05 octobre 2014 à Gembloux, << Le Fuseau de |’Ourchet >> organise un concours sur le thème << Dentelles d'ici et d'ailleurs >> soit en dentelle contemporaine ou en dentelle traditionnelle. Uniquement des œuvres inédites. Renseignements et formulaire d'inscription : nadinelamirov@hotmal|.com 010/41.79.86 ou 0477/37.94.27
Sous Ubuntu (jusqu’à 13.04), je n’avais ce genre de problème d’affichage.
Pourquoi Gscan2pdf enregistre-t-il un fichier .html alors que je demande un fichier texte à l’enregistrement ?
Quelqu’un aurait-il une solution pour éventuellement supprimer toutes les “box” contenues dans le fichier .html et pour me rendre le contenu de la reconnaissance de caractère exploitable ?
Édition du message
(références des logiciels)
Debian 7.1
Gscan2pdf 1.0.4
LibO Write 4.1.2.3
Iceweasel 17.0.10
Le scanner : Epson perfection V30
Merci d’avance.