Urbanbike

Index |
ou détaillée | Fil RSS | ATOM

OCR basique sous Acrobat

Version 8

dans usages

Vous avez un texte à ressaisir et pas franchement l'envie de jouer au clavier. Pourquoi ne pas utiliser l'option OCR (reconnaissance optique de caractères) d'Acrobat…? Ce rapide billet pour vous remettre en mémoire une procédure basique, peu orthodoxe mais qui fonctionne a minima

Première étape, scannez votre document (ici une page de Brassages, un livre dédié à la bière, première boisson dans l'histoire de l'humanité selon l'auteur, Jean-Pierre Romac).

Mais pas en basse résolution. Minimum 600 dpi pour un dessin optimum des lettres d'imprimerie…

image

Enregistrez vos fichiers en .pdf (c'est le plus plus pratique à mon avis) et ouvrez les dans Acrobat.
Puis lancez la reconnaissance du texte par OCR…

image

Dans les préférences, spécifiez la langue de votre document à reconnaître puis texte formaté et images

image

Hop, validez et laissez tourner l'application… Le texte reconnu est alors affichée en premier plan, sélectionnez l'ensemble et copiez-le tout dans TextEdit ou Word

image

Attention, les retours ligne sont ceux du scan et il vous faudra utiliser un recherche remplacement pour reconstruire les paragraphes.

Et, bien entendu, il y aura — en fonction de la typographie du document imprimé — des reconnaissances parfois étranges. Ainsi les caractères accentués en capitales ou les unités de mesure, des G identifiés comme des C pour le terme Gruit, etc. Je les ai indiqués en rouge.

image

Vous pouvez lancer une recherche des caractères ou mots suspects (c'est-à-dire mal décryptés par l'opération d'OCR) mais vu l'aspect explosif d'Acrobat en ce cas, je préfère utiliser tout simplement ProLexis en balayage orthographique comme typographique dans TextEdit ou Word… Voilà.

le 07/10/2008 à 07:30 | .(JavaScript doit être activé pour visualiser cette adresse email) à JChris d'Urbanbike | #