PDF mal scannés

NUMÉRIQUE + DE 2 ANS

Publiée par :

Le 07/03/2018 à 21h35 232 vues

Question d'origine :

Bonjour le guichet, Je cherche des institutions et des contacts, y compris à la BM Lyon, ayant un savoir-faire dans la numérisation et la reconnaissance de caractères. Je dois exploiter et extraire du texte de 500 pages 'mal scannées' : les pdf produits sont déformés par la pliure centrale du bouquin et le logiciel d' OCR s'y perd. Je suppose que d'autres ont rencontré le problème avant moi. J'envisage d'extraire des images non compressées des pdf et essayer de les retoucher soit en acceptant de programmer, soit par des outils de retouche d'image, mais le chantier est lourd. J'ai trouvé un unique lien sur internet vers une solution, mais mes tests sont encore balbutiant. J'aimerais identifier des institutions type archives, bibliothèques, écoles, avec une expérience et une pratique de la numérisation et de l'OCR, et un atelier numérique. Auriez-vous des pistes ? Merci d'avance. Dominique

Réponse du Guichet

bml_ecm - Département : Espace numérique

Le 08/03/2018 à 16h14

Bonjour,

Notre utilisation des logiciels OCR à la bibliothèque est plutôt basique. Nous ne pourrons donc pas proposer de solution efficace à votre problème.
L'espace numérique de la Part-Dieu utilise notamment le logiciel Find Reader qui reste un logiciel grand public.

Tournez-vous peut être vers des boutiques de reprographie ou des spécialistes de la conservation (le département Fonds anciens de la Part-Dieu n'utilise pas ce genre de logiciel).

Vous pouvez aussi essayer de retoucher vos images avec un logiciel de graphisme (type Gimp) et isoler les parties à scanner pour faciliter le travail à l'OCR.

Cordialement.