Guichet Du Savoir
http://www.guichetdusavoir.org/

PDF mal scannés
http://www.guichetdusavoir.org/viewtopic.php?f=2&t=74915
Page 1 sur 1

Vercoquin [ 07/03/2018 à 22:35 ]

Bonjour le guichet,

Je cherche des institutions et des contacts, y compris à la BM Lyon,
ayant un savoir-faire dans la numérisation et la reconnaissance de caractères.

Je dois exploiter et extraire du texte de 500 pages 'mal scannées' :
les pdf produits sont déformés par la pliure centrale du bouquin et le logiciel d' OCR s'y perd.

Je suppose que d'autres ont rencontré le problème avant moi.
J'envisage d'extraire des images non compressées des pdf et essayer de les retoucher soit en acceptant de programmer, soit par des outils de retouche d'image, mais le chantier est lourd.

J'ai trouvé un unique lien sur internet vers une solution, mais mes tests sont encore balbutiant.

J'aimerais identifier des institutions type archives, bibliothèques, écoles, avec une expérience et une pratique de la numérisation et de l'OCR, et un atelier numérique.

Auriez-vous des pistes ?

Merci d'avance.

Dominique

Réponse attendue le 10/03/2018 - 22:03


bml_ecm [ 08/03/2018 à 17:14 ]

Bonjour,

Notre utilisation des logiciels OCR à la bibliothèque est plutôt basique. Nous ne pourrons donc pas proposer de solution efficace à votre problème.
L'espace numérique de la Part-Dieu utilise notamment le logiciel Find Reader qui reste un logiciel grand public.

Tournez-vous peut être vers des boutiques de reprographie ou des spécialistes de la conservation (le département Fonds anciens de la Part-Dieu n'utilise pas ce genre de logiciel).

Vous pouvez aussi essayer de retoucher vos images avec un logiciel de graphisme (type Gimp) et isoler les parties à scanner pour faciliter le travail à l'OCR.

Cordialement.

Réponse attendue le 12/03/2018 - 17:03