Comment surmonter ces difficultés de retranscription d'archives à l'aide d'une IA ?
Question d'origine :
Bonjour,
Je souhaite retranscrire quelques archives mises en ligne par le service d'archives d'un departement à l'aide de l'IA
Si la réponse que vous m'avez apportée sur les outils libres m'a beaucoup satisfaite, il n'empêche
que je me retrouve avec beaucoup de difficultés à lire le format de l'archive telle quelle (dans ce cas l'outil me mentionne que le texte est illisible ...)
Auriez-vous une piste à me proposer pour parer à cette difficulté ?
Merci infiniment pour votre aide
Réponse du Guichet

La transcription automatique de documents historiques par l'IA peut se heurter à des obstacles liés à la lisibilité de l'écriture, l'état de conservation des documents ou la spécificité du contenu. Des solutions existent, comme l'amélioration de la qualité des numérisations ou l'utilisation d'outils spécialisés comme Transkribus. Des projets de recherche comme CREMMA ou HIMANIS travaillent également sur ces enjeux pour perfectionner les technologies de reconnaissance de texte manuscrit.
Bonjour,
Vous souhaitez retranscrire des archives à l'aide de l'IA, mais les outils que vous avez utilisés vous indiquent que le texte est illisible
Il est nous difficile de vous répondre précisément sans connaître la nature exacte et le format des documents.
Les outils d'IA pour la transcription de documents historiques, comme la technologie HTR (Handwritten Text Recognition), sont conçus pour traiter une variété de formats, y compris les documents manuscrits. Le problème est plus susceptible d'être lié à la qualité ou à la lisibilité de l'écriture elle-même, plutôt qu'au format du fichier.
Voici quelques points à considérer :
Si l'écriture est particulièrement difficile à déchiffrer, même pour un œil humain, l'IA pourrait avoir du mal à la traiter.
Si l'écriture dans les documents est très différente de ce sur quoi le modèle a été entraîné, cela pourrait expliquer les difficultés.
Les documents d'archives peuvent être anciens et dans un état de conservation variable. Cela peut affecter la lisibilité pour l'IA.
Certains types de documents, comme les formulaires administratifs ou les manuscrits en latin ancien, peuvent nécessiter des modèles spécialisés.
Voilà quelques pistes pour régler votre problème :
Vérifier si l'outil utilisé est approprié pour le type spécifique de document
Essayer d'améliorer la qualité des images numérisées.
Envisager l'utilisation d'une plateforme comme Transkribus, qui permet d'entraîner des modèles sur des corpus spécifiques.
Enfin, au cas où vous souhaitiez demander de plus amples conseils à des experts, voilà quelques projets de recherche sur la transcription des documents d’archives:
CREMMA Consortium Reconnaissance d'Écriture Manuscrite des Matériaux Anciens
HIMANIS HIstorical MANuscript Indexing for user-controlled Search
SIMARA : conversion automatique d'instruments de recherche manuscrits
LECTAUREP L'intelligence artificielle appliquée aux archives notariales
Bonne journée,
DANS NOS COLLECTIONS :
Ça pourrait vous intéresser :
Quels documents me conseillez-vous au sujet de la gestion...
Commentaires 1
