Question d'origine :
Bonjour (et bonne année),
Dans le cadre d’un travail de recherche, je cherche un logiciel libre permettant de récupérer le contenu textuel d’un site Internet (i.e. le contenue de plusieurs pages web relevant d’un même domaine). L’objectif serait de les récupérer sous la forme d’un ou plusieurs fichiers texte afin de pouvoir conduire une analyse de contenu.
Bien cordialement,
Réponse du Guichet
bml_ecm
- Département : Espace numérique
Le 15/01/2021 à 13h59
Bonjour,
Vous souhaitez récupérer le contenu textuel d’un site internet et extraire des informations de pages web de manière automatisée.
Ce type d’extraction peut être particulièrement utile pour les entreprises qui cherchent à récupérer des informations sur le web.
Il est à noter qu'il est légal de récupérer des données de sites web, car ces mêmes données sont disponibles en libre accès. Par contre, pour un usage autre que personnel, l’utilisation de ces données peut poser question, en particulier dans le cadre du RGPD (règlement général sur la protection des données) en place depuis mai 2018.
Une page Web, affichée dans un navigateur Web, constitue la base de tout site web. Une page se crée actuellement à partir de deux langages fondateurs, le HTML5 (HyperText Markup Language) et le CCS3 (Cascading Style Sheet).
Un outil utile pour lire des sites web en étant non connecté est un
Un aspirateur de site Web est un type de logiciel qui télécharge toutes les données contenues par un site Web pour les sauvegarder sur un support de mémoire local de l'utilisateur, ce qui permet de consulter les pages correspondantes sans être connecté à Internet. Il est possible de naviguer à l'intérieur du site selon divers niveaux de profondeurs que vous définissez lors de l'importation des données du site avec l'aspirateur de sites. Par exemple, vous pouvez utiliser HTTracker qui fonctionne sous Windows.
Cependant, ces outils ne vous permettront pas d’organiser les données récupérées et de les exploiter.
La technique du
Les outils de Web scraping permettent en effet de collecter les données d’un site internet et de les exporter sous différents formats. Il existe des outils gratuits et des outils payants. Certains sont plus simples d’utilisation que d’autres et permettent de récupérer plus ou moins de données.
Récupérer des données peut être relativement simple et rapide, mais il est nécessaire de bien préparer son scraping. Il vous faudra choisir votre outil et surtout créer une structure des données à récupérer afin d’avoir un document contenant les données qui vous intéressent uniquement. Pensez aussi à faire un test à petit échelle avant de vous lancer dans une longue extraction.
Data scraper et Webscraper fonctionnent avec une extension de Google chrome, permettent l’exportation dans des formats CVS (format texte avec données séparées par des virgules) ou XLS (Excel).
Ces deux outils permettent de gérer de gros volumes de données, mais Data scraper n’est gratuit que 500 pages par mois..
Scrapy est développé avec le langage de programmation Python et se présente comme une alternative efficace et open source.
Parsehub permet de naviguer sur un ou plusieurs sites web. Il peut reconnaitre des fichiers compliqués et proposer des fichiers de sortie en différents formats.
Import.io permet de scraper rapidement des données sans coder et au format CVS.
Octoparse offre une interface facile d’utilisation et permet de récupérer des pages en illimité sur les sites web.
De nombreuses ressources relatives aux standards du Web sont disponibles à la Bibliothèque Municipale de Lyon, comme le livre HTML5 et CSS.
De nombreux livres de programmation sont disponibles comme Python et javascript pour les nuls ou Programmer en Python.
Les espaces numériques de la BmL mettent à disposition des ressources de formation, notamment à la bibliothèque de la Part-Dieu. Un cours sur Python est proposé sur la plateforme Vodéclic avec un module entier dédié au Web parsing sur la plateforme Vodeclic (en anglais : « The beautiful soup parser for Python »).
DANS NOS COLLECTIONS :
Ça pourrait vous intéresser :
Commentaires 0
Connectez-vous pour pouvoir commenter.
Se connecter