Poser une question

Des bibliothécaires vous répondent en 72h maximum.

je pose ma question

Chercher une réponse

recherche multi-critères

Comment ça marche

Quelles questions ?
Qui répond ?
Dans quel délai ? tout savoir

Accueil > En cours > web scraping

web scraping

par vasco69, le 12/01/2021 à 16:33 - 145 visites

Bonjour (et bonne année),
Dans le cadre d’un travail de recherche, je cherche un logiciel libre permettant de récupérer le contenu textuel d’un site Internet (i.e. le contenue de plusieurs pages web relevant d’un même domaine). L’objectif serait de les récupérer sous la forme d’un ou plusieurs fichiers texte afin de pouvoir conduire une analyse de contenu.
Bien cordialement,

Réponse du Guichet du savoir

par bml_ecm, le 15/01/2021 à 14:59

Réponse de l’Espace numérique

Bonjour,

Vous souhaitez récupérer le contenu textuel d’un site internet et extraire des informations de pages web de manière automatisée.
Ce type d’extraction peut être particulièrement utile pour les entreprises qui cherchent à récupérer des informations sur le web.
Il est à noter qu'il est légal de récupérer des données de sites web, car ces mêmes données sont disponibles en libre accès. Par contre, pour un usage autre que personnel, l’utilisation de ces données peut poser question, en particulier dans le cadre du RGPD (règlement général sur la protection des données) en place depuis mai 2018.
Une page Web, affichée dans un navigateur Web, constitue la base de tout site web. Une page se crée actuellement à partir de deux langages fondateurs, le HTML5 (HyperText Markup Language) et le CCS3 (Cascading Style Sheet).

Un outil utile pour lire des sites web en étant non connecté est un Aspirateur de site Web.
Un aspirateur de site Web est un type de logiciel qui télécharge toutes les données contenues par un site Web pour les sauvegarder sur un support de mémoire local de l'utilisateur, ce qui permet de consulter les pages correspondantes sans être connecté à Internet. Il est possible de naviguer à l'intérieur du site selon divers niveaux de profondeurs que vous définissez lors de l'importation des données du site avec l'aspirateur de sites. Par exemple, vous pouvez utiliser HTTracker qui fonctionne sous Windows.
Cependant, ces outils ne vous permettront pas d’organiser les données récupérées et de les exploiter.

La technique du Web Scraping est plus performante pour organiser les données récupérées.
Les outils de Web scraping permettent en effet de collecter les données d’un site internet et de les exporter sous différents formats. Il existe des outils gratuits et des outils payants. Certains sont plus simples d’utilisation que d’autres et permettent de récupérer plus ou moins de données.
Récupérer des données peut être relativement simple et rapide, mais il est nécessaire de bien préparer son scraping. Il vous faudra choisir votre outil et surtout créer une structure des données à récupérer afin d’avoir un document contenant les données qui vous intéressent uniquement. Pensez aussi à faire un test à petit échelle avant de vous lancer dans une longue extraction.

Voici quelques outils gratuits :

Data scraper et Webscraper fonctionnent avec une extension de Google chrome, permettent l’exportation dans des formats CVS (format texte avec données séparées par des virgules) ou XLS (Excel).
Ces deux outils permettent de gérer de gros volumes de données, mais Data scraper n’est gratuit que 500 pages par mois..

Scrapy est développé avec le langage de programmation Python et se présente comme une alternative efficace et open source.

Parsehub permet de naviguer sur un ou plusieurs sites web. Il peut reconnaitre des fichiers compliqués et proposer des fichiers de sortie en différents formats.

D’autres outils payants :
Import.io permet de scraper rapidement des données sans coder et au format CVS.

Octoparse offre une interface facile d’utilisation et permet de récupérer des pages en illimité sur les sites web.

De nombreuses ressources relatives aux standards du Web sont disponibles à la Bibliothèque Municipale de Lyon, comme le livre HTML5 et CSS.
De nombreux livres de programmation sont disponibles comme Python et javascript pour les nuls ou Programmer en Python.

Les espaces numériques de la BmL mettent à disposition des ressources de formation, notamment à la bibliothèque de la Part-Dieu. Un cours sur Python est proposé sur la plateforme Vodéclic avec un module entier dédié au Web parsing sur la plateforme Vodeclic (en anglais : « The beautiful soup parser for Python »).
  • 1 vote

Rester connecté

guichetdusavoir.org sur Twitter

s'abonner aux flux RSS

Les astuces du Guichet du Savoir

Comment trouver des infos sur


un artiste et ses œuvres
des films et des réalisateurs
une pièce de théâtre
des articles de presse
le logement
des livres jeunesse
des revues scientifiques
le droit d'auteur
mentions légales - contact