Retour à l'accueil du blog
Web Scraping - Définition, utilité & légalité
3
 min
Monter en compétences
 Publié le 
18/1/2021

Web Scraping - Définition, utilité & légalité

C’est un terme qui revient souvent : le Web Scraping. A quoi cela peut-il servir et pourquoi l’utilise-t-on autant ? Et bien, la raison est que le web regorge d’informations. Imaginez un instant que vous puissiez récolter cette information pour vous, les possibilités que cela pourrait vous ouvrir. C’est pour cela que ce domaine est devenu très populaire.

Qu’est ce que le Web Scraping ?

Définition


Le web scraping est simplement le processus de collecter de la donnée provenant du web. La raison pour laquelle on utilise les techniques de web scraping est que l’on souhaite agrémenter des bases de données existantes pour permettre de faire des analyses plus poussées sur un phénomène.


Web Scraping - Definition
Qu'est ce que le web scraping

Pourquoi scraper des sites ?


Il y a énormément de raisons pour lesquelles effectuer du web scraping. Voici quelques exemples : 


  • On scrape souvent des sites comme LinkedIn pour obtenir des informations complémentaires sur un certain type de profils. Par exemple, si vous êtes une agence de marketing qui offre des prestations d’optimisation SEO, votre équipe pourrait scraper des données LinkedIn pour obtenir les profils des équipes marketing des entreprises françaises. 
  • Vous pourriez aussi vouloir obtenir des statistiques sur un domaine et aller sur Wikipédia récupérer l’information. 
  • Il est possible que vous souhaitiez effectuer de l’analyse sémantique sur différents corpus de texte. Pour ce faire, vous pourriez scraper des sites comme Amazon ou Twitter pour avoir des reviews ou des petits corpus de texte écrits par des internautes. 



Bien sûr, ceci n’est pas une liste exhaustive mais c’est pour vous donner une idée de tous les champs d’application du domaine. 


Est ce que le web scraping est légal ?


C’est une zone grise et c’est pourquoi on se suppose souvent la légalité du web scraping. Pour faire simple, le web scraping est régi par les conditions générales d’utilisation du site sur lesquelles les données vivent. S’il est formellement interdit de collecter la donnée appartenant à un site, vous vous exposez à des sanctions si vous tentez tout de même de la récupérer. 


Dans les faits, il est très peu probable encore de vous faire “attraper” car il est difficile de retracer l’identité du scraper. Cependant, il n’est pas improbable sur les sites qui ont l’habitude de se faire scraper que votre adresse IP se fasse bannir si elle est repérée comme ayant une activité frauduleuse. 


Si vous souhaitez en savoir plus sur l’environnement légal, n’hésitez pas à regarder cet article de Seraphin.Legal 

Les outils pour faire du web scraping


Si vous souhaitez connaître les différents moyens de faire du web scraping, vous pouvez choisir des outils no-code comme : 

  • Octoparse
  • ParseHub
  • Webscraper.io

Bien que ces outils soient payants, ils ont l’avantage de vous simplifier la tâche quant à l’aspect technique du web scraping. En revanche, il est souvent probable que vous n’ayez pas une grande flexibilité quant à ce que vous pouvez scraper. Si vous recherchez cette flexibilité, nous vous conseillons d’apprendre Python ainsi que deux librairies extrêmement utiles qui sont : 


  • BeautifulSoup 
  • Scrapy


En plus de la flexibilité, ces outils sont gratuits. Vous devrez cependant passer un peu de temps à apprendre à les utiliser. 

Où apprendre à faire du web scraping 


Si vous cherchez à apprendre à faire du web scraping pour collecter de la donnée et éviter de vous faire bannir par les sites, nous vous conseillons d’aller regarder les bootcamps en Data qui vous apprennent très souvent ces techniques. N’hésitez pas à regarder nos formations en Data Science par exemple si vous souhaitez vous faire une idée ! 



Rejoignez la communauté sur JULIE !

Python, SQL, gestion de projet Data, toutes les compétences à acquérir pour monter en compétences avec cours en ligne gratuits.

Alain Demenet
Écrit par
Alain Demenet
 - 
Développeur

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes