Web scraping : les 3 bonnes pratiques pour un usage respectueux du RGPD et de la propriété intellectuelle.
Le web scraping est une technique formidable pour automatiser l'extraction de données et éviter ainsi les saisies à la main.
Les outils de scraping de données facilitent la vie des utilisateurs en automatisant la recherche et l’extraction d’informations.
Cette méthode pose toutefois des questions juridiques, tant au niveau de la protection des données et du RGPD (règlement général sur la protection des données), que du droit de la propriété intellectuelle. Il est également indispensable de vérifier les conditions générales d'utilisation des sites web avant de pratiquer le web scraping, car ces CGU définissent des règles strictes quant à l'utilisation des données et peuvent interdire certaines pratiques.
Dans ce guide, nous nous interrogeons sur :
- ce qu’est le web scraping ;
- la légalité de cette méthode, notamment vis à vis du RGPD et du droit de la propriété intellectuelle ;
- les bonnes pratiques pour pratiquer le web scraping de manière éthique et légale ;
- les risques et les sanctions encourues en utilisant le web scraping.
Vous êtes prêts ?
1- Qu'est-ce que le Web Scraping ?
La définition du web scraping
Le web scraping désigne le processus de récupération, d’extraction et d’organisation de contenu et de données de sites web à l’aide d’un logiciel.
Il est complexe, long et fastidieux de prendre des notes détaillées de données intéressantes sur les sites web.
En lieu et place de la saisie manuelle, le data scraping permet de récolter de grands volumes de données très facilement et rapidement, via des programmes ou des scripts. Généralement, les données ainsi obtenues sont dans un format lisible par un humain.
Le processus technique de scraping des pages web
Comment fonctionne techniquement le web scraping ? Un robot de scraping, que l’on appelle aussi “scraper”, cherchent à extraire des données sur les sites web.
Le scraper envoie une requête à un site web. Dès lors que le site web y répond, le robot analyse le document en recherchant les données demandées. Les données sont ensuite extraites puis converties dans un format lisible par les outils de web scraping.
Le web scraping peut se faire par le biais de l’API (interface de programmation d’application) d’un site web. En effet, si le site web met son API à disposition, celle-ci peut être utilisée pour extraire automatiquement des données dans un format lisible.
En revanche, certains sites sont protégés contre le web scraping. Dans ce cas, dès lors qu’un robot est identifié, l'accès au code source est bloqué. Alors, l’extraction ne peut être effectuée que via un copier-coller manuel.
Les utilisations du scraping de sites web
Le web scraping se présente comme une alternative au copier-coller manuel afin de permettre de gagner du temps. L’extraction du contenu est automatisée de manière à obtenir une base de données lisible et facilement exploitable rapidement tout en supprimant le risque d'erreur humaine.
Quels sont les usages du web scraping ?
Scraping de contenu
Le scraping de données peut avoir pour objectif d’extraire du contenu comme les avis client. Le web scraping sur des sites d'avis en ligne permet de surveiller sa e-réputation par exemple.
Scraping de prix
Le scraping de prix consiste à extraire les données concernant les tarifs des concurrents, dans l’optique de permettre à l’entreprise d’affiner sa stratégie tarifaire selon les tarifs du marché. Cet usage du web scraping est notamment courant en e-commerce.
De même, la plupart des sites de comparaison de prix utilisent le scraping web pour obtenir les informations des différents commerçants. Dans ce cas, le scraping de données peut s’apparenter à une forme de veille concurrentielle pour aider à la prise de décisions.
Scraping de contacts
Le scraping de contacts permet d’extraire des coordonnées, notamment mails ou téléphoniques. Les utilisateurs ont souvent pour objectif de mettre en place des campagnes de prospection commerciale. Il est souvent utilisé pour extraire des données de réseaux sociaux comme LinkedIn.
Cette technique est notamment utilisée par les spammeurs, ces sociétés qui vous appellent plusieurs fois par jour sous différents numéros de téléphone. Mais heureusement, pas que !
Scraping de données bancaires
Enfin, le scraping web peut-être utilisé pour automatiser la récupération des données bancaires en comptabilité. Pas besoin de demander d’autorisation à la banque ni de signer de mandat. Les informations sont directement collectées dans le logiciel comptable.
Les outils de web scraping
Pour automatiser la récupération des données, il est possible de coder soi-même son outil de web scraping ou tout simplement de s’équiper d’un logiciel.
Ces outils simplifient l’extraction automatique des données d’un site. Il suffit de :
- choisir les sites à explorer ;
- indiquer la nature du contenu à extraire : les prix par exemple ;
- programmer la fréquence d'extraction : utile effectuer une veille concurrentielle sur les prix ;
- le logiciel recueille les données et les livre au bon format.
Parmi ces outils de web scraping, nous pouvons citer :
- logiciels freemium : scraping bot, Octoparse et Apify ;
- logiciels payants : Brignt data et Mozenda.
2- Le web scraping est-il légal ?
Principe : le web scraping est légal
Aller sur une page web pour récolter des données peut apparaître comme du vol.
Cependant, le web scraping est légal. En effet, lorsqu’un site web publie du contenu, celui-ci est considéré comme public et peut donc être extrait.
🔎 Exemple : Les sites e-commerce publiant les prix des produits, chacun est libre de récupérer ces données. Les entreprises concurrentes peuvent tout à fait s’en servir pour produire des analyses du marché.
Cependant, ce principe a des exceptions.
Exceptions : le web scraping malveillant
Certaines entreprises désirent protéger leurs données, même lorsqu’elles sont accessibles sur leur site web. Ces données ont de la valeur et il n’est pas question de les offrir au tout venant. Certains éditeurs de site adoptent des solutions anti web scraping, pour éviter la collecte des données, automatiques comme manuelles via copier-coller.
De plus, certaines données ne sont pas ouvertes au public. Il s’agit des :
- données à caractère personnel,
- données relevant de la propriété intellectuelle et du droit sui generis sur les bases de données.
L’usage du scraping sur ces données peut relever du web scraping malveillant.
Ainsi, peut-être qualifié de web scraping malveillant, l’extraction de toutes les données que l’éditeur du site n’a jamais consenti à partager.
3- Web scraping et propriété intellectuelle
Web scraping et propriété intellectuelle : que dit la loi ?
Le code de la propriété intellectuelle donne un cadre au web scraping. En effet, l’article L. 342-3 du Code de la propriété intellectuelle autorise les usages suivantes :
- L'extraction ou la réutilisation d'une partie non substantielle : une personne qui a licitement accès à des données peut être autorisée par l'éditeur des sites internet à en extraire une partie. Cela doit être précisé dans les conditions générales d’utilisation.
- L’extraction à des fins privées : sous réserve de respecter certaines dispositions légales en matière de droits d’auteurs et de droits voisins, l’extraction à des fins purement privées est autorisée .
- L’extraction et la réutilisation d’une partie substantielle dans le cadre de l’enseignement : si les données ne sont utilisées que pour servir d’illustration dans le cadre de l’enseignement et de la recherche, à destination d’élèves ou d’enseignants, le web scraping est autorisé. Les données extraites doivent servir un usage exclusivement pédagogique, à l'exclusion de toute finalité commerciale.
Protéger ses bases de données : le droit sui generis
Pour protéger sa base de données, il existe le droit sui generis. Ce principe s’applique aux bases de données en tant que créations originales. Dans ce cas, il est possible de les protéger par les droits d’auteurs.
L’extraction des données, de l’ensemble ou d’une partie substantielle du contenu, est interdite. L’auteur de la base de données dispose de droits exclusifs sur celle-ci, personne d’autre ne peut la reproduire ou la diffuser, ni aucune version adaptée. La structure de la base de données est protégée par le droit d’auteur.
Pour protéger sa base de données du web scraping au titre du droit sui generis, il s’agit de remplir certaines conditions. La base de données (notamment de contenus) peut être protégée par le droit sui generis si celle-ci représente un “investissement substantiel”.
Si c’est le cas, la protection est accordée automatiquement pour une durée de 15 ans. Vous pouvez alors mettre votre base de données à disposition du public sans crainte pour son intégrité.
🔎 Exemple : C.Cass du 05 octobre 2022 : la société éditrice du site Entreparticuliers.com est condamnée au motif qu'elle a « procédé à l'extraction et la réutilisation d'une partie qualitativement substantielle du contenu » du site Leboncoin sans autorisation. La base données était protégée par le droit sui generis car représentant un investissement substantiel.
4 - Web scraping et RGPD
💡 Les données collectées dans le cadre du web scraping n’échappent pas aux règles du RGPD !
Cela signifie que si le logiciel d’extraction scrappe des données à caractère personnel, les principes du RGPD doivent être respectés, et notamment :
En cas de prospection réalisée suite à la récupération de données personnelles, recueillir le consentement des personnes concernées avant de les démarcher par mail ou par automate d’appel.
📝 En cas de prospection téléphonique ou postale, les règles sont particulières.
En effet, la base légale qui justifie les communications commerciales par courrier ou par téléphone (à l'exception des automates d'appels et des SMS) est l'intérêt légitime de l’entreprise. Vous devez toutefois informer la personne :
- de la finalité de l’utilisation de ses données avant la sollicitation ;
- de sa possibilité d’exercer son droit d'opposition à ce traitement et de l'existence de la liste d'opposition BLOCTEL.
Informer les personnes démarchées sur la manière dont vous avez collecté leurs informations et ce que vous comptez en faire (la finalité).
Donner la possibilité aux personnes d’exercer leurs droits RGPD, et notamment le d’opposition au traitement de leurs données obtenues par web scraping.
D’un autre côté, il convient pour les entreprises de rester vigilantes concernant les données personnelles qu’elles détiennent sur leur site web. Le web scraping peut donner lieu à des pratiques malveillantes. En effet, les cybercriminels peuvent s’en servir pour voler les données.
🔎 Exemple : Deux entreprises avaient installé des extensions de scraping sur le réseau social Facebook afin d’en extraire de nombreuses données des utilisateurs, dont des données sensibles (noms, dates de naissance, etc). Ces entreprises vendaient ces données, bien entendu sans en informer les personnes concernées. Facebook les a attaqué pour vol de données personnelles en 2020 et a obtenu gain de cause.
Le web scraping présente un intérêt certain pour les entreprises, et il est possible d'en avoir une pratique éthique en respectant certaines bonnes pratiques.
5- Web scraping : les recommandations pour une pratique éthique
Comme nous l’avons vu, le web scraping est légal. Il doit toutefois respecter les règles du RGPD et celles de la propriété intellectuelle.
Pour une utilisation légale et éthique, voici 3 recommandations à appliquer :
Bonne pratique n°1 : respecter les conditions d’utilisation du site web d’où sont extraites les données
Avant de scraper des données, vérifiez que les données sont librement accessibles. Certaines données ne sont pas ouvertes au public, comme les données personnelles et celles relevant de la propriété intellectuelle ainsi que du droit sui generis sur les bases de données.
Pour d’autres données, les éditeurs de site ne souhaitent tout simplement pas que vous les collectiez, même lorsqu’elles sont accessibles sur leur site web.
Premier réflexe, vérifiez les conditions d’utilisation du site.
🔎 Exemple les conditions générales d’utilisation de Linkedin, le réseau social professionnel, sont très claires : « Vous vous engagez à ne pas développer, prendre en charge ou utiliser des logiciels, des dispositifs, des scripts, des robots ou tout autre moyen ou processus visant à effectuer du web scraping des Services ou à copier par ailleurs des profils et d’autres données des Services ».
Une entreprise qui contreviendrait à ces CGU s’exposerait à des sanctions. Pour rappel, le non respect du RGPD peut entraîner des amendes considérables, allant jusqu'à 20 millions d'euros ou 4% du chiffre d'affaires mondial, ainsi que d'autres peines spécifiques liées à la collecte de données personnelles.
De même, si vous voulez protéger les données présentes sur votre site web de toute extraction, soyez également très clair dans vos conditions générales d’utilisation, à la manière de Linkedin.
2) Prospection commerciale : respecter les principes du RGPD
Lorsque les données issues du scraping web sont utilisées pour de la prospection commerciale : respectez impérativement les obligations du RGPD.
La prospection commerciale BtoC (en direction des particuliers) obéit à la règle de l’opt-in. Il est impératif :
- d’avoir recueilli leur consentement à la collecte de leurs données ;
- d’avoir informé les personnes concernées sur la finalité de cette collecte de données (le démarchage commercial) ;
- de leur donner les moyens de s’y opposer.
Ainsi, pour chaque contact de votre base de données, vous devez pouvoir justifier son consentement pour contacter les personnes dans un but commercial.
💡 Il n’est pas nécessaire de demander le consentement en btoc à la uniquement double condition suivante :
- La personne est déjà cliente de l’entreprise, c’est-à-dire qu’elle a déjà acheté des produits ;
- La prospection concerne des produits similaires à ceux achetés.
🔎 Exemple d’une atteinte au RGPD suite à un web scraping qui a donné lieu à une décision de la CNIL (8 décembre 2020). La société en question utilisait un outil d'extraction de données pour faire du scraping de contacts sur le réseau social Linkedin. La société livre des repas sur le lieu de travail, leurs clients sont des entreprises. La société invoquait ainsi la base légale de l'intérêt légitime pour sa prospection b2b, ce qui est en effet admis par le RGPD.
Cependant, pour se fonder sur cet intérêt légitime, le message de prospection doit être en lien avec la profession de la personne démarchée. Dans le cas contraire, c’est le régime de la prospection commerciale b2c qui s’applique.
La CNIL a considéré que ces messages de prospection pour la vente de repas sur le lieu de travail des personnes “n'ont que peu de lien avec l’activité professionnelle des prospects". La société aurait donc dû recueillir le consentement des personnes à l’utilisation des données scrappées et les informer. Sans compter que Linkedin aurait pu se retourner contre eux en violation de leurs CGU.
3) Réaliser une AIPD (analyse d’impact relative à la protection des données)
Si vous collectez des données personnelles dans le cadre de votre utilisation du web scraping : il vous faudra sans doute réaliser une AIPD.
L’AIPD (analyse d’impact relative à la protection des données) ou PIA (Privacy Impact Assessment) est une démarche visant à définir et évaluer les mesures nécessaires afin de protéger les données personnelles des risques de violation comme le vol, la divulgation ou encore la suppression.
C'est un outil important de la conformité RGPD, particulièrement pour les traitements susceptibles d'engendrer un risque élevé pour les personnes.
Si vous pratiquez le scraping des données, la réalisation d’une AIPD peut être obligatoire dans certains cas :
- Il est obligatoire lorsqu’il existe un risque élevé pour les droits et libertés des personnes concernées. Le risque peut être divers : lié à la nature même des données traitées, à leur utilisation, à leur sécurité ou encore à la catégorie de personnes concernées. Le traitement de certaines données nécessitent d’office une analyse d’impact : données de santé, biométrique ou génétiques, RH en vue d’un profilage, etc.
- Si vos données n’entrent pas dans cette catégorie, passez-les au crible des 9 critères élaborés par la CNIL. Si 2 critères sur 9 sont remplis, l’analyse d’impact est obligatoire. Pour mieux comprendre : devez-vous réaliser une AIPD ?
Cependant, même si le traitement de données ne correspond à aucun de ces critères, il n’est pas pleinement certain qu’il ne présente aucun risque pour les droits et libertés des personnes. L’ AIPD est toujours recommandée !
5- Scraping des données : les sanctions encourues en cas de manquement
Scraping des données et RGPD : les sanctions
Si l’utilisation des données collectées par web scraping contrevient au RGPD, les entreprises s’exposent à la sanction suivante : une amende pouvant aller jusqu’à 20 millions d’€ ou 4% de son CA annuel total (article 83, paragraphe 5 du RGPD)
Scraping des données et droit pénal Français : les sanctions
Le code pénal Français condamné la "collecte frauduleuse, déloyale ou illicite de données personnelles".
Si l’utilisation des données collectées par web scraping contrevient aux dispositions du code pénal, le contrevenant s’expose aux sanctions suivantes :
- 5 ans d’emprisonnement,
- 300 000 € d’amende.
Scraping des données et violation de la propriété intellectuelle : les sanctions
Enfin, si le scraping des données contrevient à la propriété intellectuelle et au droit d’auteur, en violation du droit sui generis sur les bases de données, le contrevenant s’expose aux sanctions suivantes :
- 5 ans d’emprisonnement,
- 300 000 € d’amende.
En conclusion, oui, le scraping des données est un outil fantastique. Pour autant, faites-en un usage à la fois prudent, raisonné et éthique. En cas de vol de données personnelles ou de violation de la propriété intellectuelle, vous vous exposez à des sanctions très importantes. De plus, une telle violation peut avoir des implications graves pour la vie privée des utilisateurs, surtout en considérant les différences entre les législations européennes et américaines sur la protection des données.