Siri (Apple), Alexa (Amazon), chatbots divers et variés, vision par ordinateur: l’intelligence artificielle s’insinue dans chaque pan de la société sous des formes différentes. Preuve de son succès : elle innerve désormais les contrats informatiques. Mais d’autres figures du droit sont également impactées par cette réalité technique protéiforme. L’intelligence artificielle permet de manière simple d’extraire les données dans des documents semi-structurés et non structurés. En matière de deep learning, domaine particulier du machine learning, des algorithmes sont utilisés dans le traitement des données complexes et non structurées comme les images ou la voix, avec des start-up comme Matterport pour la capture d’images 3D dans le domaine immobilier.
Données. Traitement. Non structuré. Les juristes le comprennent. Le deep learning est friand de données qui ne devraient pas avoir vocation à figurer dans des bases de données au sens de l’article L. 112-3 al.2 du Code de la Propriété Intellectuelle, entendues comme des « recueil(s) d’œuvres, de données ou d’autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen ». Tout est une histoire de structure en principe. En effet, il s’agit d’une des conditions pour disposer d’une base de données protégeable par le Code de la propriété intellectuelle.
Qu’est ce que la structure d’une base de données ? Donner une définition précise de la structure d’une base reste un exercice périlleux. Rappelons le mode d’élaboration d’une base de données :
– Le créateur (ayant analysé les besoins du public ou pariant sur l’émergence d’un marché potentiel) constitue une compilation de données
– Il conçoit un arrangement des données et une structure pour la base de données, ce travail pouvant ou non être original au sens du Droit d’auteur
– Il les rassemble et les présente d’une façon compréhensible et intelligible.
Pour être protégée, la structure de la base de données doit faire preuve d’une certaine originalité, c’est-à-dire, comme le précise un arrêt de principe de la Cour de cassation pour des logiciels (mais aussi de la structure de classement des données gérées parle logiciel) : l’arrêt Babolat du 7 mars 1986, faire preuve d’un effort personnalisé allant au-delà de la simple mise en œuvre d’une logique automatique et contraignante, la matérialisation de cet effort résidant dans une structure individualisée.
Quels enseignements pour l’Intelligence Artificielle ? Les données collectées pour alimenter le moteur de deep learning sont censées être aptes à cette collecte, c’est-à-dire qu’aucun droit de propriété intellectuelle ni aucun droit attaché à la protection des données à caractère personnel n’est censé la contrarier. Concernant de la donnée non structurée, c’est en principe audible, certes. Mais, dans la pratique, ce n’est pas aussi simple. A moins de parfaitement paramétrer son « outil d’intelligence artificielle », ou à tout le moins de disposer des autorisations préalables des titulaires de bases de données, il peut arriver que des données (souvent à caractère personnel) puissent être aspirées d’un site sans justification légale, la collecte pouvant ainsi être considérée comme déloyale comme le précisent certaines jurisprudences.
La pratique du scraping. Avant tout précision de langage : le scraping est l’action de récupérer du contenu à partir d’un ou plusieurs sites web de manière automatisée à l’aide d’un programme informatique. On peut considérer qu’il s’agira dans certains cas d’une extraction de bases de données, notamment si le « scraper » a préalablement accepté des conditions d’utilisation précisant la non-reprise du contenu. Mais que faire face à de la donnée dite publique : c’est-à-dire dans les faits de la donnée à laquelle on peut accéder sans créer de compte et sans accepter de conditions d’utilisation du site ?
On rappellera une jurisprudence américaine de septembre 2019 entre LinkedIn et HiQ qui vient confirmer une décision de 2017 qui précise :
– Le réseau social n’a pas de droits sur les données que publient les membres, « propriétaires » de leurs profils LinkedIn, le réseau n’ayant pas de droit sur les données qu’ils publient
– Le caractère public du profil des utilisateurs permet de le rendre accessible de tiers, ce qui est attendu
– La fraude informatique ne peut prospérer pour des données dites publiques et en accès libre.
Le recours à des outils de Deep Learning ne peut s’effectuer sans une vigilance préalable nécessaire de la part de leur titulaire. Il faudra se prémunir du risque de collecte indue de données figurant dans des bases de données structurées, pour des données qui ne seraient pas publiques ou pour lesquelles le titulaire de l’outil ne disposerait pas d’un consentement express du titulaire des données… La gouvernance des données collectées est à ce prix.
(merci à Pascal AGOSTI, avocat associé, docteur en droit, Caprioli & Associés, Société d’avocats membre du réseau JURISDEFI)