Big Data, Open Data et libertés individuelles
par Jean HARIVEL, Chargé d’enseignement, Université Paris 1 Panthéon
Sorbonne.
Big data, Open data et libertés individuelles peuvent-ils
cohabiter dans notre société, ou ne coexistent-ils qu’avant un big bang
annihilant leur cohésion pour former une nouvelle société aux paradigmes
différents ? Doit-on voir, dans le Big Data, un Big Brother nous épiant, nous
surveillant et nous dictant notre conduite, restreignant ainsi nos libertés
individuelles ? Dans notre société, la donnée devient une matière
première, l’origine d’une nouvelle économie. Un rapport de 2013, remis au
ministre de l’Économie et des Finances[1], souligne que « les données,
notamment les données personnelles, sont la ressource essentielle de l’économie
numérique » et que « la collecte des données révèle le phénomène de “travail
gratuit” ».
En
2013, une note d’analyse du Commissariat général à la stratégie et à la
prospective[2] constate que :
« La
multiplication croissante des données produites et le développement d’outils
informatiques permettant de les analyser offrent d’innombrables possibilités
tant pour l’État que pour les entreprises. Il ne fait aucun doute que le
traitement de ces masses de données, ou big data, jouera un rôle primordial
dans la société de demain, car il trouve des applications dans des domaines
aussi variés que les sciences, le marketing, les services client, le développement
durable, les transports, la santé, ou encore l’éducation. »
L’augmentation
de la masse d’information collectée croît de façon exponentielle et seuls des
algorithmes d’analyse sophistiqués permettent de traiter cette information,
algorithmes secrets[3]
à la disposition de sociétés commerciales majoritairement d’origine américaine.
D’un
point de vue marketing, les grandes entreprises ont très vite compris l’intérêt
qui résidait dans la collecte des données de masse sur internet et le
traitement algorithmique de ces mégadonnées ou big data. Ces algorithmes permettent de déduire des données
collectées, une modélisation du comportement global des internautes, et peuvent
être utilisées pour infléchir ce comportement. Durant la campagne de réélection
de Barack Obama en 2012, ses conseillers ont analysé les messages sur Twitter
pour adapter en direct le discours du président-candidat[4].
Des études épidémiologiques utilisent les données des réseaux sociaux pour
déterminer l’avancée d’une épidémie saisonnière comme celle de la grippe, et
une société HealthMap, spécialisée dans le traitement
de masse des données de santé, aurait détecté l’épidémie d’Ebola en Afrique en
2014 avant que l’OMS n’en fasse l’annonce officielle[5]. Les algorithmes utilisés
deviennent de plus en plus complexes, et il ne s’agit plus de chercher une
information dans le flux des données structurées, mais de rapprocher les
données non structurées de ces flux pour en déduire des tendances, voire
d’étudier l’état de l’opinion à travers l’analyse des messages échangés sur
Twitter, par exemple. L’analyse des données n’est plus déductive, mais
inductive. La recherche des corrélations entre plusieurs sources d’informations
est réalisée sans hypothèses prédéfinies. Le data mining[6]
permet de trouver dans l’amas de données des structures cachées. Cette
technique est, en particulier, utilisée pour détecter des fraudes[7].
Comme
précisé dans la note d’analyse du Commissariat général à la stratégie et à la
perspective[8], l’analyse des données de
masse permet de mieux écouter les usagers et de mieux comprendre leurs modes de
fonctionnement. L’analyse des mégadonnées permet d’anticiper les besoins et les
comportements des individus, mais aussi de manipuler l’opinion publique[9].
L’analyse
prédictive peut permettre d’identifier dans des villes, les zones et les heures
où des délits sont susceptibles de se produire et d’ainsi optimiser
l’affectation des forces de police[10], ou dans les villes
intelligentes, ou smart cities, de gérer les feux de signalisataion
selon le trafic ou de réguler les transports en commun[11]. L’analyse des masses de données
permet plus spécifiquement d’anticiper, avec un certain degré de certitude, des
comportements ou des besoins[12].
Dans
l’étude citée précédemment, il est également noté :
« Le
développement de l’analyse de masses de données doit s’accompagner d’un
questionnement relatif à la protection des données. Le récent scandale “Prism” sur la transmission de données d’utilisateurs
d’internet à des fins de surveillance – entre des compagnies comme Google,
Yahoo!, Microsoft, Apple, Aol, You Tube, Skype, Paltalk ou Facebook et les services de renseignements
américains (National Security Agency) – a d’ailleurs donné une attention considérable
à cette problématique et pourrait avoir de lourdes conséquences pour le secteur
»[13].
En
effet, les gouvernements disposent de bases de données importantes :
revenu et patrimoine par l’administration fiscale ; données de santé par
les organismes de sécurité sociale ; état civil… Ils peuvent monnayer la
vente de certaines données à l’instar du fichier des cartes grises en France[14].
La
collecte et l’analyse des données peuvent être utilisées à des fins de
marketing[15],
mais également à des fins de surveillance, de renseignement[16]. Le fichier TES
regroupant les informations d’identité des citoyens français peut être utilisé
pour éviter ou détecter des fraudes. Il peut aussi être interrogé par les
forces de police et de gendarmerie dans le cadre des enquêtes administratives
ou judiciaires[17].
Dans ce cas, nous nous approchons dangereusement de Big Brother[18], mais ce n’est pas notre
téléviseur qui nous surveille, ce sont tous nos actes qui laissent des traces
numériques et qui dévoilent notre vie privée.
Nos
comportements s’en trouvent modifiés. Outre que les actions passées induisent
des sollicitations ciblées, NETFLIX considère qu’une part importante des films
et séries visualisées sont directement liés aux propositions effectuées et
personnalisées auprès de ses abonnés. Un individu qui sait que son activité est
surveillée peut essayer de contourner cette surveillance, par utilisation du
Darknet et de Tor par exemple, ou peut s’abstenir de réaliser certains actes
qui dévoileraient des aspects de sa propre personnalité. Le libre arbitre s’en
trouve ainsi modifié et altéré.
L’administration
est un important pourvoyeur de données à caractère personnel : état-civil,
données fiscales, cadastre et titre de propriété, soins médicaux au travers des
organismes de sécurité sociale, études scolaires et universitaires, élections,
etc., ou de données produites dans le cadre de leur fonctionnement :
budget, statistiques de fonctionnement, etc. Certaines de ses données peuvent
être monnayées par l’admnistration[19]. Dans le cadre de l’open
data, ces données ont vocation à être diffusées et mises à la disposition du
public[20].
Un
gouvernement ouvert doit informer les citoyens sur les raisons de ses choix et
sur les résultats obtenus. Pour ce faire, il doit mettre à disposition des
citoyens les données nécessaires à cette information[21]. Cette mise à disposition
doit être sincère et accessible à tous. Elle doit être réalisée en fournissant
des données brutes dans un format accessible à tous et réutilisable. Des freins
à cette mise à disposition peuvent exister[22] : licences
d’utilisation excessives (Irlande), délais longs d’accès (Allemagne, Portugal,
République tchèque, République slovène, Suède) ou faible liberté d’accès légal
(Allemagne, Portugal, Suède). La fourniture de données brutes, c’est-à-dire non
interprétées ou édulcorées, doit être réalisée dans un format réutilisable
directement, c’est-à-dire par exemple, ne pas être proposée sous le format
d’une photographie d’un texte, sauf pour des documents anciens non numérisés,
mais dans un format numérique réutilisable par une application informatique,
donc dans un format ouvert. La loi du 21 juin 2004 pour la confiance dans
l’économie numérique donne une définition précise d’un format ouvert :
« On entend par standard ouvert
tout protocole de communication, d’interconnexion ou d’échange et tout format
de données interopérables et dont les spécifications techniques sont publiques
et sans restriction d’accès ni de mise en œuvre »[23].
Les
formats de diffusion ouverts, donc utilisables par un ordinateur peuvent être
le format XML[24] pour les données, même si ce
format a été coédité par Microsoft qui l’utilise dans sa suite bureautique
OFFICE, et le format PDF[25] pour les documents. D’autres
formats ouverts sont disponibles et permettent l’échange de données : TXT
(texte brut en ASCII) ou RTF (Rich Text Format) pour les documents, ODF (Open Document Format) pour des documents
modifiables par des logiciels libres, etc.
En
France, l’ouverture des données administratives a été confirmée dès 1978, par
la loi CADA[26]. En 2011, la « mission
Etalab » est créée auprès du Premier ministre[27]. Elle est chargée de
créer et alimenter le portail de données publiques ouvertes data.gouv.fr, en
ligne depuis le 5 décembre 2011[28]. Le 16 septembre 2014, est
créée la fonction d’Administrateur général des Données[29], placé sous l’autorité du
Premier ministre. Son rôle est de coordonner « l’action des administrations en
matière d’inventaire, de gouvernance, de production, de circulation et
d’exploitation des données par les administrations » et d’organiser,
« dans
le respect de la protection des données personnelles et des secrets protégés
par la loi, la meilleure exploitation de ces données et leur plus large
circulation, notamment aux fins d’évaluation des politiques publiques,
d’amélioration et de transparence de l’action publique et de stimulation de la
recherche et de l’innovation »[30].
Dans son premier rapport, l’administrateur
général des données présente dans son introduction l’analyse prédictive pouvant
être effectuée à partir des données disponibles et permettant, entre autres, « d’augmenter
l’autonomie et la liberté de choix des usagers du service public »[31]. Ces analyses prédictives
sont utilisées par les villes intelligentes, ou « smart cities », pour améliorer les
transports publics, la fluidité des véhicules[32], etc.
Dans
l’Union européenne, le mouvement des données ouvertes est encadré par la
directive 2003/98/CE[33]. Dans le cadre de la
protection de l’environnement, elle a été complétée par la
directive 2007/2/CE[34] du 14 mars 2007, dite
directive Inspire, transposée dans le droit français par l’ordonnance du 21
octobre 2010[35]. Au Royaume-Uni, un
projet est officiellement lancé en janvier 2010, par Gordon Brown. Ce projet
oblige le gouvernement à publier, entre autres, toute dépense supérieure à 25 000 livres
sterling en utilisant les technologies du Web[36]. La République fédérale
d’Allemagne a ouvert son site govdata.de en 2013.
La
mise à disposition de données publiques peut conduire à divulguer des dennées à caractère personnel. Le traitement automatique
des données à caractère personnel est régi par la loi, et lors de la
préparation du nouveau règlement de l’Union européenne[37], un mouvement de
protestation des archivistes s’est mis en place par crainte de ne pouvoir
exercer leur travail ou de connaître de fortes entraves[38]. Certains cercles
généalogiques ont relayé cette contestation, en effet depuis la mise en ligne
des archives de l’état civil, les recherches généalogiques ont été facilitées,
mais ces recherches utilisent des données à caractère personnel puisque le but
de ces recherches est de retrouver des personnes spécifiques, ancêtres ou
alliés des individus vivant actuellement[39].
L’Open
Data peut-il interagir sur les libertés individuelles en dévoilant des
informations personnelles ? Un rapport du Sénat semble le craindre face à la
difficulté d’anonymiser les données à caractère personnel[40]. Certaines données à
caractère personnel restent confidentielles et nécessitent une démarche
particulière et motivée pour les obtenir : données relatives à
l’état-civil, casier judiciaire des individus, données brutes détenues par
l’INSEE au titre des recensements, imposition des individus, déclaration du
patrimoine des parlementaires, etc.
En
principe, seules des données anonymes sont librement publiées, mais compte tenu
de la masse de données produite par l’administration et des données collectées
sur internet ou dans les activités courantes : transactions commerciales,
recherches sur internet, géolocalisation, etc. l’anonymisation peut être
contournée par rapprochement des données de diverses sources[41]. Le rapport Bras-Loth de
2013 sur l’utilisation des données de santé[42] montre ainsi que 89 %
des patients ayant été hospitalisés en 1989 peuvent être identifiés avec le
seul croisement des informations suivantes : l’hôpital d’accueil, le code
postal du domicile, le mois et l’année de naissance, le mois de sortie et la
durée du séjour. Ce chiffre atteint 100 % si le patient a été hospitalisé
deux fois la même année. Ainsi, les accès à la base des données de santé
individuelles, le SNIIRAM, par les compagnies d’assurances permettrait à ces
dernières de connaître les éléments de santé des assurés et donc de refuser une
assurance ou de proposer des tarifs tenant compte des antécédents de santé.
L’égalité devant les assurances ne serait plus garantie, même si aujourd’hui,
cette égalité n’est pas effective dans la mesure où l’assuré est obligé de
déclarer sur l’honneur certaines pathologies lors de la souscription d’un contrat
d’assurance.
Le
développement de l’open data doit être accompagné de mesures garantissant la
protection des données à caractère personnel. La loi pour une République
numérique[43]
prévoit que les administrations peuvent échanger entre elles les documents
administratifs qu’elles détiennent dans le respect de la loi n° 78-17 dite
informatique et libertés[44]. Cette même loi prévoit
que la CNIL et la CADA peuvent siéger ensemble pour débattre d’un sujet commun
à ces deux autorités administratives[45].
En
guise de conclusion, les règles de l’open data ont été définies en 1978[46] alors que les techniques de
rapprochement des données de masse n’existaient pas ou prou, la protection des
données personnelles a été également légiférée en 1978[47], même si une importante réécriture
de la loi s’est produite en 2004[48] et qu’un règlement européen
prévaut depuis le 25 mai 2018[49]. La libre disposition des
données administratives associée à la profusion des données à caractère
personnel sur internet rend les techniques d’anonymisation caduques et de ce
fait toute publication de données personnelles même déidentifiées
revient à mettre en ligne des données à caractère personnel en ligne. Ainsi,
l’alliance du big data et de l’open data convergent vers un accroissement de la
surveillance des individus, donc contribuent à une aliénation potentielles de
leurs libertés. Le nouveau règlement européen[50] ne traite pas vraiment ce
problème avec son article 86 :
« Les
données à caractère personnel figurant dans des documents officiels détenus par
une autorité publique ou par un organisme public ou un organisme privé pour l'exécution
d'une mission d'intérêt public peuvent être communiquées par ladite autorité ou
ledit organisme conformément au droit de l'Union ou au droit de l'État membre
auquel est soumis l'autorité publique ou l'organisme public, afin de concilier
le droit d'accès du public aux documents officiels et le droit à la protection
des données à caractère personnel au titre du présent règlement. »
Qui
vérifie cette conciliation ou qui peut la vérifier ? Quel est le droit qui
prévaut : le droit à l’information ou à la diffision
des documents administratifs ou le droit à la protection des données
personnelles ? Quelle autorité administrative ou judiciaire peut
statuer ?
[1] P. Collin ,
N. Colin, Mission d’expertise sur
la fiscalité numérique, janvier 2013.
[2] M-P. Hamel,D. Marguerit,
« Analyse des big data Quels usages, quels défis ? Analyse des big data
Quels usages, quels défis ? », La Note d’Analyse no 08,
Commissariat général à la stratégie et à la prospective, 11/2013.
[3] « La transparence des algorithmes fait l’objet
d’une demande croissante, à mesure que les organisations privées et publiques
utilisent des volumes de données personnelles de plus en plus importants, et
des systèmes d’analyse de ces données de plus en plus co
mplexes pour prendre leurs décisions », extrait et
traduit de A. Datta, S. Sen,
Y. Zick, « Algorithmic
Transparency via Quantitative Input Influence: Theory and Experiments with Learning Systems », Carnegie
Mellon University, Pittsburgh, USA, mai 2016.
[4] Barack Obama disposait de la base de données nommé Catalist,
qui répertoriait 220 millions d'américains et qui pouvait contenir jusqu'à 600
informations par personne. (Source « Campagne de Barack Obama » à
l’URL : [tpe-barack-obama.e-monsite.com/pages/campagne-de-barack-obama.html]
consulté le 10 juillet 2018).
[5] « Les "big data", nouvel outil
contre les épidémies comme Ebola », 27/10/2014, Sciences et Avenir, URL : [http://www.sciencesetavenir.fr/sante/20141027.OBS3256/les-big-data-nouvel-outil-contre-les-epidemies-comme-ebola.html] consulté le 9 juin 2015.
[6] N. Pal, L. Jain, Advanced
techniques in knowledge discovery and data mining, Springer, 2005.
[7] Délégation Nationale à la Lutte contre la Fraude,
« Le "data mining", une démarche pour
améliorer le ciblage des contrôles », 14 janvier 2014, Ministère de l’économie et des Finances.
[8] Déjà citée.
[9] Comme le démontre la révélation de l’analyse des données personnelles
d’abonnés de Facebook par Cambridge Analytica durant
la campagne de Donald Trump en 2016 (source X. Ridel, « Comment Donald Trump
a utilisé Facebook pour cibler très précisément les internautes », 1
février 2017, Slatefr,
URL : [http://www.slate.fr/story/136199/trump-brexit-cambridge-analytica],
consulté le 10 juillet 2018).
[10] « Crime Prevetion
Tips », en ligne à l’URL :
[http://www.memphispolice.org/crimePrevention.asp] consulté le 9 juin 2014.
[11] Lire sur le sujet les articles de Vinci énergie (URL : [https://www.axians.fr/fr/smart-city/]
ou de CISCO (URL :
[https://www.cisco.com/c/en/us/solutions/industries/smart-connected-communities/city-traffic.html]).
[12] À ce sujet, voir E. Siegel,
Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die,
John Wiley & Sons, 2013.
[13] [http://www.washingtonpost.com/wp-srv/special/politics/prism-collection-documents/] consulté le 11 novembre 2016.
[14] Autorisée par l’article L330-5 du Code de la
route.
[15] Pour générer des publicités ciblées.
[16] Dans le cadre de la lutte contre le terrorisme ou le grand banditisme,
techniques autorisées par le Code de sécurité intérieure.
[17] Cette consultation est aujourd’hui encadrée légalement, mais un amendement
législatif pourrait en élargir l’usage.
[18] G. Orwell, 1984, Secker
and Warburg, juin 1949.
[19] Comme indiqué précédemment pour les données
relatives aux cartes grises.
[20] Code des relations entre le public et l'administration, Livre III.
[21] Déclaration des Droits de l'Homme et du Citoyen
de 1789, Art. 15. « La Société a le droit de demander compte à tout Agent
public de son administration ».
[22] I. Bouhadana, “The Right of Access to Public Information: an
Analysis of International Conventions”, in International
Journal of Open Government, pp. 1-10,
[http://ojs.imodev.org/index.php?journal=RIGO], consulté le 20 juillet 2016.
[23] Titre 1er, Chapitre 1er,
Article 4.
[24] XML ou Extensible
Markup Language, défini en 1998 et revu en 2004,
doit permettre la transmission, la réception et le traitement de données sur le
WEB de la même manière que HTML. XML est un sous ensemble de SGML (Standard Generalized
Markup Language), défini par le
standard ISO8879 en 1986, utilisé dans le milieu de la Gestion Electronique
Documentaire (GED). XML est un métalangage et il permet de structurer, poser le
vocabulaire et la syntaxe des données qu’il va contenir.
[25] PDF ou Portable
Document Format, est un langage de description de pages créé par la société
Adobe Systems en 1993. Le format ouvert «ISO 32000 —
1:2008 PDF » a été publié par l’Organisation internationale de normalisation
(ISO) le 1er juillet 2008. PDF est à présent une norme ISO,
intitulée « Gestion de documents - Format de document portable -
Partie 1 : PDF 1.7 ».
[26] Loi no 78-753 du 17 juillet 1978 portant diverses mesures d’amélioration des
relations entre l’administration et le public et diverses dispositions d’ordre
administratif, social et fiscal, publiée au Journal Officiel de la
République Française du 18 juillet 1978, p. 2851.
[27] Décret n° 2011-194 du 21 février 2011 portant
création d'une mission « Etalab » chargée de la création d'un portail unique
interministériel des données publiques.
[28] Circulaire du 26 mai 2011 relative à la création du portail unique des informations publiques de
l’Etat « data.gouv.fr » par la mission « Etalab » et l’application des
dispositions régissant le droit de réutilisation des informations publiques,
publiée au JORF no 0123 du 27 mai 2011 p. 9140.
[29] Décret no 2014-1050 du 16
septembre 2014 instituant un
administrateur général des données, publié au JORF no 0215
du 17 septembre 2014.
[30] Ibid. Article 2.
[31] Administrateur général des données, Les données au service de la transformation
de l’action publique, Rapport au Premier ministre sur la gouvernance de la
donnée 2015, décembre 2015, URL : [http://www.gouvernement.fr/partage/6252-rapport-au-premier-ministre-sur-la-gouvernance-de-la-donnee-2015], consulté le 20 juillet 2016.
[32] Cf. note 11.
[33] Directive 2003/98/CE du Parlement européen
et du Conseil du 17 novembre 2003 concernant
la réutilisation des informations du secteur public, publiée au Journal
officiel n o L 345 du 31/12/2003 p. 0090 - 0096.
[34] Directive 2007/2/CE du Parlement européen et
du Conseil établissant une infrastructure
d’information géographique dans la Communauté européenne (INSPIRE), publiée
au Journal officiel de l’Union européenne no L108/1 du
25/04/2007.
[35] Ordonnance n° 2010-1232 du 21 octobre 2010 portant diverses dispositions d'adaptation au droit de l'Union
européenne en matière d'environnement.
[36] En utilisant le nouveau site data.gov.uk lancé officiellement en janvier
2010.
[37] Règlement (UE) 2016/679 du Parlement européen et
du Conseil du 27 avril 2016 relatif à la
protection des personnes physiques à l'égard du traitement des données à
caractère personnel et à la libre circulation de ces données, et abrogeant la
directive 95/46/CE (règlement général sur la protection des données).
[38] L'article 89 du RGPD a été rédigé pour les archivistes et généalogistes :
« Article 89 -
Garanties et dérogations applicables au traitement à des fins archivistiques
dans l'intérêt public, à des fins de recherche scientifique ou historique ou à
des fins statistiques
« 1. Le traitement
à des fins archivistiques dans l'intérêt public, à des fins de recherche
scientifique ou historique, ou à des fins statistiques est soumis, conformément
au présent règlement, à des garanties appropriées pour les droits et libertés
de la personne concernée. Ces garanties garantissent la mise en place de
mesures techniques et organisationnelles, en particulier pour assurer le
respect du principe de minimisation des données. Ces mesures peuvent comprendre
la pseudonymisation, dans la mesure où ces finalités
peuvent être atteintes de cette manière. Chaque fois que ces finalités peuvent
être atteintes par un traitement ultérieur ne permettant pas ou plus
l'identification des personnes concernées, il convient de procéder de cette
manière.
« 2. Lorsque des
données à caractère personnel sont traitées à des fins de recherche
scientifique ou historique ou à des fins statistiques, le droit de l'Union ou
le droit d'un État membre peut prévoir des dérogations aux droits visés aux
articles 15, 16, 18 et 21, sous réserve des conditions et des garanties visées
au paragraphe 1 du présent article, dans la mesure où ces droits risqueraient
de rendre impossible ou d'entraver sérieusement la réalisation des finalités
spécifiques et où de telles dérogations sont nécessaires pour atteindre ces
finalités ».
[39] Le considérant 160 du RGPD exclut les personnes décédées : « Lorsque
des données à caractère personnel sont traitées à des fins de recherche
historique, le présent règlement devrait également s'appliquer à ce traitement.
Cela devrait aussi comprendre les recherches historiques et les recherches à
des fins généalogiques, étant entendu que le présent règlement ne devrait pas
s'appliquer aux personnes décédées ».
[40] G. Gorce,
F. Pillet, Rapport d’infomation n° 469 sur
l'open data et la protection de la vie privée, Enregistré à la Présidence
du Sénat le 16 avril 2014.
[41] A. Narayanan,
V. Shmatikov,
“Robust De-anonymization of Large Sparse Datasets”, The University of Texas at
Austin.
[42] P-L Bras, A. Loth, Rapport sur la gouvernance et l’utilisation des données de santé,
septembre 2013, pp.26-30.
[43] Loi n° 2016-1321 du 7 octobre 2016 pour
une République numérique.
[44] Loi n° 78-17 du 6 janvier 1978 relative
à l'informatique, aux fichiers et aux libertés.
[45] Loi n° 2016-1321, art. 26 et 28.
[46] Loi n° 78-753 du 17 juillet 1978 portant diverses mesures d'amélioration des
relations entre l'administration et le public et diverses dispositions d'ordre
administratif, social et fiscal.
[48] Loi n° 2004-801 du 6 août 2004 relative à la protection des personnes
physiques à l'égard des traitements de données à caractère personnel et
modifiant la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux
fichiers et aux libertés.
[49] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril
2016, déjà cité.