Big Data, Open Data et libertés individuelles

par Jean HARIVEL, Chargé d’enseignement, Université Paris 1 Panthéon Sorbonne.

Big data, Open data et libertés individuelles peuvent-ils cohabiter dans notre société, ou ne coexistent-ils qu’avant un big bang annihilant leur cohésion pour former une nouvelle société aux paradigmes différents ? Doit-on voir, dans le Big Data, un Big Brother nous épiant, nous surveillant et nous dictant notre conduite, restreignant ainsi nos libertés individuelles ? Dans notre société, la donnée devient une matière première, l’origine d’une nouvelle économie. Un rapport de 2013, remis au ministre de l’Économie et des Finances[1], souligne que « les données, notamment les données personnelles, sont la ressource essentielle de l’économie numérique » et que « la collecte des données révèle le phénomène de “travail gratuit” ».

§ 1 – Les données de masse : analyse et vie privée

A) L’analyse prédictive et inductive liée au Big Data

En 2013, une note d’analyse du Commissariat général à la stratégie et à la prospective[2] constate que :

« La multiplication croissante des données produites et le développement d’outils informatiques permettant de les analyser offrent d’innombrables possibilités tant pour l’État que pour les entreprises. Il ne fait aucun doute que le traitement de ces masses de données, ou big data, jouera un rôle primordial dans la société de demain, car il trouve des applications dans des domaines aussi variés que les sciences, le marketing, les services client, le développement durable, les transports, la santé, ou encore l’éducation. »

L’augmentation de la masse d’information collectée croît de façon exponentielle et seuls des algorithmes d’analyse sophistiqués permettent de traiter cette information, algorithmes secrets[3] à la disposition de sociétés commerciales majoritairement d’origine américaine.

D’un point de vue marketing, les grandes entreprises ont très vite compris l’intérêt qui résidait dans la collecte des données de masse sur internet et le traitement algorithmique de ces mégadonnées ou big data. Ces algorithmes permettent de déduire des données collectées, une modélisation du comportement global des internautes, et peuvent être utilisées pour infléchir ce comportement. Durant la campagne de réélection de Barack Obama en 2012, ses conseillers ont analysé les messages sur Twitter pour adapter en direct le discours du président-candidat[4]. Des études épidémiologiques utilisent les données des réseaux sociaux pour déterminer l’avancée d’une épidémie saisonnière comme celle de la grippe, et une société HealthMap, spécialisée dans le traitement de masse des données de santé, aurait détecté l’épidémie d’Ebola en Afrique en 2014 avant que l’OMS n’en fasse l’annonce officielle[5]. Les algorithmes utilisés deviennent de plus en plus complexes, et il ne s’agit plus de chercher une information dans le flux des données structurées, mais de rapprocher les données non structurées de ces flux pour en déduire des tendances, voire d’étudier l’état de l’opinion à travers l’analyse des messages échangés sur Twitter, par exemple. L’analyse des données n’est plus déductive, mais inductive. La recherche des corrélations entre plusieurs sources d’informations est réalisée sans hypothèses prédéfinies. Le data mining[6] permet de trouver dans l’amas de données des structures cachées. Cette technique est, en particulier, utilisée pour détecter des fraudes[7].

Comme précisé dans la note d’analyse du Commissariat général à la stratégie et à la perspective[8], l’analyse des données de masse permet de mieux écouter les usagers et de mieux comprendre leurs modes de fonctionnement. L’analyse des mégadonnées permet d’anticiper les besoins et les comportements des individus, mais aussi de manipuler l’opinion publique[9].

L’analyse prédictive peut permettre d’identifier dans des villes, les zones et les heures où des délits sont susceptibles de se produire et d’ainsi optimiser l’affectation des forces de police[10], ou dans les villes intelligentes, ou smart cities, de gérer les feux de signalisataion selon le trafic ou de réguler les transports en commun [11]. L’analyse des masses de données permet plus spécifiquement d’anticiper, avec un certain degré de certitude, des comportements ou des besoins[12].

B) L’impact sur la vie privée

Dans l’étude citée précédemment, il est également noté :

« Le développement de l’analyse de masses de données doit s’accompagner d’un questionnement relatif à la protection des données. Le récent scandale “Prism” sur la transmission de données d’utilisateurs d’internet à des fins de surveillance – entre des compagnies comme Google, Yahoo!, Microsoft, Apple, Aol, You Tube, Skype, Paltalk ou Facebook et les services de renseignements américains (National Security Agency) – a d’ailleurs donné une attention considérable à cette problématique et pourrait avoir de lourdes conséquences pour le secteur »[13].

En effet, les gouvernements disposent de bases de données importantes : revenu et patrimoine par l’administration fiscale ; données de santé par les organismes de sécurité sociale ; état civil… Ils peuvent monnayer la vente de certaines données à l’instar du fichier des cartes grises en France[14].

La collecte et l’analyse des données peuvent être utilisées à des fins de marketing[15], mais également à des fins de surveillance, de renseignement[16]. Le fichier TES regroupant les informations d’identité des citoyens français peut être utilisé pour éviter ou détecter des fraudes. Il peut aussi être interrogé par les forces de police et de gendarmerie dans le cadre des enquêtes administratives ou judiciaires[17]. Dans ce cas, nous nous approchons dangereusement de Big Brother[18], mais ce n’est pas notre téléviseur qui nous surveille, ce sont tous nos actes qui laissent des traces numériques et qui dévoilent notre vie privée.

Nos comportements s’en trouvent modifiés. Outre que les actions passées induisent des sollicitations ciblées, NETFLIX considère qu’une part importante des films et séries visualisées sont directement liés aux propositions effectuées et personnalisées auprès de ses abonnés. Un individu qui sait que son activité est surveillée peut essayer de contourner cette surveillance, par utilisation du Darknet et de Tor par exemple, ou peut s’abstenir de réaliser certains actes qui dévoileraient des aspects de sa propre personnalité. Le libre arbitre s’en trouve ainsi modifié et altéré.

§ 2 – Les données ouvertes : source de données de masse

L’administration est un important pourvoyeur de données à caractère personnel : état-civil, données fiscales, cadastre et titre de propriété, soins médicaux au travers des organismes de sécurité sociale, études scolaires et universitaires, élections, etc., ou de données produites dans le cadre de leur fonctionnement : budget, statistiques de fonctionnement, etc. Certaines de ses données peuvent être monnayées par l’admnistration[19]. Dans le cadre de l’open data, ces données ont vocation à être diffusées et mises à la disposition du public[20].

A) Les bases légales de l’Open Data

Un gouvernement ouvert doit informer les citoyens sur les raisons de ses choix et sur les résultats obtenus. Pour ce faire, il doit mettre à disposition des citoyens les données nécessaires à cette information[21]. Cette mise à disposition doit être sincère et accessible à tous. Elle doit être réalisée en fournissant des données brutes dans un format accessible à tous et réutilisable. Des freins à cette mise à disposition peuvent exister[22] : licences d’utilisation excessives (Irlande), délais longs d’accès (Allemagne, Portugal, République tchèque, République slovène, Suède) ou faible liberté d’accès légal (Allemagne, Portugal, Suède). La fourniture de données brutes, c’est-à-dire non interprétées ou édulcorées, doit être réalisée dans un format réutilisable directement, c’est-à-dire par exemple, ne pas être proposée sous le format d’une photographie d’un texte, sauf pour des documents anciens non numérisés, mais dans un format numérique réutilisable par une application informatique, donc dans un format ouvert. La loi du 21 juin 2004 pour la confiance dans l’économie numérique donne une définition précise d’un format ouvert :

« On entend par standard ouvert tout protocole de communication, d’interconnexion ou d’échange et tout format de données interopérables et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre »[23].

Les formats de diffusion ouverts, donc utilisables par un ordinateur peuvent être le format XML[24] pour les données, même si ce format a été coédité par Microsoft qui l’utilise dans sa suite bureautique OFFICE, et le format PDF[25] pour les documents. D’autres formats ouverts sont disponibles et permettent l’échange de données : TXT (texte brut en ASCII) ou RTF (Rich Text Format) pour les documents, ODF (Open Document Format) pour des documents modifiables par des logiciels libres, etc.

En France, l’ouverture des données administratives a été confirmée dès 1978, par la loi CADA[26]. En 2011, la « mission Etalab » est créée auprès du Premier ministre[27]. Elle est chargée de créer et alimenter le portail de données publiques ouvertes data.gouv.fr, en ligne depuis le 5 décembre 2011[28]. Le 16 septembre 2014, est créée la fonction d’Administrateur général des Données[29], placé sous l’autorité du Premier ministre. Son rôle est de coordonner « l’action des administrations en matière d’inventaire, de gouvernance, de production, de circulation et d’exploitation des données par les administrations » et d’organiser,

« dans le respect de la protection des données personnelles et des secrets protégés par la loi, la meilleure exploitation de ces données et leur plus large circulation, notamment aux fins d’évaluation des politiques publiques, d’amélioration et de transparence de l’action publique et de stimulation de la recherche et de l’innovation »[30].

Dans son premier rapport, l’administrateur général des données présente dans son introduction l’analyse prédictive pouvant être effectuée à partir des données disponibles et permettant, entre autres, « d’augmenter l’autonomie et la liberté de choix des usagers du service public »[31]. Ces analyses prédictives sont utilisées par les villes intelligentes, ou « smart cities », pour améliorer les transports publics, la fluidité des véhicules[32], etc.

Dans l’Union européenne, le mouvement des données ouvertes est encadré par la directive 2003/98/CE[33]. Dans le cadre de la protection de l’environnement, elle a été complétée par la directive 2007/2/CE[34] du 14 mars 2007, dite directive Inspire, transposée dans le droit français par l’ordonnance du 21 octobre 2010[35]. Au Royaume-Uni, un projet est officiellement lancé en janvier 2010, par Gordon Brown. Ce projet oblige le gouvernement à publier, entre autres, toute dépense supérieure à 25 000 livres sterling en utilisant les technologies du Web[36]. La République fédérale d’Allemagne a ouvert son site govdata.de en 2013.

B) L’interaction de l’Open Data sur la vie privée

La mise à disposition de données publiques peut conduire à divulguer des dennées à caractère personnel. Le traitement automatique des données à caractère personnel est régi par la loi, et lors de la préparation du nouveau règlement de l’Union européenne[37], un mouvement de protestation des archivistes s’est mis en place par crainte de ne pouvoir exercer leur travail ou de connaître de fortes entraves[38]. Certains cercles généalogiques ont relayé cette contestation, en effet depuis la mise en ligne des archives de l’état civil, les recherches généalogiques ont été facilitées, mais ces recherches utilisent des données à caractère personnel puisque le but de ces recherches est de retrouver des personnes spécifiques, ancêtres ou alliés des individus vivant actuellement[39].

L’Open Data peut-il interagir sur les libertés individuelles en dévoilant des informations personnelles ? Un rapport du Sénat semble le craindre face à la difficulté d’anonymiser les données à caractère personnel[40]. Certaines données à caractère personnel restent confidentielles et nécessitent une démarche particulière et motivée pour les obtenir : données relatives à l’état-civil, casier judiciaire des individus, données brutes détenues par l’INSEE au titre des recensements, imposition des individus, déclaration du patrimoine des parlementaires, etc.

En principe, seules des données anonymes sont librement publiées, mais compte tenu de la masse de données produite par l’administration et des données collectées sur internet ou dans les activités courantes : transactions commerciales, recherches sur internet, géolocalisation, etc. l’anonymisation peut être contournée par rapprochement des données de diverses sources[41]. Le rapport Bras-Loth de 2013 sur l’utilisation des données de santé[42] montre ainsi que 89 % des patients ayant été hospitalisés en 1989 peuvent être identifiés avec le seul croisement des informations suivantes : l’hôpital d’accueil, le code postal du domicile, le mois et l’année de naissance, le mois de sortie et la durée du séjour. Ce chiffre atteint 100 % si le patient a été hospitalisé deux fois la même année. Ainsi, les accès à la base des données de santé individuelles, le SNIIRAM, par les compagnies d’assurances permettrait à ces dernières de connaître les éléments de santé des assurés et donc de refuser une assurance ou de proposer des tarifs tenant compte des antécédents de santé. L’égalité devant les assurances ne serait plus garantie, même si aujourd’hui, cette égalité n’est pas effective dans la mesure où l’assuré est obligé de déclarer sur l’honneur certaines pathologies lors de la souscription d’un contrat d’assurance.

Le développement de l’open data doit être accompagné de mesures garantissant la protection des données à caractère personnel. La loi pour une République numérique[43] prévoit que les administrations peuvent échanger entre elles les documents administratifs qu’elles détiennent dans le respect de la loi n° 78-17 dite informatique et libertés[44]. Cette même loi prévoit que la CNIL et la CADA peuvent siéger ensemble pour débattre d’un sujet commun à ces deux autorités administratives[45].

En guise de conclusion, les règles de l’open data ont été définies en 1978[46] alors que les techniques de rapprochement des données de masse n’existaient pas ou prou, la protection des données personnelles a été également légiférée en 1978[47], même si une importante réécriture de la loi s’est produite en 2004[48] et qu’un règlement européen prévaut depuis le 25 mai 2018[49]. La libre disposition des données administratives associée à la profusion des données à caractère personnel sur internet rend les techniques d’anonymisation caduques et de ce fait toute publication de données personnelles même déidentifiées revient à mettre en ligne des données à caractère personnel en ligne. Ainsi, l’alliance du big data et de l’open data convergent vers un accroissement de la surveillance des individus, donc contribuent à une aliénation potentielles de leurs libertés. Le nouveau règlement européen[50] ne traite pas vraiment ce problème avec son article 86 :

« Les données à caractère personnel figurant dans des documents officiels détenus par une autorité publique ou par un organisme public ou un organisme privé pour l'exécution d'une mission d'intérêt public peuvent être communiquées par ladite autorité ou ledit organisme conformément au droit de l'Union ou au droit de l'État membre auquel est soumis l'autorité publique ou l'organisme public, afin de concilier le droit d'accès du public aux documents officiels et le droit à la protection des données à caractère personnel au titre du présent règlement. »

Qui vérifie cette conciliation ou qui peut la vérifier ? Quel est le droit qui prévaut : le droit à l’information ou à la diffision des documents administratifs ou le droit à la protection des données personnelles ? Quelle autorité administrative ou judiciaire peut statuer ?

[1] P. Collin , N. Colin, Mission d’expertise sur la fiscalité numérique, janvier 2013.

[2] M-P. Hamel,D. Marguerit, « Analyse des big data Quels usages, quels défis ? Analyse des big data Quels usages, quels défis ? », La Note d’Analyse no 08, Commissariat général à la stratégie et à la prospective, 11/2013.

[3] « La transparence des algorithmes fait l’objet d’une demande croissante, à mesure que les organisations privées et publiques utilisent des volumes de données personnelles de plus en plus importants, et des systèmes d’analyse de ces données de plus en plus co mplexes pour prendre leurs décisions », extrait et traduit de A. Datta, S. Sen, Y. Zick, « Algorithmic Transparency via Quantitative Input Inﬂuence: Theory and Experiments with Learning Systems », Carnegie Mellon University, Pittsburgh, USA, mai 2016.

[4] Barack Obama disposait de la base de données nommé Catalist, qui répertoriait 220 millions d'américains et qui pouvait contenir jusqu'à 600 informations par personne. (Source « Campagne de Barack Obama » à l’URL : [tpe-barack-obama.e-monsite.com/pages/campagne-de-barack-obama.html] consulté le 10 juillet 2018).

[5] « Les "big data", nouvel outil contre les épidémies comme Ebola », 27/10/2014, Sciences et Avenir, URL : [http://www.sciencesetavenir.fr/sante/20141027.OBS3256/les-big-data-nouvel-outil-contre-les-epidemies-comme-ebola.html] consulté le 9 juin 2015.

[6] N. Pal, L. Jain, Advanced techniques in knowledge discovery and data mining, Springer, 2005.

[7] Délégation Nationale à la Lutte contre la Fraude, « Le "data mining", une démarche pour améliorer le ciblage des contrôles », 14 janvier 2014, Ministère de l’économie et des Finances.

[8] Déjà citée.

[9] Comme le démontre la révélation de l’analyse des données personnelles d’abonnés de Facebook par Cambridge Analytica durant la campagne de Donald Trump en 2016 (source X. Ridel, « Comment Donald Trump a utilisé Facebook pour cibler très précisément les internautes », 1 février 2017, Slatefr, URL : [http://www.slate.fr/story/136199/trump-brexit-cambridge-analytica], consulté le 10 juillet 2018).

[10] « Crime Prevetion Tips », en ligne à l’URL :

[http://www.memphispolice.org/crimePrevention.asp] consulté le 9 juin 2014.

[11] Lire sur le sujet les articles de Vinci énergie (URL : [https://www.axians.fr/fr/smart-city/] ou de CISCO (URL :
[https://www.cisco.com/c/en/us/solutions/industries/smart-connected-communities/city-traffic.html]).

[12] À ce sujet, voir E. Siegel, Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, John Wiley & Sons, 2013.

[13] [http://www.washingtonpost.com/wp-srv/special/politics/prism-collection-documents/] consulté le 11 novembre 2016.

[14] Autorisée par l’article L330-5 du Code de la route.

[15] Pour générer des publicités ciblées.

[16] Dans le cadre de la lutte contre le terrorisme ou le grand banditisme, techniques autorisées par le Code de sécurité intérieure.

[17] Cette consultation est aujourd’hui encadrée légalement, mais un amendement législatif pourrait en élargir l’usage.

[18] G. Orwell, 1984, Secker and Warburg, juin 1949.

[19] Comme indiqué précédemment pour les données relatives aux cartes grises.

[20] Code des relations entre le public et l'administration, Livre III.

[21] Déclaration des Droits de l'Homme et du Citoyen de 1789, Art. 15. « La Société a le droit de demander compte à tout Agent public de son administration ».

[22] I. Bouhadana, “The Right of Access to Public Information: an Analysis of International Conventions”, in International Journal of Open Government, pp. 1-10,

[http://ojs.imodev.org/index.php?journal=RIGO], consulté le 20 juillet 2016.

[23] Titre 1er, Chapitre 1er, Article 4.

[24] XML ou Extensible Markup Language, défini en 1998 et revu en 2004, doit permettre la transmission, la réception et le traitement de données sur le WEB de la même manière que HTML. XML est un sous ensemble de SGML (Standard Generalized Markup Language), défini par le standard ISO8879 en 1986, utilisé dans le milieu de la Gestion Electronique Documentaire (GED). XML est un métalangage et il permet de structurer, poser le vocabulaire et la syntaxe des données qu’il va contenir.

[25] PDF ou Portable Document Format, est un langage de description de pages créé par la société Adobe Systems en 1993. Le format ouvert «ISO 32000 — 1:2008 PDF » a été publié par l’Organisation internationale de normalisation (ISO) le 1er juillet 2008. PDF est à présent une norme ISO, intitulée « Gestion de documents - Format de document portable - Partie 1 : PDF 1.7 ».

[26] Loi no 78-753 du 17 juillet 1978 portant diverses mesures d’amélioration des relations entre l’administration et le public et diverses dispositions d’ordre administratif, social et fiscal, publiée au Journal Officiel de la République Française du 18 juillet 1978, p. 2851.

[27] Décret n° 2011-194 du 21 février 2011 portant création d'une mission « Etalab » chargée de la création d'un portail unique interministériel des données publiques.

[28] Circulaire du 26 mai 2011 relative à la création du portail unique des informations publiques de l’Etat « data.gouv.fr » par la mission « Etalab » et l’application des dispositions régissant le droit de réutilisation des informations publiques, publiée au JORF no 0123 du 27 mai 2011 p. 9140.

[29] Décret no 2014-1050 du 16 septembre 2014 instituant un administrateur général des données, publié au JORF no 0215 du 17 septembre 2014.

[30] Ibid. Article 2.

[31] Administrateur général des données, Les données au service de la transformation de l’action publique, Rapport au Premier ministre sur la gouvernance de la donnée 2015, décembre 2015, URL : [http://www.gouvernement.fr/partage/6252-rapport-au-premier-ministre-sur-la-gouvernance-de-la-donnee-2015], consulté le 20 juillet 2016.

[32] Cf. note 11.

[33] Directive 2003/98/CE du Parlement européen et du Conseil du 17 novembre 2003 concernant la réutilisation des informations du secteur public, publiée au Journal officiel n o L 345 du 31/12/2003 p. 0090 - 0096.

[34] Directive 2007/2/CE du Parlement européen et du Conseil établissant une infrastructure d’information géographique dans la Communauté européenne (INSPIRE), publiée au Journal officiel de l’Union européenne no L108/1 du 25/04/2007.

[35] Ordonnance n° 2010-1232 du 21 octobre 2010 portant diverses dispositions d'adaptation au droit de l'Union européenne en matière d'environnement.

[36] En utilisant le nouveau site data.gov.uk lancé officiellement en janvier 2010.

[37] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données).

[38] L'article 89 du RGPD a été rédigé pour les archivistes et généalogistes :

« Article 89 - Garanties et dérogations applicables au traitement à des fins archivistiques dans l'intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques

« 1. Le traitement à des fins archivistiques dans l'intérêt public, à des fins de recherche scientifique ou historique, ou à des fins statistiques est soumis, conformément au présent règlement, à des garanties appropriées pour les droits et libertés de la personne concernée. Ces garanties garantissent la mise en place de mesures techniques et organisationnelles, en particulier pour assurer le respect du principe de minimisation des données. Ces mesures peuvent comprendre la pseudonymisation, dans la mesure où ces finalités peuvent être atteintes de cette manière. Chaque fois que ces finalités peuvent être atteintes par un traitement ultérieur ne permettant pas ou plus l'identification des personnes concernées, il convient de procéder de cette manière.

« 2. Lorsque des données à caractère personnel sont traitées à des fins de recherche scientifique ou historique ou à des fins statistiques, le droit de l'Union ou le droit d'un État membre peut prévoir des dérogations aux droits visés aux articles 15, 16, 18 et 21, sous réserve des conditions et des garanties visées au paragraphe 1 du présent article, dans la mesure où ces droits risqueraient de rendre impossible ou d'entraver sérieusement la réalisation des finalités spécifiques et où de telles dérogations sont nécessaires pour atteindre ces finalités ».

[39] Le considérant 160 du RGPD exclut les personnes décédées : « Lorsque des données à caractère personnel sont traitées à des fins de recherche historique, le présent règlement devrait également s'appliquer à ce traitement. Cela devrait aussi comprendre les recherches historiques et les recherches à des fins généalogiques, étant entendu que le présent règlement ne devrait pas s'appliquer aux personnes décédées ».

[40] G. Gorce, F. Pillet, Rapport d’infomation n° 469 sur l'open data et la protection de la vie privée, Enregistré à la Présidence du Sénat le 16 avril 2014.

[41] A. Narayanan, V. Shmatikov, “Robust De-anonymization of Large Sparse Datasets”, The University of Texas at Austin.

[42] P-L Bras, A. Loth, Rapport sur la gouvernance et l’utilisation des données de santé, septembre 2013, pp.26-30.

[43] Loi n° 2016-1321 du 7 octobre 2016 pour une République numérique.

[44] Loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés.

[45] Loi n° 2016-1321, art. 26 et 28.

[46] Loi n° 78-753 du 17 juillet 1978 portant diverses mesures d'amélioration des relations entre l'administration et le public et diverses dispositions d'ordre administratif, social et fiscal.

[47] Loi n° 78-17 du 6 janvier 1978, déjà citée.

[48] Loi n° 2004-801 du 6 août 2004 relative à la protection des personnes physiques à l'égard des traitements de données à caractère personnel et modifiant la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés.

[49] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, déjà cité.

[50] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, déjà cité.