Le Big data est-il l'Eldorado des gouvernements ouverts ?

par Thomas BIZET, Juriste à la CNIL, Doctorant en droit à l’Université Paris 1 Panthéon-Sorbonne (France).

À la fin du 17e siècle, des scientifiques et économistes anglais se mettent à espérer avec Sir William Petty une « arithmétique politique »[1]. Cette science est définie par Charles Davenant, un élève de Sir Petty comme « l’art de raisonner avec des chiffres sur des objets relatifs au gouvernement. »[2]

En 1751, Diderot inclut dans l’Encyclopédie un article relatif à cette arithmétique particulière, il y écrit que ces « opérations ont pour but des recherches utiles à l’art de gouverner les peuples, telles que celles du nombre des hommes qui habitent un pays ; de la quantité de nourriture qu’ils doivent consommer ; du travail qu’ils peuvent faire ; du temps qu’ils ont à vivre ; de la fertilité des terres ; de la fréquence des naufrages, etc. On conçoit aisément que ces découvertes et beaucoup d’autres de la même nature, étant acquises par des calculs fondés sur quelques expériences bien constatées, un ministre habile en tirerait une foule de conséquences pour la perfection de l’agriculture, pour le commerce tant intérieur qu’extérieur, pour les colonies, pour le cours et l’emploi de l’argent, etc. Mais souvent les ministres (je me garde de parler sans exception) croient n’avoir pas besoin de passer par des combinaisons et des suites d’opérations arithmétiques : plusieurs s’imaginent être doués d’un grand génie naturel, qui les dispense d’une marche si lente et si pénible, sans compter que la nature des affaires ne permet ni ne demande presque jamais la précision géométrique. Cependant si la nature des affaires la demandait et la permettait, je ne doute point qu’on ne parvînt à se convaincre que le monde politique, aussi bien que le monde physique, peut se régler à beaucoup d’égards par poids, nombre et mesure. »[3]

Aujourd’hui, la « nature des affaires » semble permettre, d’approcher tout du moins, la « précision géométrique ». L’évolution extraordinaire des technologies de traitement de données permet d’entrevoir des développements phénoménaux dans la tradition de « l’arithmétique politique ». Ces développements sont influencés notamment par la démarche de recensement et d’ouverture des données détenues par les administrations dans le contexte du « Gouvernement Ouvert ».

Les chiffres sont en train de dévorer le monde pour paraphraser la citation de Marc Andreessen avec l’explosion de la création, de la collecte et de la circulation des informations et des capacités et des modalités de traitements de celles-ci.

Pour saisir cette explosion, le terme « Big data » a été utilisé de très nombreuses fois. Il sera ici utilisé pour faire référence aux grandes quantités d’informations recueillies sur de nombreuses personnes ou choses utilisant de nombreux périphériques[4] et aux traitements de ces informations. En effet, plus que la seule volumétrie, ce qui caractérise le “Big data” c’est la capacité à relier des données avec d’autres jeux de données, à les agréger et à chercher autant dans le contenu même de ces données que dans les informations contextuelles sur celles-ci[5]. Le volume et la variété des données permettent d’accroître la précision des algorithmes - les modèles utilisés pour traiter les données - par exemple pour effectuer des recherches dans le champ des analyses prédictives[6].

L’accroissement des puissances de calcul de ces technologies, allié aux nombreuses sources de données disponibles, peut faire naître l’ambition de collecter autant de données que possible sur toutes les sources possibles, de les analyser en temps réel et de prendre une décision optimale basée sur les circonstances actuelles plutôt que sur une projection idéalisée[7] : le rêve de l’algorithmique politique du 17e siècle.

Cette technologie est aujourd’hui assurément dans les mains et les systèmes d’information de nombreuses grandes entreprises. Toutefois, les États, par le biais notamment des « chief data officer », de l’ouverture de nombreux jeux de données et donc de leurs recensements, commencent très sérieusement à s’orienter vers ses nouvelles technologies pour affiner la prise de décision à défaut de l’automatiser. Ainsi, dans l’ouvrage collectif Beyond Transparency : Open Data and the Future of Civic Innovation, Tim O’Reilly[8] appelle par exemple à utiliser cette nouvelle puissance de calcul pour développer des régulations directement par les algorithmes[9].

Il est aisé de pressentir que l’utilisation d’algorithmes par les administrations permettrait d’améliorer les services publics, d’en créer de nouveaux et d’en multiplier les usagers. De même, l’avènement de l’algorithme pourrait renforcer l’application des lois de Rolland. L’algorithme applique le même modèle pour tous – égalité – ne connaît ni le sommeil ni le droit de grève pour peu que les serveurs soient robustes – continuité – et il peut être modifié aisément, sa modification valant pour tous les calculs postérieurs – mutabilité.

À la suite du « Code is Law »[10] de Lawrence Lessig, il pourrait alors être possible d’imaginer un « Data is Government ».

Toutefois, ces évolutions doivent nécessairement amener à analyser les différents mécanismes qui sous-tendent une pratique « politique » des technologies « Big data ».

L’objectif de cette analyse est de présenter les défis actuels ou prospectifs d’une pratique balbutiante qui mérite une approche critique pour en éviter les abus ou les erreurs pouvant impacter directement les administrés « algorithmés ».

§ 1 – Un premier défi : d’où proviennent les données ?

La pratique « Big data » suppose comme son nom l’indique de nombreuses données. Ces données dans le cadre d’une pratique tournée vers l’administration sont en grande partie des données collectées directement par les administrations, ou indirectement par des délégations de service public. Ces données sont pour la plupart collectées de longue date pour mesurer et gérer les actions publiques et constituer les statistiques publiques.

La majorité de ces données sont des données purement statistiques de sorte qu’elles ne permettent pas d’identifier, directement ou indirectement des individus.

Dans ce cadre, le défi pour une initiative « Big data » sera de faire communiquer les administrations détentrices de données afin de leur faire partager les données pour développer de nouvelles données et surtout de nouveaux services aux usagers, ou des économies d’échelles. Cette stratégie de « désîlotage » des systèmes d’information des administrations, dite stratégie « État Plateforme » est conduite par la direction interministérielle du numérique et système d’information et de communication de l’État (DINSIC) dirigée par Henri Verdier[11].

Un objectif soutenu par la DINSIC est donc de permettre à ces données d’être recenser et rendues interopérables afin de pouvoir être agrégés, partagés et réutilisés dans une démarche d’ouverture des données vers le secteur privé (de type « Open Data ») que vers le secteur public lui-même.

Si la plupart des données détenues par l’administration sont des statistiques, certaines données peuvent permettre d’identifier directement ou indirectement par recoupement des personnes.

La loi n°78-753 du 17 juillet 1978 portant diverses mesures d’amélioration des relations entre l’administration et le public et diverses dispositions d’ordre administratif, sociales et fiscales, dite « Loi CADA », encadrait la réutilisation de ces données par le secteur privé dans un article 13 qui disposait que :

« Les informations publiques comportant des données à caractère personnel peuvent faire l'objet d'une réutilisation soit lorsque la personne intéressée y a consenti, soit si l'autorité détentrice est en mesure de les rendre anonymes ou, à défaut d'anonymisation, si une disposition législative ou réglementaire le permet.

La réutilisation d'informations publiques comportant des données à caractère personnel est subordonnée au respect des dispositions de la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés ».

Cet article a été codifié au sein du Code des relations entre le public et l’administration (CRPA) par la loi n°2016-1321 du 7 octobre 2016, dite « Loi Lemaire », et le décret n°2016-308 du 17 mars 2016. L’article L322-2 du CRPA dispose que « la réutilisation d’informations publiques comportant des données à caractère personnel est subordonnée au respect des dispositions de la loi n°78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés » tandis que l’article R322-3 précise que « lorsque la réutilisation n’est possible qu’après anonymisation des données à caractère personnel, l’autorité détentrice y procède sous réserve que cette opération n’entraîne pas des efforts disproportionnés. »

L’article L321-1 du CRPA ouvre, dans ce cadre, la réutilisation de ces données « par toute personne qui le souhaite à d’autres fins que celles de la mission de service public pour les besoins de laquelle les documents ont été produits ou reçus. »

Toutefois, l’article L321-2 du CRPA exclu précisément du champ de la réutilisation « l’échange d’informations publiques entre les administrations, aux fins de l’exercice de leur mission de service public ». Dans le cas où ces échanges concerneraient des informations contenant des données à caractère personnel, les administrations devraient donc se conformer essentiellement à la loi n°78-17 modifiée. Cette conformité implique notamment des obligations d’information des personnes, d’exercice des droits des personnes concernées et plus globalement les traitements devraient avoir une finalité explicite, légitime et loyale. Ces obligations semblent complexes à mettre en place dans un contexte « Big data » où la proportionnalité des données traitées n’est pas clairement définie, tout du moins initialement.

Si assez peu d’informations publiques contiennent actuellement des données à caractère personnel permettent d’identifier directement des individus, certaines données ne permettent cette identification qu’après de nombreux traitements. Les capacités de calcul et les traces que les individus laissent ne permettent que très difficilement de réaliser une anonymisation claire et efficace[12].

Toutefois, il convient de noter que dans le cas d’une démarche « Big data » de l’administration, cette démarche s’inscrira nécessairement dans l’exécution d’une mission de service public dont est investi le responsable ou le destinataire du traitement au sens de l’article 7 de la loi n°78-17 modifiée. Cette démarche ne devra donc pour autant pas faire oublier que « les poids, nombre et mesure » de Diderot sont souvent des informations sur des personnes[13] concernées par ces traitements[14], initialement ou finalement.

§ 2 – Un deuxième défi : La confiance dans les algorithmes

Amasser les données n’est pas la finalité d’une démarche « Big data », l’objectif est de développer des modèles permettant d’améliorer une situation. Ces modèles, désignés souvent comme algorithmes, sont des suites d’opérations ou d’instructions permettant d’obtenir un résultat. Il s’agit du traitement des données en tant que tel.

Ces algorithmes sont le moteur d’un traitement « Big data ». Dans le cadre d’une démarche de « Gouvernement Ouvert », ce moteur doit être ouvert autant pour éviter une asymétrie d’informations générant des effets juridiques peu prévisibles que pour permettre à une communauté d’apporter une contribution à l’amélioration du modèle.

Par ailleurs, une ouverture permettrait à chacun de comprendre les modèles appliqués afin d’éviter la promesse du seul solutionnisme technologique[15], argument d’autorité d’un modèle proclamé vrai, car mathématique[16].

Mike Loukides, vice-président de la stratégie de contenu de O’Reilly Media, précise cette nécessité d’ouverture, en effet :

« il n’y pas que les données qui doivent être ouvertes : il y a aussi les modèles ! […] Vous pouvez avoir toutes les données sur la criminalité que vous voulez, toutes les données de l’immobilier que vous voulez, toutes les données sur les performances des élèves que vous voulez, toutes les données médicales que vous voulez, mais si vous ne savez pas quels modèles sont utilisés pour générer des résultats, vous n’aurez pas beaucoup de réponses. »[17]

De la même manière, Cathy O’Neil, mathématicienne, précisait que :

« vous ne savez pas vraiment ce que fait un modèle tant que vous ne pouvez pas interagir avec lui. Vous ne savez pas si un modèle est robuste tant que vous ne pouvez pas jouer avec ses paramètres. Enfin, vous ne savez pas si un modèle est le meilleur possible tant que vous n’avez pas laissé les gens essayer de l’améliorer. »[18]

En France, l’ouverture des modèles derrière des démarches « Big data » pourrait trouver racine dans l’article 15 de la Déclaration des droits de l’homme et du citoyen qui dispose que « la Société a le droit de demande compte à tout Agent public de son administration » incluant par extension les modalités de réalisation de cette administration. Plus précisément, la loi n°2004-801 du 6 août relative à la protection des personnes physiques à l’égard des traitements de données à caractère personnel, modifiant la loi n°78-17 du 6 janvier 1978, a créé un article 10 dans la loi n°78-17 modifiée disposant :

« Aucune décision de justice impliquant une appréciation sur le comportement d’une personne ne peut avoir pour fondement un traitement automatisé de données à caractère personnel destiné à évaluer certains aspects de sa personnalité.

Aucune autre décision produisant des effets juridiques à l’égard d’une personne ne peut être prise sur le seul fondement d’un traitement automatisé de données destiné à définir le profil de l’intéressé ou à évaluer certains aspects de sa personnalité.

Ne sont pas regardées comme prises sur le seul fondement d’un traitement automatisé les décisions prises dans le cadre de la conclusion ou de l’exécution d’un contrat et pour lesquelles la personne concernée a été mise à même de présenter ses observations ni celles satisfaisant les demandes de la personne concernée. »

Poursuivant un objectif similaire la loi n°2016-1321 du 7 octobre 2016 a créé un article L311-3-1 du Code des relations entre le public et l’administration disposant que :

« sous réserve de l'application du 2° de l'article L. 311-5, une décision individuelle prise sur le fondement d'un traitement algorithmique comporte une mention explicite en informant l'intéressé. Les règles définissant ce traitement ainsi que les principales caractéristiques de sa mise en œuvre sont communiquées par l'administration à l'intéressé s'il en fait la demande. »

En ce sens, dans le cas où la résolution d’un traitement algorithmique public produirait des effets juridiques à l’égard d’une personne, celle-ci devrait pouvoir présenter ses observations après communication des règles et des « principales caractéristiques » du traitement.

Enfin, la Commission d’accès aux documents administratifs (CADA) a été saisi pour obliger des administrations à communiquer des logiciels ou des codes sources de modèles. C’est le cas récemment du code source comprenant le modèle du portail « Admission post-bac (APB) » pour le traitement des candidatures post-baccalauréat sur les formations non sélectives[19]. Cette communication au public du code source peut être réalisée tant que le code source ne contient pas de données à caractère personnel – toutefois un code source ne devrait pas contenir en lui-même des données à caractère personnel hormis les noms de ses auteurs – et tant qu’il n’est pas protégé par des droits de propriété intellectuelle.

La loi exclut précisément la communication[20] et la réutilisation[21] des documents administratifs[22] – dont font partie les codes sources[23] – protégés par des droits de propriété littéraire et artistique. Cette protection, dans le cas des codes sources, peut empêcher l’administration de fournir tout ou partie du code source protégé[24]. L’ouverture des modèles nécessite donc parallèlement de repenser la stratégie « open source » des systèmes d’information des administrations[25].

L’ouverture des modèles est réalisée de manière encore moins enthousiaste que l’ouverture des seules données détenues par l’administration. Plus que les données, les modèles concentrent le pouvoir des sachants. Ces modèles peuvent apparaître comme objectivement neutres et justes, car mathématiques.

Or, cette neutralité des algorithmes est ardemment critiquée. Si effectivement les modèles, en tant qu’objet, sont neutres, leurs créateurs ne le sont peut-être pas[26].

Aujourd’hui, les modèles sont de plus en plus de nature automatisée, dans un processus technologique qui génère de la fascination, pourtant la discrétion humaine y joue un rôle toujours important.

Les analystes créant les modèles ont l’occasion ce faisant de laisser une empreinte idéologique – et potentiellement cachée – dans le processus[27]. Cette possibilité est ouverte depuis le début de la création du modèle. Les jeux de données doivent être activement construit, parfois en harmonisant ou rationalisant des jeux de données de sources différentes, cette activité nécessite diverses décisions (quelles bases de données utilisées, sur quel périmètre, etc.).

D’autres décisions vont être plus subtiles, comme ce qui compte comme un « évènement » déclenchant telle ou telle opération du modèle, tout en éliminant les résultats qui pourraient être considérés comme faux[28]. Toutes ces étapes permettent d’exercer une discrétion humaine derrière le modèle.

Les modèles peuvent être biaisés par de multiples facteurs[29]. Ils peuvent l’être dans leur développement même[30] ou dans leur utilisation ultérieure[31].

Ces biais peuvent avoir des impacts conséquents. Par exemple, aux États-Unis d’Amérique, un modèle de prédiction des scores de récidives a été audité par le journal d’investigation ProPublica. Les journalistes ont découvert des disparités du modèle basées sur la couleur de peau des personnes concernées[32].

Pour autant, l’ampleur des biais est difficilement mesurable, en particulier dans le cas des algorithmes dits prédictifs. Cette catégorie d’algorithme peut souffrir de prédictions autoréalisatrices en s’autovalidant au fur et à mesure des prédictions et de leurs « réalisations ». Il est possible de retrouver par exemple ce biais dans le logiciel de « prédiction policière » intitulé « PredPol », un travail critique de Ismaël Benslimane présente les biais de ce logiciel[33].

Cachés derrière la neutralité mathématique, les modèles entraînent ainsi avec eux les biais de leurs créateurs. Les modèles doivent ainsi être ouverts pour vérifier leur fonctionnement.

Cette ouverture suppose une capacité ultérieure à auditer et comprendre le modèle. La communication du code source dans un format papier ne saurait pas permettre cet audit[34]. Les modèles doivent être examinés, et parfois contrôler, ex ante, afin de valider leur légitimité, et ex post, afin de valider leur utilisation[35].

La création d’une agence ou d’une autorité ad hoc est un sujet étudié par le Conseil National du Numérique en ce que concerne la « loyauté des plateformes ». À l’issue d’un rapport remis le 13 juin 2014 au ministre de l’Économie, du Redressement productif et du Numérique intitulé Neutralité des plateformes : Réunir les conditions d’un environnement ouvert et soutenable, le Conseil National du Numérique proposait notamment de garantir la loyauté du système des données. Le terme « neutralité » ayant été particulièrement dénoncé[36], le terme loyauté a été conservé. À la suite d’un rapport du Conseil Général de l’Économie[37] transmis le 13 mai 2016 à la Secrétaire d’État chargée du numérique, l’INRIA et le Conseil National du Numérique sont chargés de prototyper et d’effectuer des expérimentations visant à « noter » les loyautés des grandes plateformes privées (GAFAM). Cette expérimentation – ni les précédents rapports – n’inclut pas les plateformes publiques et la loyauté des codes sources et algorithmes utilisés par les administrations dans le cadre de leurs missions de service public.

Ces audits peuvent également être réalisés dès le développement du modèle par des études de risque lors de sa création. Ces études de risques existent déjà en ce qui concerne la sécurité des systèmes d’information et vont se développer sur les risques « vie privée » avec le règlement européen applicable en 2018 créant les « études d’impact sur la vie privée ». Sans nécessiter un coût trop important les équipes de « data scientist » de la mission Etalab effectuent des accompagnements[38] et sur des modèles utilisant des données à caractère personnel la Cnil pourrait de même effectuer des accompagnements autant dans la définition des modèles que dans la conformité des traitements.

L’ouverture suppose la possibilité du public – et de la « multitude » - de s’emparer de même du sujet. Par ailleurs, comme le précise Mark Fenster, « généralement, le niveau d’expertise, de temps et d’attention disponibles en dehors des agences gouvernementales est plus important que la connaissance disponible dedans. » [39]

Ouvert, le code est contrôlable par des communautés d’experts « data scientist » qui peuvent en saisir les subtilités et en traduire le mécanisme précis à d’autres experts juridiques, sociologues, économistes, etc. C’est par exemple le cas du code « ouvert » du portail « APB » qui a été fourni dans un format non réutilisable et dont les variables sous-tendant le modèle n’ont pas été clairement commentées. Une communauté a traduit le code, l’a rendu lisible et compréhensible pour en extraire le modèle appliqué[40].

Toutefois, un dernier défi dans la confiance dans le modèle s’applique précisément au cas des technologies « Big data ». De nombreux modèles prédictifs ne sont pas des modèles fixés dont les « évènements » sont inamovibles. Pour améliore la pertinence de la prédiction, le modèle est développé pour s’améliorer au fur et à mesure de ses prédictions, il est « autoapprenant ». Cet apprentissage peut être supervisé, semi-supervisé ou non supervisé suivant la liberté laissée à l’algorithme. Ces méthodes ne permettent pas de contrôler ex ante ou ex post puisque la structure même du modèle se modifie avec les résultats[41]. « Avec les Big Data, cependant, cette traçabilité va devenir beaucoup plus difficile. La base de prédiction d’un algorithme peut devenir beaucoup trop complexe pour qu’un être humain moyen la comprenne. »[42]

Dans ces cas précis, qui soulignons-le sont souvent les modèles présentés ou fantasmés derrière la terminologie « Big data », la transparence est une course derrière l’évolution du système de données[43].

Enfin, soulignons que la confiance dans les données traitées et les modèles utilisés supposent que ces données et ces modèles n’ont pas été modifiés frauduleusement pour en arriver au résultat. Cette sécurité est d’autant plus complexe à atteindre que l’ouverture des modèles entraîne la compréhension des mécanismes et rend plus aisées les modalités de manipulation de données en entrée.

§ 3 – Un troisième défi : continuer à chercher les causes

Les technologies « Big data » invitent à s’intéresser aux similarités, aux corrélations[44], pour prédire des résultats et corriger des conséquences. Apporter des solutions aux problèmes, des produits aux frictions[45]. Si cette approche peut apporter des solutions concrètes à des conséquences constatées, elle n’induit pas l’identification de la cause des frictions.

Michael Flowers, l’ancien chef du bureau des statistiques de la ville de New York expliquait dans un entretien aux auteurs du livre Big Data : À Revolution That Will Transform How We Live, Work and Think qu’il n’était pas intéressé par les causes, « la causalité est pour les autres, et franchement c’est très risqué quand vous commencez à parler de la causalité… Vous savez, nous avons de véritables problèmes à résoudre. »[46] Les auteurs poursuivent en ce que « nous entrons dans un monde de prédictions basées sur des constantes qui pourraient ne pas être en mesure d’expliquer les raisons de nos décisions. »[47]

Cette poursuite de la statistique, d’un « data-driven model » disruptif cher à l’esprit startup appliqué aux politiques publiques ne doit pas pour autant faire oublier que le traitement des conséquences est un chiffre qui s’autoalimente au fur et à mesure des conséquences. Le traitement de la cause, plus subtil en termes de chiffres, s’efface en même temps que la cause.

Or, comme le décrit Cathy O’Neil, « une formule peut être parfaitement inoffensive en théorie. Mais lorsqu’elle est employée à grande échelle et devient un standard national ou mondial, elle crée sa propre économie déformée et dystopique.»[48] Dans un futur imaginaire régi par des décisions automatisées, celles-ci risqueraient de devenir des standards sans qu’il ne soit possible d’en expliquer la raison. Cette « gouvernementalité algorithmique »[49] balbutiante doit être accompagnée et faire l’objet d’un débat critique.

[1] Sir W. Petty, Several Essays in Political Arithmetic, 4e édition, Londres, 1960. Consulté le 20 décembre 2016 sur : https://archive.org/stream/severalessaysin00pettgoog.

[2] Cité par J. A. Schumpeter, Histoire de l'analyse économique, Vol. 1, Paris: Gallimard, 1983.

[3] D. Diderot, Encyclopédie, Volume III, 1751-1765. Consulté le 20 décembre 2016 sur : http://classiques.uqac.ca/classiques/Diderot_denis/encyclopedie/arithmetique_politique/arithmetique_pol.html.

[4] P. N. Howard, S. Shorey, S. C. Woolley & M. Guo, Creativity and Critique: Gap Analysis of Support for Critical Research on Big Data, Oxford, UK: Project on Computational Prpaganda, 2016. Consulté le 3 décembre 2016, sur :

https://papers.ssrn.com /sol3/papers.cfm?abstract_id=2822389.

[5] D. boyd & K. Crawford, “Critical Questions for Big Data”, Information, Communication & Society, 15(5), 2012, pp. 662-679. Consulté le 3 décembre 2016, sur :

https://people.cs.kuleuven.be/~bettina.berendt/teaching/ViennaDH15/boyd_crawford_2012.pdf.

[6] K. Crawford & J. Schultz, Big Data and Due Process: Toward a Framework to Redress Predictive Privacy Harms, Boston College Law Review, 55(1), 2014, pp. 93-128. Consulté le 3 décembre 2016, sur :

https://papers.ssrn.com/sol3/ papers.cfm?abstract_id=2325784.

[7] E. Morozov, The Planning Machine : Project Cybersyn and the origins of the Big Data nation, The New Yorker, 13 octobre 2014. Consulté le 3 décembre 2016, sur :

http://www.newyorker.com/magazine/2014/10/13/planning-machine

[8] Fondateur de O’Reilly Media, une maison d’édition spécialisée dans l’informatique et « futurologue ».

[9] E. Morozov, The Planning Machine : Project Cybersyn and the origins of the Big Data nation, The New Yorker, 13 octobre 2014. Consulté le 3 décembre 2016, sur :

http://www.newyorker.com/magazine/2014/10/13/planning-machine.

[10] L. Lessig, Code Is Law : On Liberty in Cyberspace, Harvard Magazine, 2000. Consulté le 20 décembre 2016 sur : http://harvardmagazine.com/2000/01/code-is-law-html

[11] Voir notamment H. Verdier & N. Colin, L’âge de la multitude : Entreprendre et gouverner après la révolution numérique, 2012.

[12] En ce sens : Y.-A. Montjoye, L. Radaelli, V.K. Singh & A. Pentland, Unique in the shopping mall: On the reidentifiability of credit card metadata. Science, 347(6221), 30 janvier 2015, pp. 536-539. Consulté le 3 décembre 2016, sur :

http://science. sciencemag.org/content/347/6221/536.

[13] Voir en ce sens la disparition de la « personne » dans l’entretien d’Antoinette Rouvroy dans S. Abiteboul, C. Froidevaux & A. Rouvroy, Big data : l'enjeu est moins la donnée personnelle que la disparition de la personne, binaire, 2016. Consulté le 3 décembre 2016, sur : http://binaire.blog.lemonde.fr/2016/01/22/le-sujet-de-droit-au-peril-de-la-gouvernementalite-algorithmique/.

[14] Voir en ce sens l’approche « user-centric » préconisée par B. Lepri, J. Staiano, D. Sangokoya, E. Letouzé & N. Oliver, The Tyranny of Data? The Bright and Dark Sides of Data-Driven Decision-Making for Social Good, 2016. Dans B. Lepri, J. Staiano, D. Sangokoya, E. Letouzé & N. Oliver, Transparent Data Mining for Big and Small Data, Springer. Consulté le 3 décembre 2016, sur https://arxiv.org/abs/1612.00323

[15] E. Morozov, Pour tout résoudre cliquez ici – l’aberration du solutionnisme technologique (trad. M-C. Braud), FYP, 2014.

[16] E. Medina, Rethinking algorithmic regulation, Kybernetes, 44(6/7), 2015, pp. 1005-1019. Consulté le 3 décembre 2016, sur :

http://wosc.co/wp-content/uploads/2016/03/Medina-Rethinking-Algorithmic-Regulation.pdf.

[17] M. Loukides, We need open models, not just open data, Radar, 11 novembre 2014. Consulté le 3 décembre 2016, sur http://radar.oreilly.com/2014/11/we-need-open-models-not-just-open-data.html.

[18] C. O'Neil, Cool open-source models?, 27 novembre 2013. Consulté le 3 décembre 2016, sur methbabe: https://mathbabe.org/2013/11/27/cool-open-source-models/.

[19] Avis n°20161989 de la Commission d’accès aux documents administratifs.

[20] L’article L311-4 du Code des relations entre le public et l’administration dispose que « les documents administratifs sont communiqués ou publiés sous réserve des droits de propriété littéraire et artistique. »

[21] L’alinéa C de l’article L321-2 exclu des informations publiques réutilisables les informations contenues dans des documents sur « lesquels des tiers détiennent des droits de propriété intellectuelle ».

[22] Pour aller plus loin dans la distinction entre l’obligation de communication et les droits de réutilisations des informations publiques, voir W. Gilles, « Le Renouveau du droit à l'information à l'ère du numérique : entre obligation de publication de l'administration et affirmation du droit d'accès du citoyen ». Revue Internationale de Droit des données et du Numérique, 2016(2), 1-20. Consulté le 3 décembre 2016, sur :

http://ojs.imodev.org/index.php/RIDDN/article/view/39.

[23] Dans son avis n°20144578 du 8 janvier 2015, la Commission d’accès aux documents administratifs « estime que les fichiers informatiques constituant le code source sollicité, produits par la direction générale des finances publiques dans le cadre de sa mission de service public, revêtent le caractère de documents administratifs, au sens de l’article 1er de la loi du 17 juillet 1978. »

[24] L’article L311-7 du Code des relations entre le public et l’administration précise que « lorsque la demande porte sur un document comportant des mentions qui ne sont pas communicables en application des articles L. 311-5 et L. 311-6 mais qu'il est possible d'occulter ou de disjoindre, le document est communiqué au demandeur après occultation ou disjonction de ces mentions. »

[25] Voir en ce sens X. Berne, Comment l'Etat s'est ouvert à l'open source avec OpenFisca et Mes-aides, NextInpact, 2015. Consulté le décembre 20, 2016, sur :

http://www.nextinpact.com/news/93605-comment-l-etat-s-est-ouvert-a-l-open-source-avec-openfisca-et-mes-aides.htm.

[26] J. C. McGinty, Algorithms Aren't Biased, But the People Who Write Them May Be. The Wall Street Journal, 2016. Consulté le 20 décembre 2016, sur :

http://www.wsj.com/articles/algorithms-arent-biased-but-the-people-who-write-them-may-be-1476466555.

[27] K. A. Bamberger, Technologies of Compliance: Risk and Regulation in a Digital Age. Texas Law Review, 88(4), 2010, pp. 669-740. Consulté le 3 décembre 2016, sur :

http://scholarship.law.berkeley.edu/facpubs/1665/.

[28] Voir en ce sens le « rapport minoritaire » de P. K. Dick.

[29] N. Byrnes, Why We Should Expect Algorithms to Be Biased, MIT Technology Review, 2016. Consulté le décembre 20, 2016, sur https://www.technologyreview.com/s/ 601775/why-we-should-expect-algorithms-to-be-biased/

[30] T. Z. Zarsky, Transparent Predictions. Illinois Law Review, 27 août 2013, pp. 1503-1570. Consulté le 3 décembre 2016, sur https://www.illinoislawreview.org/wp-content/ilr-content/articles/2013/4/Zarsky.pdf.

[31] E. Bozdag, “Bias in algorithmic filtering and personalization”, Ethics and Information Technology, 15(3), septembre 2013, pp. 209-227. Consulté le 3 décembre 2016, sur : http://dl.acm.org/citation.cfm?id=2560640.

[32] J. Angwin, J. Larson, S. Mattu & L. Kirchner, “Machine Bias”, ProPublica, 23 mai 2016. Consulté le 3 décembre 2016, sur https://www.propublica.org /article/ machine-bias-risk-assessments-in-criminal-sentencing.

[33] I. Benslimane, « Predpol : prédire des crimes ou des banalités ? », Cortecs, 10 décembre 2014. Consulté le 3 décembre 2016, sur https://cortecs.org/ mathematiques/ predpol-predire-des-crimes-ou-des-banalites/.

[34] E. Brouze, Admission post-bac : « Le code est quasiment inexploitable » Rue89, 19 octobre 2016. Consulté le 3 décembre 2016, sur :

http://rue89.nouvelobs.com/2016/10/19/admission-post-bac-code-est-quasiment-inexploitable-265455.

[35] En ce sens, D. K. Citron, « Technological Due Process », Washington University Law Review, 85, 1249-1313, 2007. Consulté le 3 décembre 2016, sur :

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1012360.

[36] Voir en ce sens les propositions de l’association La Quadrature du Net relatives à la loyauté des plateformes. Consulté le 21 décembre 2016 sur :

https://www.laquadrature.net/files/propositions%20LQDN%20Loyaut%C3%A9%20des%20plateformes.pdf.

[37] I. Pavel & J. Serris, Modalités de régulation des algorithmes de traitement des contenus. Conseil Général de l'Economie, 2016. Consulté le 20 décembre 2016, sur :

http://www.economie.gouv.fr/files/files/directions_services/cge/Rapports/2016_05_13_Rapport_Algorithmes(1).pdf.

[38] Voir en ce sens le très bon exemple d’ouverture de l’algorithme « Bob Emploi », consulté le 20 décembre 2016 sur https://agd.data.gouv.fr/2016/11/14/760/

[39] M. Fenster, “The Opacity of Transparency”, Iowa Law Review(91), 885-949, 2006. Consulté le 3 décembre 2016, sur :

https://papers.ssrn.com/sol3/papers.cfm? abstract_id=928550

[40] S. Graveleau, APB : les questions que soulève le code source, Le Monde, 2016. Consulté le 20 décembre 2016, sur :

http://www.lemonde.fr/campus/article/2016/10/25/apb-les-questions-que-souleve-le-code-source_5020076_4401467.html.

[41] Voir notamment J. Burrel, "How the machine 'thinks': Understanding opacity in machine learning algorithms", Big Data & Society, 3(1), 10, 2016. Consulté le 3 décembre 2016, sur https://ssrn.com/abstract=2660674.

[42] K. Cukier & V. Mayer-Schönberger, Big Data: A Revolution That Will Transform How We Live, Work, and Think, Eamon Dolan/Houghton Mifflin Harcourt, 2013.

[43] T. Z. Zarsky, “Transparent Predictions”, Illinois Law Review, 27 aout 213, pp. 1503-1570. Consulté le 3 décembre 2016, sur :

https://www.illinoislawreview.org/wp-content/ilr-content/articles/2013/4/Zarsky.pdf

[44] T. Vigen (s.d.), Spurious correlations. Consulté le 3 décembre 2016, sur :

http://www.tylervigen.com/spurious-correlations.

[45] Voir en ce sens le manifeste des Startups d’Etat : https://beta.gouv.fr/startups.html

[46] Propos rapportés dans E. Morozov, “The Planning Machine : Project Cybersynand the origins of the Big Data nation”, The New Yorker, 13 octobre 2014. Consulté le décembre 03, 2016, sur http://www.newyorker.com/magazine/2014/10/13/planning-machine.

[47] K. Cukier & V. Mayer-Schönberger, Big Data: A Revolution That Will Transform How We Live, Work, and Think, Eamon Dolan/Houghton Mifflin Harcourt, 2013.

[48] C. O'Neil Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy, Crown.

[49] A. Rouvroy & T. Berns, « Gouvernementalité algorithmique et perspectives d’émancipation », Réseaux, 1(177), 163-196, 2013. Consulté le 3 décembre 2016, sur :

http://www.cairn.info/resume.php?ID_ARTICLE=RES_177_0163.