S. Chignard – Datanomics : quel business model pour les data ?

Métiers Décryptages
Programmes

Nous sommes entrés dans une période de multiplication des données et l’on voit émerger des entreprises, comme Airbnb ou Uber, qui viennent révolutionner, parfois de façon assez violente, les business models traditionnels. Simon Chignard, co-auteur de l’ouvrage de référence dans le domaine de l’économie de la donnée Datanomics (Fyp Editions) analyse ces transformations. Il est venu nous en exposer les grandes lignes le 4 février dernier, morceaux choisis

Simon Chignard

Simon Chignard

Je vais essayer de vous dresser le portrait de ce qui constitue aujourd’hui le paysage des données. Quand on parle de données, très souvent on ajoute un adjectif derrière ce terme. On ne parle pas simplement de données, mais de données massives, de données ouvertes, de données personnelles, de données collaboratives… Comme si notre pensée sur les données était elle-même en silos : on parle séparément de chacun de ces phénomènes. Pour aborder le sujet de manière globale, il fallait choisir une clé de lecture. Avec Louis-David Benyayer, co-auteur de Datanomics, nous avons retenu un angle particulier qui est celui de la valeur. Pourquoi ? Parce que la valeur est à la fois le déterminant et le résultat de nos actions. C’est parce que l’on imagine une certaine valeur aux données que l’on agit d’une certaine manière. De même, ce sont nos actions qui contribuent à donner de la valeur aux données.

Que vaut la donnée ?

Le premier point qui frappe quand on parle de données c’est l’image du déluge souvent reprises dans les médias. 2,5 trillions de teraoctets de données sont produites chaque jour. 90% des données sont produites au cours des 2 dernières années. Parler de déluge c’est intéressant car, originellement, le Déluge désigne une malédiction. Comment on en est arrivé là ? Pourquoi on est dans un univers intensif en données ?

Il faut bien trouver une date pour commencer, j’ai choisi 1984 qui correspond à la création en France du réseau Sentinelles. Il s’agit du premier réseau de télé épidémiologie, c’est-à-dire de suivi via des moyens de télécommunication et d’informatique des épidémies, notamment de la grippe. 50 médecins sont volontaires pour recenser tous les patients qui présentent tout un tas de symptômes liés à la grippe. Aujourd’hui, ce sont 1500 médecins qui participent à ce réseau. Sentinelles est géré par l’INSERM, un organisme de recherche publique, et les données recueillies nous permettent d’émettre des alertes de type « la grippe arrive en Bretagne ». Pendant à peu près 30 ans, Sentinelle a eu le  « monopole » de la mesure de la grippe en France. En 2008, Google a lancé le projet Google Flu Trends (GFT), qui fournit lui aussi un suivi de l’épidémie grippale.

googleflu_530

Si l’ambition est la même que celle du réseau Sentinelles, tout sépare ces deux projets. D’un côté vous avez un projet d’État, de l’autre un projet d’entreprise. D’un côté vous avez quelque chose qui est qualifié par des médecins, de l’autre vous avez une source de données utilisée qui est tout à fait différente puisqu’on analyse les requêtes des utilisateurs dans le moteur de recherche. Si vous tapez des mots comme « nez qui coule, gorge qui gratte » vous donnez une alerte à l’algorithme de Google qui vous présuppose comme étant potentiellement grippé. GFT a d’ailleurs connu récemment de nombreux déboires, ses prévisions s’étant avérées largement surestimées par rapport aux cas réels de grippe. Plus fondamentalement, ce qui sépare ces deux projets ce sont les 30 années qui se sont écoulées depuis 1984 et qui, sur le sujet de la donnée, ont été fondamentales. Il y a 30 ans, la donnée était un produit de luxe. A l’époque, on travaillait dans une économie de moyens par rapport à ces questions de stockage de données. On collectait, on stockait et on traitait peu de données, non pas dans un souci de protéger la vie privée des individus ou parce que notre éthique du sujet était différente mais principalement parce que cela coûtait très cher. Ce qui était alors un produit de luxe est devenu aujourd’hui une commodité.

Comment expliquer ce phénomène ?

On peut commencer par illustrer ce phénomène en évoquant la loi de Moore : tous les 18 mois la puissance des ordinateurs double. On peut facilement visualiser cette loi en regardant l’évolution du personnage d’un jeu vidéo entre 1992 et 2014 : on passe de quelques pixels avec 3 couleurs à quelque chose qui ressemble à de la photo. C’est aussi ce qui s’est passé sur les systèmes d’information : ce que je peux connaître aujourd’hui de mon client est très précis, bien plus précis que les catégories traditionnelles de segmentation sur lesquelles travaillent la plupart des entreprises.

Un autre phénomène, concomitant à la loi de Moore est essentiel : c’est celui de la baisse des coûts. Le coût d’un ordinateur portable en 1984 représentait 5 mois du salaire moyen d’un américain. En 2012, ce coût est descendu à 3,5 jours. Non seulement les systèmes sont de plus en plus puissants, mais ils sont proportionnellement de moins en moins coûteux. Tous ces phénomènes aboutissent à cette idée que la donnée est devenue une commodité.

ordinateurmeilleures-ventes-pc-portable

Quand on parle de big data, on insiste souvent sur cette notion de grand volume. Or, il me semble qu’il y a un autre élément important, c’est le fait que ces données sont produites de manière différente. Prenons l’exemple d’un tweet. Derrière chaque tweet il y a entre 40 et 60 méta-données, et la richesse est très souvent dans ces méta données qui décrivent le tweet. On y trouve par exemple le fuseau horaire dans lequel s’est inscrit l’utilisateur la première fois qu’il a lancé l’application, l’heure à laquelle le tweet a été envoyé ; on peut comparer ces données pour en déduire des choses sur le profil de l’utilisateur (est-il touriste ou habitant de cette ville ?). On a ainsi d’autres manières de produire de la données : à chaque fois que je produis une donnée il y a tout un tas d’autres données qui sont produites.

Les traces numériques, les méta-données, se rangent dans une même catégorie qui est celle de la part des données qu’on produit de manière non intentionnelle ou non consciente. Cette part là, que dans Datanomics on a appelé « l’ombre portée » des données, est plus grande aujourd’hui que la part des données que l’on produit de manière consciente et intentionnelle.

Que provoque cette combinaison de problématiques techniques, économiques et d’ombre portée des données ?

La première conséquence est que la rareté n’est plus le moteur principal de la valeur des données. De manière traditionnelle, les trois fondements de la valeur d’un bien sont le travail (« tout travail mérite salaire »), la rareté (« ce qui est rare est cher ») et l’utilité. Le mode de production actuel de la donnée remet en cause deux de ces fondements, le travail et la rareté..Dans Datanomics, nous avons déterminé 3 facettes de la valeur des données. La première facette, c’est la donnée comme une matière première. Certaines données s’achètent et se vendent. Par exemple, pour calculer le coût d’une donnée personnelle, on peut prendre la capitalisation financière de Facebook, la diviser par le nombre d’utilisateurs. On peut aussi regarder combien vaut sur le marché noir un numéro de carte bancaire piratée ou de sécurité sociale, entre 5 et 30 dollars. Il y a un marché de la donnée comme matière première. Si la donnée est une matière première, on peut essayer de se la représenter.

La donnée : pétrole, or ou diamant brut ?

Quand on parle de données, il y a toujours les mêmes métaphores qui reviennent. Pour commencer, on parle beaucoup d’or noir, de carburant. Peut-on comparer la donnée au pétrole ? D’abord, on sait qu’il y a un stock fini de pétrole sur Terre, pour la donnée, c’est l’inverse. La deuxième différence est que le pétrole est une matière qui se détruit quand on la consomme. Or, on peut faire tourner 1000 applications avec une seule donnée. La deuxième métaphore qui revient souvent c’est celle de l’or. Comme pour le pétrole, il y a un stock fini d’or sur Terre. De plus, l’or est un bien rival : si j’ai un lingot d’or vous ne l’avez pas au même moment. Par contre, l’or a une autre caractéristique importante : c’est sa valeur de thésaurisation. La donnée, elle, ne prend pas de valeur à être thésaurisée, elle prend de la valeur à circuler, mais pas à être stockée quelque part. La troisème métaphore qui revient est celle du diamant brut. On retrouve ici une caractéristique intéressante : le diamant travaillé vaut plus que le diamant brut, ce que l’on peut comparer à la donnée. Enfin, la dernière métaphore que l’on entend moins, mais que je préfère est celle du blé.

Quand on récolte du blé, on a deux possibilités principales : le mettre dans le circuit de transformation ou le garder et le re-semer l’année d’après. C’est quelque chose qu’on retrouve aussi avec la donnée, le fait de pouvoir arbitrer entre un usage actuel et un usage futur. D’ailleurs, on peut ne pas avoir à faire le tri et faire à la fois un usage actuel et aussi un usage futur.

La seconde facette des Datanomics, c’est d’envisager la donnée comme levier. Un levier pour raisonner et pour décider d’une manière assez différente puisqu’on va prendre des décisions dans un monde où la donnée est abondante. Le premier élément qu’il faut bien saisir quand on parle de décision et de ce que font les données massives, c’est que pendant très longtemps on a raisonné sur des techniques d’échantillonnages : puisque c’est trop coûteux, compliqué d’avoir l’ensemble de la population dans une base, on n’en prend qu’une partie et on considère que cet échantillon est représentatif. La promesse du big data c’est de dire n=1. C’est comme si plutôt que de faire des sondages on ne faisait que des élections. Qu’est ce que ça change de travailler sur l’ensemble de la population et pas sur un échantillonnage ? Cette approche là va nous amener à privilégier des questions qui tournent autour du quoi plutôt que des questions qui tournent autour du pourquoi. Par exemple, l’un des meilleurs prédicateurs d’un taux d’abstention dans une commune aujourd’hui en France tient en 4 choses : la latitude, la longitude, le nombre de chambres dans les foyers de la commune et la présence ou pas d’une Appellation d’Origine Contrôlée sur le territoire. On peut se demander en quoi le fait d’avoir une AOC sur le territoire est un indicateur d’abstention. C’est là qu’il faut bien distinguer quand on est capable de répondre au quoi et quand on est capable de répondre au pourquoi. Ça n’explique pas, ça constate : je ne fais que constater que dans les territoires où il y a des AOP ou des AOC il y a un taux d’abstention différent d’ailleurs. C’est la différence fondamentale entre la corrélation et la causalité. Par exemple, si en analysant les grandes bases d’un assureur qui ferait de l’assurance auto et de l’assurance santé on constate que tous ceux qui possèdent une voiture rouge ont une probabilité plus forte d’avoir un cancer de la prostate, çela a quand même une valeur : en matière de santé publique on va d’abord s’adresser à ceux qui ont des voitures rouges. Donc, parfois, la corrélation a une valeur d’action, elle permet de faire des choses mais ne permet pas d’expliquer. Ç’est utile, à condition que l’on comprenne les limites et que l’on sache toujours distinguer la corrélation et la causalité.

Il y a un deuxième élément sur lequel je voudrais insister parce qu’il concerne beaucoup les organisations. Les données permettent de décider mieux, plus vite, plus finement, mais surtout elles nous aident à décider autrement. On peut voir un bon exemple de ce que les données peuvent faire dans le processus de décision dans le film Le Stratège tiré de l’histoire vraie d’un manager d’un club de football américain de la ville d’Oakland. Toutes les saisons, son équipe se classe très bien et puis l’année d’après ils redescendent parce qu’il se fait piquer ses meilleurs joueurs par ceux qui ont plus d’argent que lui. Il rencontre un datascientist qui lui montre qu’en utilisant les données il peut changer sa perspective sur qu’est-ce qui constitue un bon joueur de football américain. Cette approche s’appelle la « sabermétrie » et a permis de changer complètement la manière dont on recrute les joueurs de football américain.

le stratège

La deuxième conséquence, c’est que les processus de décision sont profondément remis en cause. Avec des systèmes de big data, on peut faire soit des systèmes très centralisés, ou alors faire des systèmes qui aident à la décision locale et qui vont permettre à chacun des agents sur le terrain de prendre leur décision localement selon les conditions qu’ils connaissent localement. Ce sont deux approches très différentes. Et globalement le big data permet de faire les deux. Les données sont un des éléments qui permettent de décentraliser des décisions. Dans la grande distribution il y a déjà des initiatives pour fournir à chaque chef de rayon dans chaque magasin le mix marketing qui est lié à la connaissance qu’on a du magasin. Le chef de rayon s’organise à partir des éléments d’aide à la décision qui lui auront été fournis.

La donnée, un actif comme un autre ?

Je ne vais pas répondre à cette question au sens comptable mais en termes de stratégie. Cette approche consiste à dire que celui qui contrôle la donnée et son usage possède une arme stratégique pour défendre ou conquérir une position concurrentielle. Contrôler aujourd’hui ça ne veut pas dire fermer, contrôler ça veut dire décider de qui accède et c’est très différent. Prenons Twitter ou Facebook qui, pendant très longtemps, ont ouvert des API (Application Programming Interface) qui permettaient d’accéder aux données et qui, du jour au lendemain, sont capables de décider de changer les conditions d’accès à leurs données. Qu’est-ce qui fait alors la valeur ? La donnée ou le fait d’être capable d’ouvrir ou de fermer le robinet ? Ce n’est pas la donnée fondamentalement, c’est le contrôle sur toute une filière de réutilisateurs de ces données. L’exemple d’Uber est un peu la quintessence de tous ces questionnements. En ce moment, on a des tas d’études très précises sur ce qu’Uber fait aux données, et inversement. Par exemple, on commence à voir sortir des choses précises sur les données qui sont produites par les chauffeurs d’Uber quand ils ne sont pas en train de transporter des passagers. Dans le système Uber, quand on est chauffeur et qu’on ne transporte pas de passagers on n’est pas payé. Toutes ces données captées permettent, par exemple, de faire du routage, de faire du pricing dynamique (par exemple, dès qu’il pleut les prix augmentent), de voir si le chauffeur est en train de travailler pour un concurrent… Et puis ces données servent aussi de monnaie d’échange à Uber pour la régulation. Par exemple, la ville de Boston a fait un deal avec Uber : elle autorise Uber à intervenir sur son territoire mais en échange elle veut accéder à toutes les données que le service produit. Au lieu de contrôler à priori on contrôle à posteriori : on vérifie que les courses sont bien faites au bon moment, qu’il n’y a pas d’abus… Ça donne également un certain nombre d’éléments pour comprendre les dynamiques de déplacement. Avec cet exemple d’Uber on voit bien comment la donnée est utilisée comme un actif stratégique.

Le deuxième élément sur cet aspect d’actif stratégique, c’est l’impact des données sur la notion même de concurrence. Récemment, Guillaume Pépy, patron de la SNCF, a déclaré « notre principal concurrent c’est Google ». Il a raison en termes de dynamique concurrentielle : aujourd’hui les concurrents ce ne sont pas simplement ceux qui sont dans votre business. En revanche, il a sans doute tort car son concurrent ce n’est sûrement pas Google, mais sans doute une des dizaines de start-up qui arrivent sur ce business là. Autre exemple, autour des objets connectés, on voit beaucoup ce type de mouvements stratégiques. Par exemple, l’entreprise Coyote se lance dans l’assurance automobile : un boitier Coyote qui aide à détecter les radars collecte plein d’autres choses sur notre comportement, le nombre de kilomètres parcourus… Autant de données qui sont au coeur du business de l’assurance auto. On a des fabricants d’objets connectés dans le domaine de la santé qui ont des velléités très claires pour construire des assurances maladies dédiées sur tel ou tel type de pathologie. Dernier exemple, cet été le système de cartographie Here a été mis en vente. Il est très intéressant de voir les sociétés qui ont voulu racheter ce système : il y avait Google, Uber, et un consortium de constructeurs automobile allemand emmené par BMW, qui a remporté la mise. En termes de dynamique de marché, c’est très intéressant de voir en face un moteur de recherche, une plateforme de VTC et des fabricants de voiture. BMW a expliqué son souhait de racheter ce système : ils ont besoin d’avoir dans leurs voitures un système de cartographie, et s’ils n’ont pas celui-là, ils seront obligés d’avoir celui de Google. Or, à chaque fois qu’on utilise le système de Google on fournit à Google tout un tas de données très précises sur le fonctionnement du véhicule, les conditions de circulation, bref on est en train de lui fournir tout ce qu’il faut pour qu’il construise sa voiture autonome.

Nokia-HereGoogle-maps

Donc la troisième conséquence sur ce que provoquent les données, c’est que les mouvements concurrentiels majeurs sont aussi intersectoriels. Aujourd’hui un constructeur automobile ou une banque aura toujours pour concurrent demain une autre banque ou un autre constructeur automobile mais on va voir aussi apparaître des concurrents qui viennent de secteurs d’activités qui n’ont rien à voir. Les données sont l’un des facteurs qui renforcent cette idée là, celle d’une couche supplémentaire de concurrence.

Quel regard portez-vous sur le design ?

La donnée permet quelque chose si elle est reconstituée de manière contextuelle, sinon elle ne sert à rien, elle ne produit rien. C’est là où je pense qu’il y a un rôle fondamental du design. Prenons l’exemple des panneaux indicateurs de vitesse se sont multipliés à l’entrée de nos villages. Cela vous donne une information que vous possédez déjà (il suffit de regarder sur le tableau de bord de votre voiture), mais de manière contextuelle. Les psychologues américains qui ont designé ces premiers systèmes voulaient tester la notion de boucle de rétroaction. Ils pensaient que l’effet serait transitoire. Or, ce système fonctionne : il contribue à réduire d’environ 10 à 15% la vitesse constatée, même plusieurs mois après leur installation. Pourquoi cette donnée là est efficace ? Très souvent, il y a un autre stimuli qui va avec : un sourire, la couleur rouge… La donnée est contextualisée et on sait très clairement l’action qu’il faut faire. Et quand on freine, ça redonne une donnée avec un nouveau stimuli : on a une gratification immédiate. C’est là où le design peut vraiment apporter quelque chose. C’est là qu’est la valeur : je te donne une donnée que tu pourrais avoir mais sous une forme et avec une incitation à agir qui est immédiate.

Partager cet article

Articles liés

2785 vues
dsc06743
La smart city… et nous ?juin 26, 2017 par Zélia DARNAULT
2358 vues
capture-decran-2017-03-07-a-10-12-32
La donnée : un bien commun incontournable pour la...mars 7, 2017 par Zélia DARNAULT
3080 vues
capture-decran-2017-01-31-a-12-28-47
Le coût énergétique du webjanvier 31, 2017 par Zélia DARNAULT

Articles Populaires

Laisser un commentaire