Datarama : S. Grauwin – Représenter la complexité
novembre 22, 2016 par Zélia DARNAULT
Sebastian Grauwin est physicien et l’auteur d’une thèse sur l’utilisation des outils de la physique pour étudier les phénomènes sociaux et les sytèmes sociaux complexes. Aujourd’hui, il fait des recherches dans le domaine de la donnée, de la visualisation.
Morceaux choisis
« Je souhaitais commencer cette intervention en vous présentant une zoologie des acteurs, des usages et des nouveaux métiers autour de la donnée. La donnée est présente, par exemple, dans toutes les applications qui sont dans nos smartphones. Elle est utilisée par des acteurs de plus en plus institutionnels, par exemple toutes les grandes villes mettent en place des systèmes d’open data où elles partagent des données liées aux transports en commun, à la pollution, aux espaces verts, etc. On a également des données de plus en plus géolocalisées, par exemple on va analyser les sentiments présents dans les tweets et déterminer où les gens sont les plus heureux. On traque donc de plus en plus les usagers. Aujourd’hui, il y a une grande diversité de métiers autour de la donnée : les data-miners, les data-managers, les data-analystes, les data-scientists, les data-designers, etc.
Je vais vous parler plus précisément des données utilisées dans la recherche et des problématiques d’étude dans ce domaine. Nous allons également étudier le type de communication envisageable autour des données, selon les usages et les usagers (chercheurs ou grand public).
Les données dans la recherche
En physique, il y a des lois qui décrivent les comportements entre atomes, on sait comment ils s’attirent, se repoussent. On se sert de ces lois microscopiques pour comprendre l’échelle macroscopique. On va se demander alors si l’on peut faire la même chose dans les phénomènes sociaux : est-ce qu’on peut, à partir de lois ou d’observations sur les comportements humains, déduire ce qui va se passer au niveau collectif ? Une première approche de physcien, quand on n’a pas de données, est de faire un modèle mathématique. Par exemple, on fait des sociétés virtuelles, où l’on va créer des agents virtuels et on définit des lois d’interaction entre ces agents virtuels. Ensuite, on essaie d’induire ce qui va se produire au niveau collectif. Prenons l’exemple du modèle de Schelling qui se base sur la ségrégation. Cette ville virtuelle est composée d’agents verts et rouges qui ont des préférences : ils préfèrent être entourés d’agents qui ont la même couleur qu’eux, mais leur préférence maximale c’est d’être dans un environnement mixte. On génère donc une ville aléatoire et on va autoriser les agents à déménager. On observe ensuite l’évolution de cette ville virtuelle. D’un modèle où les choses sont à peu près partagées, on arrive à un modèle où les choses sont complètement ségrégées : tous les rouges sont d’un côté, tous les verts de l’autre, alors même que ce que les gens préfèrent individuellement c’est être dans un environnement mixte. On montre ainsi, dans un modèle de simulation, qu’on bouge pour son propre intérêt. Cet exemple prouve que le lien entre niveau micro et macro n’est pas toujours simple. Les agents regardent seulement leur propre intérêt et vont pouvoir avoir un effet néfaste sur les personnes autour d’eux. Le petit intérêt personnel l’emporte sur l’intérêt général d’un environnement mixte prévu au départ. Même dans un environnement complètement virtuel, faire le lien entre ce que les gens veulent faire et ce qui va se passer au niveau collectif n’est pas simple, Quand on va aller dans le réel ce sera encore plus dur.
La deuxième approche dans le domaine de la recherche pour comprendre ce qui se passe entre individu et collectif est de s’intéresser aux données. Par exemple, on s’est intéressé aux données téléphoniques : la marque Ericsson a agrégé un certain nombre de données grâce aux antennes relais (comme le nombre d’appels ou d’SMS qui transitent) et s’est demandée ce qu’elle pouvait en faire. La première étape a été de visualiser ces données, de les positionner et de voir si on pouvait en sortir des patterns, des motifs récurrents. Ici, à Londres, si on regarde une semaine typique de données sur le quartier de la City, on va observer une signature avec des pics d’alternance jours/nuits et semaine/week-end. Si l’on regarde la même semaine typique dans une autre zone de la ville, les types d’alternances ne seront pas les mêmes, et l’on obtiendra d’autres signatures. La signature d’utilisation des données téléphoniques est donc spécifique et, en regroupant les zones qui ont des signatures similaires, on va repérer le centre d’affaires, les zones commerciales, les zones résidentielles, les zones de loisirs, etc. En récupérant les données, on peut donc faire une analyse automatique qui va être intéressante à la fois pour les opérateurs téléphoniques (ils pourront savoir où est le trafic et où installer, par exemple, des antennes relais), mais aussi pour les politiques de développement urbain car nous avons là une analyse rapide et à jour de l’utilisation du terrain. Et si l’on fait la même étude qu’à Londres pour New York ou encore Hong Kong, on va détecter une signature qui est la même dans le centre d’affaire de ces trois villes, par contre on a des signatures typiques dans les quartiers résidentiels de chaque ville. On peut voir ainsi les différences culturelles, économiques et technologiques.
Intéressons nous à d’autres exemples de ce type d’analyse de détection de patterns. A New York, on s’est basé sur les données téléphoniques pour des enquêtes épdémiologiques, pour chercher à déterminer comment les gens sont exposés à la pollution urbaine. D’habitude, dans ce genre d’étude, on considère que les gens sont toute la journée dans leur lieu de résidence, l’impact global se base donc uniquement sur les lieux de résidence. Cette étude-là, en se basant sur les données téléphoniques, donc sur nos lieux de vie réels dans la ville, permet de voir que les indices de pollutions sont bien plus élevés qu’on ne le croit. Ainsi, détecter des patterns globaux comme ceux-là peut permettre de déterminer des politiques de santé publique.
Ces exemples d’analyses de données tentent de déterminer des patterns répétitifs. Il y a des limites à cette pratique : pour faire des analyses intéressantes, il faut des bases de données différentes ; il y a également des limites légales (à qui appartiennent les données, on doit faire attention à la manière dont on les utilise) et des questions sociétales autour des big data.
En déterminant ces patterns répétitifs, on va en conclure que notre comportement est à 90% prédictif. Est-ce si intelligent que cela ? En déterminant des patterns répétitifs, on s’intéresse aux choses qu’on fait tous les jours. Ce genre de patterns n’est donc pas tellement intéressant parce qu’on ne sait pas ce qui va se passer si il y a un événement imprévu. On peut donc connaître les comportements des individus dans un aspect de leur vie, mais on ne sait rien de leurs motivations profondes et complexes. Il faut donc savoir combiner ces détections de patterns avec une modélisation. Nous avons essayé de le faire en regardant les tweets émis pendant un tournoi de golf, un événement qui a duré cinq jours où un demi million de tweets ont été émis. On a commencé par extraire tous les tweets relatifs à ce tournoi grâce au hashtag utilisé et on a obtenu des informations comme le nombre de tweets global, le hashtag utilisé, le nombre de retweets, la localisation de l’utilisateur, la longueur des tweets, etc. On peut donc faire une première analyse de détection de patterns typiques, avec un gros pic de tweets pendant les cinq jours du tournoi. On s’est ensuite intéressé à la longueur des tweets et on a observé que les tweets sont beaucoup plus courts durant les phases de tournoi. On se rend compte que cette distribution est liée à certains mécanismes mentaux, à des lois générales. Cette toute petite brique nous permet de comprendre ce qui va se passer psychologiquement sur la manière de réagir à un événement sportif et de proposer des modèles comportementaux.
Nous allons maintenant nous intéresser à la façon de communiquer en recherche autour des données, des résultats. Les spécialistes utilisent des graphiques complexes qui ne peuvent pas être communiqués au grand public. Nous allons donc privilégier un visuel attirant avec un message clair qui raconte une histoire, qui donne un détail, qui va donc être efficace pour communiquer. On peut également se demander comment on communique entre chercheurs. Nous allons nous intéresser à la création de cartographies destinées à la communauté scientifique. En effet, dans le domaine de la recherche, il y a un besoin d’avoir des cartes pour visualiser l’état de la recherche scientifique, pour avoir une vision globale dans un domaine précis ou un institut. On cherche à définir des communautés thématiques en regroupant les références que les gens partagent, puis on essaie de détecter des groupes et on en fait une représentation plus synthétique. On obtient donc une carte, et à côté de cette carte, pour chacune de ces communautés, on va créer des sortes de fiches d’identité. Nous avons donc une carte avec, derrière, un PDF de 200 pages, l’ensemble n’est donc pas très pratique. En 2016, on a essayé de faire des visualisations interactives, avec le même type de carte qu’avant sauf que l’on pouvait interagir directement. Ce genre de carte va servir de terreau de discussion. Un outil interactif comme celui-ci permet d’avoir un outil adaptable à des publics différents et qui ne donne pas trop d’informations.
Quel est l’intérêt des données dans le monde de la recherche ? De notre point de vue, on veut pouvoir explorer les données, faire des découvertes, interroger notre conception du monde, favoriser le dialogue entre experts. Les décideurs qui font appel aux chercheurs ont en général une demande précise : ils veulent un outil qui permette de prendre une décision. On peut comprendre ce besoin, mais cela nous fait porter, à nous analystes, le poids de la décision. La façon avec laquelle on va montrer ces données est déterminant sur celle-ci. Il y a donc un véritable besoin de dialogue entre les différents intervenants autour de la donnée (analystes, designers, décideurs, etc.) pour confronter les différentes méthodes. »
Articles liés


