La révolution du “Big Data” qui doit changer nos vies

7

Ce billet est un compte-rendu du livre Big Data: A revolution that will transform how we live, work, and think qui est sorti ces derniers jours en Amérique. Après lecture, je résumerai au cours du mois quelques titres retenus dans la chronique mensuelle sur les parutions à venir. Celle du mois de mars a été publiée il y a quelques jours : 7 livres à ne pas manquer en mars.

Comment vous parler de “Big Data” ?

Difficile de parler en détails d’un livre comme Big Data: A revolution that will transform how we live, work, and think. Je me suis posé la question en lisant le bouquin la semaine dernière. Comment en parler sans rendre tout ça trop technique en tentant d’en faire ressortir l’essentiel (lire : ne pas rendre un sujet passionnant un peu ennuyant). Certes, “Big Data” est évidemment un thème fort du web ces derniers mois. Comprendre mieux pourquoi devrait être suffisant pour vous intéresser à ce billet.

D’un côté, il y a effectivement un aspect un peu austère si vous ne raffolez pas des chiffres en général ou si les questions liées aux probabilités, aux prédictions, à la datification et aux corrélations ne sont pas vos sujets préférés au petit déjeuner. Déjà ici, je teste probablement certains d’entre vous parmi les moins enclins à continuer de lire. Je m’arrête donc.

D’un autre côté, il y a un aspect très pratico-pratique à ce bouquin qui nous permet d’explorer tout le potentiel du phénomène du “Big Data” dans notre vie quotidienne au cours des prochaines années. Ce bouquin contient beaucoup de ces exemples qui pourront modifier nos vies, y compris des exemples qui sont déjà en place ainsi que d’autres applications potentielles qui n’attendent que leur heure pour se concrétiser. D’autres qui resteront peut-être de la fiction mais qui pourront faire du bon matériel pour le cinéma.

J’ai donc décidé de vous parler de ce bouquin en mettant l’emphase sur ces applications au quotidien et ces exemples qui vont encore mieux illustrer ce qu’est le “Big Data“. Et si vous vous retrouvez, même malgré vous, dans une conversation sur le sujet… vous serez au moins de quoi on parle. Pour d’autres, j’espère que ces quelques lignes vous donneront envie de lire ce bouquin au complet. Bouquin, par ailleurs, qui devient de plus en plus intéressant au fil des chapitres.

Qu’est-ce que le Big Data ?

Co-écrit par Viktor Mayer-Schonberger et Kenneth Cukier, Big Data: A revolution that will transform how we live, work, and think a été publié au début du mois en Amérique et est disponible sur Amazon, y compris en version numérique.

“Big data” refère à l’utilisation de données à une très grande échelle et dont les résultats ne pourraient être les mêmes si les données étaient extraites à partir d’une plus petite base. L’objectif en est d’extraire de nouvelles idées ou créer une nouvelle valeur selon des moyens qui vont changer les marchés, les organisations, les relations entre les citoyens et les gouvernements, et la société en général. La révolution à venir est moins dans les machines qui traiteront ces données mais comment on les utilisera.

Big Data” aura donc besoin de grandes quantités de données. Cette quantité amènera généralement des imperfections dans leur qualité, ce qui donnera donc un niveau de précision (messiness of data) moins grand que ce que l’on est habitué de voir. L’objectif n’est pas d’avoir une plus grande précision avec plus de données mais bien d’avoir accès à de nouveaux savoirs.

L’idée originale vient du constat que le volume d’informations a grossi tellement vite ces dernières années que de nouveaux outils technologiques ont dû être développés pour pouvoir les analyser. Voici quelques exemples qui sont plus proches de nous.

Google traite 24 pétaoctets de données par jour. C’est beaucoup et pour vous en convaincre, allez voir cette infographie où on vous explique ce que ça représente. C’est plus que tout l’espace combiné des disques durs manufacturés sur la planète en 1995. Une seule journée équivaut aussi à la moitié de tout ce qui a été imprimé par l’homme sur la planète depuis que l’imprimerie existe et ce, dans toutes les langues. Pour sa part, Facebook doit traiter 3 milliards de “like” et de commentaires par jour. Ce sont ces informations qui expliquent la valeur boursière de Facebook. Ce ne sont pas ses actifs tangibles de $6 milliards de dollars. C’est la valeur estimée des informations qu’elle détient sur plus de 1 milliard d’utilisateurs. Les volumes de données deviennent de plus en plus énormes. Selon les estimations, les données emmagasinées dans le monde se sont multipliées par 4, et ce seulement au cours des derniers 5 ans.

La capacité d’utiliser et d’analyser ces données sera de nature à chambarder les entreprises et la société en général, que ce soit au niveau de notre compréhension du monde qui nous entoure, les services de santé, les gouvernements, les systèmes d’éducation, les sciences humaines et les sciences économiques. Tout comme l’utilisation du “Big Data” permet à Amazon de nous recommander le livre idéal, à Google de nous donner rapidement le site web que nous cherchons, à Facebook qui connaît nos “like” et qui peut s’en servir pour cibler sa publicité, ces mêmes technologies permettront de diagnostiquer des maladies, de recommander des traitements… et probablement d’identifier des “criminels” avant même qu’ils ne commettent leur crime. Les domaines où la société pourra en profiter vont des changements climatiques, à l’éradication de certaines maladies et au développement économique.

Ces données massives appartiennent évidemment aux organisations qui les emmagasinent dans leurs ordinateurs pour leurs propres fins. Cependant, ces mêmes données peuvent avoir une valeur secondaire, non exploitée jusqu’à date, pour de nouvelles activités économiques ou sociétales. On voit déjà de ces utilisations secondaires se développer graduellement. Un univers encore embryonnaire dont on ne fait que commencer à saisir toutes les implications potentielles à différents niveaux.

Quatre exemples récents tirés du bouquin – une sélection parmi beaucoup d’autres – vous feront comprendre davantage de quoi il est question ici.

Le cas de Google et du H1N1

On se rappelle du virus H1N1 de 2009 qui avait alerté la planète… sans beaucoup de dommages au final. Une épidémie qui n’est jamais venue. A ce moment, les ingénieurs de Google ont publié un article dans la revue scientifique “Nature“. Dans ce papier, Google disait pouvoir “prévoir” la propagation d’un virus, non pas à l’échelle des États-Unis mais au niveau des différentes régions et même au niveau de chaque État. Comment ? En analysant les données contenues dans les 3 milliards de demandes de recherche que Google traite chaque jour. Tout ce que le système devait faire était de trouver des corrélations entre la fréquence de certaines recherches et la propagation de la grippe à travers le temps et l’espace. Des demandes de recherches du type “médicaments pour la grippe et la fièvre”. Un total de 450 millions de modèles mathématiques différents ont été traités en utilisant les 50 millions de termes de recherches les plus fréquemment utilisés sur Google. Au final, ils ont trouvé ! On a retenu 45 termes qui, une fois traités dans un modèle mathématique, avaient une corrélation très grande avec les statistiques réelles de la grippe au niveau national lorsqu’appliqué à 2007 et à 2008. Ils pouvaient dire où le virus s’était propagé. Par contre, Google peut maintenant le calculer en temps réel, et non pas une semaine ou deux après les faits comme sont limités les organismes de santé qui gèrent ces crises.

Le cas de Farecast

Quiconque voyage régulièrement a déjà remarqué que le prix des billets d’avion peut varier à la hausse ou à la baisse à mesure que vous approchez de la date du départ. Quand acheter un billet ? De nombreux facteurs influencent le prix d’un billet et les algorithmes des compagnies aériennes ne révèlent pas encore leurs secrets pour qui veut jouer au plus malin. Oren Etzioni est un de ces malins qui a décidé d’aller plus loin avec l’aide du Big Data, un jour où il s’est rendu compte que son voisin de siège avait payé moins cher que lui alors qu’il était persuadé d’avoir eu le meilleur “deal“. Il décide alors de trouver une façon de prédire si le prix affiché lors de l’achat d’un billet augmentera ou baissera dans le futur. Il se dit que s’il avait les données, il n’aurait qu’à analyser toutes les ventes de billets d’une route donnée et de voir les prix payés en fonction du nombre de jours avant le départ. Un sondage avec “N=All” comme on dit dans le jargon (c.à.d. avec toutes les données, et non pas seulement un échantillonnage). Ce N=All indique généralement que vous avez affaire à du Big Data. Dans un premier temps, en utilisant un échantillon de 12,000 observations prises sur un site web de voyages sur une période de 41 jours, Etzioni a réussi à créer un premier modèle qui donne l’information. Cependant, les données ne peuvent pas dire pourquoi les prix changent à un moment précis. C’est la limite du Big Data. On peut dire “quoi” mais le “pourquoi” reste une inconnue.

Il crée donc sa propre startup qu’il appelle Farecast. Il sait que le système aura besoin de beaucoup plus de données pour bien fonctionner. Une quantité astronomique de données. Il finit par obtenir des bases de données de l’industrie pour prédire chaque siège de chaque vol de la majorité des routes commerciales américaines. On obtient alors… 200 milliards de fichiers. Microsoft a ultimement acheté Farecast pour 110 millions de dollars qu’il a intégré à son moteur de recherche Bing. En 2012, le système était capable de prédire correctement le prix futur dans 75% des cas et s’il fallait attendre ou non avant d’acheter. En moyenne, les voyageurs qui le consultent économisent 50 dollars par billet.

C’est la direction que prendra le phénomène “Big Data“. Dans ce cas, les données n’avaient plus aucune utilité pour leurs propriétaires une fois les billets vendus et les vols complétés. On venait de leur trouver une nouvelle valeur économique en utilisant les mêmes données à d’autres fins.

Le cas de UPS

La compagnie UPS utilise des outils et des données de géo-localisation sous différentes formes. Tous ses véhicules sont équipés de capteurs et de modules sans fil qui accumulent beaucoup d’informations, de telle sorte que le siège social sait à tout moment la position de chaque véhicule et peut prédire à quel moment un problème technique arrivera. On analyse aussi les itinéraires pour continuellement optimiser les parcours. Un tel programme a permis à UPS en 2011 de retrancher 30 millions de milles dans les routes de ses véhicules et ainsi réduire sa consommation d’essence de 3 millions de gallons (environ 12 millions de litres) et de réduire son impact sur l’environnement de 30 millions de tonnes métriques de dioxyde de carbone. UPS peut en même temps améliorer l’efficience et la sécurité de ses trajets en réduisant le nombre de virages qui sont souvent une source d’accidents, de pertes de temps et de coûts d’essence plus élevés liés aux attentes aux intersections. On dit qu’à terme, le système sera tellement “intelligent” qu’il pourra prédire les problèmes et les corriger avant même que le conducteur ne réalise qu’il y a quelque chose qui cloche.

Le cas de Google Translate

Kenneth Neil Cukier

Dans les années 90, IBM avait tenté de développer un logiciel de traduction avec son projet Candide. Le point de départ avait été d’utiliser 10 ans de transcriptions des travaux du Parlement canadien qui sont publiés en anglais et en français. L’utilisation de cette source s’explique par la haute qualité de ces écrits qui sont publiés par une grande équipe de traducteurs et d’interprètes qui y travaillent au quotidien. C’est donc 3 millions de phrases jumelées en anglais et en français qui ont été retenues. Une quantité énorme, selon les standards du temps. Mais éventuellement, et après y avoir investi beaucoup de ressources, IBM a abandonné son projet devant le peu de progrès de l’outil qui restait tout de même limité quant à sa fiabilité.

Arrive 2006 et Google avec son projet Google Translate qui a graduellement amélioré significativement la qualité de ses traductions avec le temps. Plutôt que d’utiliser uniquement des textes de haute qualité en deux langues et seulement en quantités maintenant jugées trop limitées, Google s’est tourné vers le contenu du web dans sa totalité en utilisant tous les sites multilingues qu’il pouvait identifier ainsi que tous les documents officiels traduits en plus d’une langue, souvent provenant d’organismes internationaux ou nationaux. Ainsi, plutôt que d’utiliser seulement 3 millions de phrases comme IBM l’avait fait, ce sont des milliards de pages web qui ont été mises à contribution. Au final, ce sont 95 milliards de phrases en anglais qui ont été retenues, bien que leur qualité était variable.

C’est ainsi qu’en 2012, la base de données couvre maintenant plus de 60 langues où les utilisateurs peuvent traduire d’une langue à une autre et où l’algorithme utilise l’anglais comme “pont” si vous voulez utiliser des langues moins parlées comme de passer de l’hindi au catalan, par exemple. Le système fonctionne parce que l’on a pu y accumuler une quantité astronomique de données, ce qui permet de reconnaître les différents sens possibles d’un même mot en fonction du contexte d’une phrase tout en tenant compte des exceptions aux règles de grammaire propres à chaque langue, qui venaient souvent compliquer les choses dans les tentatives antérieures d’automatiser les processus de traduction.

Le “dark side” du Big Data

Vous vous rappelez du film “Minority Report” avec Tom Cruise il y a quelques années ? La scène du début où on arrête des individus avant qu’ils ne commettent un crime ? Bienvenue dans un des aspects potentiellement obscurs du Big Data où les gens vont en prison non pas pour un crime qu’ils ont commis mais pour un crime que les prédictions du Big Data estiment comme probable. La notion du jugement des individus à distinguer entre le bien et le mal et celle de la présomption d’innocence n’existent plus. De la science-fiction ? Pas complètement. Des expériences ont déjà cours aux États-Unis où des services policiers utilisent des techniques de prédictions pour concentrer les efforts dans leurs programmes de prévention du crime. De plus, les techniques de “profiling” existent déjà pour associer des données et des critères à des groupes de personnes mais ce que le Big Data pourra éventuellement faire est d’identifier des individus spécifiques plutôt que des groupes. Atteintes à la vie privée ? Sûrement et les gouvernements verront probablement à encadrer ces nouveaux outils. Par contre, on a vu dans la foulée du 11 septembre 2001 que les gouvernés étaient prêts à une certaine atteinte à leurs droits individuels si cela leur assure une plus grande protection.

Victor Mayer-Schonberger

Parmi les risques du Big Data, on pense naturellement aux questions liées à la protection de la vie privée et des données confidentielles mais les risques à considérer sont évidemment plus étendus. Un des problèmes, n’est pas uniquement l’utilisation de vos données personnelles pour permettre, par exemple, à Amazon de vous suggérer des livres qui sont de nature à vous intéresser compte tenu de vos achats antérieurs ou de vos pages visitées dans le passé, mais plutôt l’utilisation secondaire à d’autres fins lorsque ces mêmes données pourront être utilisées à un moment ultérieur. Même en rendant anonymes ces données, ces futures utilisations ne sont pas nécessairement connues au moment où vous fournissez ces données et qu’elles sont emmagasinées sur un site, même avec votre accord explicite.

Les auteurs mettent ensuite en garde contre ce qu’ils appellent “la dictature des données” (dictatorship of data) où on laisserait les données nous gouverner et prendre des décisions qui pourraient faire plus de mal que de bien. Le livre donne l’exemple – qui date des années 70 et donc bien avant l’avènement du Big Data – de la guerre américaine au Vietnam où le secrétaire à la défense du moment, Robert McNamara, qui était un grand utilisateur de chiffres sous toutes les formes pour guider ses décisions, avait déterminé que le meilleur facteur de succès sur le terrain pour mesurer les progrès américains contre les Vietcongs du Vietnam du Nord était de compter le nombre de morts dans leur camp. Deux ans après la fin de la guerre – que les Américains ont évidemment perdu – un général a publié un sondage de la pensée des généraux de l’époque qui révélait que seulement 2% des généraux américains pensaient que c’était une mesure pertinente pour mesurer le succès. Les deux-tiers ont admis avoir alors falsifiés les comptes en les exagérant pour fournir des chiffres que leur hiérarchie voulait voir, y compris pour promouvoir leurs propres intérêts personnels de promotion future.

Le bouquin consacre donc un chapitre – le 9e – pour proposer un certains nombre de pistes pour contrôler le Big Data afin d’éviter que nous soyons contrôlés par ce nouveau phénomème et les nouvelles possibilités qu’il offrira.

Ce n’est que le début…

Pour ceux qui voudraient voir un exemple détaillé et concret d’une utilisation des techniques du Big Data dans un contexte simple, je vous réfère à cette série d’articles parue il y a quelques semaines suite à la réélection d’Obama aux États-Unis et qui raconte comment l’équipe d’Obama a réussi à gagner ces présidentielles américaines grâce à l’application de techniques “Big Data“, et probablement pour la première fois dans un contexte électoral. L’article “How President Obama’s campaign used big data to rally individual voters” se lit en trois (longues) parties dont voici les hyperliens: Partie 1, Partie 2 et Partie 3.

On ne fait que commencer à voir toutes les possibilités du “Big Data“. Les applications se multiplieront à mesure que des acteurs de différentes industries verront une valeur à exploiter certaines données pour des besoins qui amélioreront nos vies et qui augmentera notre compréhension du monde. Voici un court extrait du bouquin (pages 190 et 193) qui servira de conclusion :

“Ultimately, big data marks the moment when the “information society” finally fulfills the promise implied by its name. The data takes center stage. All those digital bits that we have gathered can now be harnessed in novel ways to serve new purposes and unlock new forms of value. (…) Big data has already been used for economic development and for conflict prevention. It has revealed areas of African slums that are vibrant communities of economic activity by analyzing the movements of cellphone users. It has uncovered areas that are ripe for ethnic clashes and indicated how refugee crises might unfold. And its uses will only multiply as the technology is applied to more aspects of life.”

*****

Le bouquin qui fera l’objet du prochain billet de cette chronique sera Lean In: Women, work and the will to lead par Sheryl Sandberg, la “COO” de Facebook. Le livre est disponible depuis quelques jours. Le billet sera publié vers la fin du mois.

Le billet précédent dans cette série de billets a été publié il y a quelques jours : “Les 6 points importants du nouveau livre “Digital Disruption””.

 

Related Posts with Thumbnails
Share.

About Author

Curieux de nature, je m'intéresse à presque tous les sujets. Mes billets sur le blog de Naro risquent donc de toucher des sujets très variés de la culture aux technologies, y compris peut-être même des billets d'humeur à l'occasion. Je vis à Ottawa, capitale du Canada. Dodo au Québec et boulot en Ontario. Ne me lasse pas de Paris où j'y passe de 20 à 30 jours chaque année. Côté boulot, presque 30 ans comme consultant et toujours avec la même boîte. Depuis plus de 10 ans, je suis directeur principal canadien du knowledge management pour cet important cabinet mondial de consultation.