Question d'origine :
Je veux des documents sur le Big Data
Réponse du Guichet
Le big data est l'ensemble des données numériques traitées dont les textes, les photos et les vidéos. Cette masse volumineuse d'informations répond à plusieurs caractéristiques. Ses aspects matériels, algorithmiques et logiciels, ses applications sont autant de thématiques abordées par une large documentation. Nous vous proposons ici une sélection d'ouvrages d'introduction aux data sciences puis des titres parmi les plus récents.
Bonjour,
Vous cherchez des documents sur le big data mais voyons d'abord quelle en est sa définition.
Selon la CNIL, Commission nationale de l'informatique et des libertés :
On parle depuis quelques années du phénomène de big data , que l’on traduit souvent par « données massives ». Avec le développement des nouvelles technologies, d’internet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc. Le gigantesque volume de données numériques produites combiné aux capacités sans cesse accrues de stockage et à des outils d’analyse en temps réel de plus en plus sophistiqués offre aujourd’hui des possibilités inégalées d’exploitation des informations. Les ensembles de données traités correspondant à la définition du big data répondent à trois caractéristiques principales : volume, vélocité et variété.
Après une définition un peu plus poussée du big data, l'article de l'Encyclopédie Universalis, disponible à la BML et en accès à distance pour ses abonnés, aborde ces trois points auxquels deux autres sont ajoutés, la véracité et la valeur :
L’expression « big data », d’origine américaine et apparue en 1997, désigne un volume très important de données numériques ainsi que les techniques et outils informatiques permettant de les manipuler efficacement afin de leur donner du sens. Traduite en français par « mégadonnées » ou encore « données massives », elle évoque avant tout un changement d’échelle radical dans le volume des données à traiter et une modification fondamentale dans la manière de les analyser. Contrairement aux bases de données traditionnelles où la recherche d’information se fait de manière exhaustive à partir de données fortement structurées, le big data exploite des données souvent déstructurées et bien plus nombreuses afin de déterminer de manière automatisée un modèle mathématique, une loi d’évolution ou une tendance utilisable à des fins prospectives.
Le « big data » est représentatif du monde hyperconnecté dans lequel nous vivons, et s’appuie sur des principes mathématiques et informatiques très avancés : communication sans fil en tout point de la planète, centres de données (data centers) offrant des moyens de calcul parallèle et de stockage à très haute performance... Ses champs d’application sont potentiellement infinis et d’une portée économique inimaginable. Il devient possible de procéder à des analyses prospectives fines pour les sciences, en particulier l’environnement et la météorologie ou encore la gestion des risques. Le plus gros marché du big data concerne néanmoins les utilisations commerciales (assurances, banques), politiques et culturelles pour analyser des phénomènes de masse avec pour objectif de faciliter la prise automatique de décisions.
[...]
Caractéristiques des données du big data
Les données du big data sont donc en perpétuelle expansion (plus ou moins contrôlée), sont acquises à travers de multiples canaux (trafic Internet généré, capteurs…) à des rythmes très différents (de la nanoseconde pour les transactions boursières au jour ou à l’année pour les mesures sur des données démographiques ou sociétales) et sont de différentes natures (texte, vidéo, image, son, biométrie, etc.). Elles sont aussi acquises dans un contexte qui peut, le cas échéant, dégrader la quantité et la qualité de l’information associée. Dans un monde où les fausses nouvelles (fake news) pullulent, on pourra ainsi accorder un degré de confiance en fonction de l’émetteur de la donnée.
Après prétraitement (formatage, conversion, filtrage), les données du big data sont analysées à l’aide d’algorithmes complexes permettant de les identifier, de les classer de manière automatique, sans intervention humaine. Afin de définir aussi précisément que possible la taille de l’espace dans lequel s’opèrent ces analyses, plusieurs générations de modèles de représentation des données du big data ont successivement vu le jour. Le plus connu est le modèle 3V (pour volume, vitesse, variété). Le modèle 4V ajoute la véracité (une donnée est liée à un facteur de vraisemblance) aux trois précédentes caractéristiques. Au gré des inspirations du marketing, d’autres V (par exemple pour valeur, qui associe un coût financier à l’information) ont également fait leur apparition.
Volume des données
Le volume des données est certainement ce qui caractérise le mieux l’expression « big data ». Il suffit d’égrener certaines grandeurs pour apprécier le volume colossal des données générées : 7 milliards d’individus sur Terre, 6 milliards de possesseurs de téléphones portables ou de smartphones, 100 à 120 téraoctets de données nécessaires pour rendre compte de l’activité d’une grande entreprise mondiale, 150 exaoctets pour représenter l’ensemble des données médicales de la population mondiale, 30 milliards de contenus Web différents, 500 millions de capteurs biomédicaux portés à même les personnes, 400 millions de messages twitter échangés par jour entre les 200 millions d’utilisateurs, plus de 4 milliards d’heures de contenus vidéo consultées sur YouTube par mois.
Vitesse d’acquisition des données ou vélocité
Une autre caractéristique des données du big data est la vitesse d’acquisition de celles-ci, terme impropre qui représente en réalité la fréquence (nombre d’événements par unité de temps) à laquelle les données sont générées et stockées. Dans un monde qui change à un rythme effréné et où la nouvelle information chasse impitoyablement l’ancienne, les données n’ont de sens que si leur date de production est connue et récente, et que le temps pour les traiter est court et compatible avec la réactivité attendue. Nous nous sommes habitués à recevoir plus de données dans des temps toujours plus courts, et à ce que ces données soient traitées en temps réel pour être immédiatement exploitables.
Variété de données
Les données de l’informatique traditionnelle sont généralement le résultat de transactions informatiques (insertion ou recherche dans une base de données) et sont de taille et de type limités aisément exploitables par un ordinateur (entiers naturels, nombres réels, chaînes de caractères). Tous les autres types de données, comme les images par exemple, sont soit stockés sous forme de références (on stocke dans la base le chemin d’accès au fichier mais ce dernier n’est pas directement enregistré dans la base), soit sous forme d’un type générique – l’amas ou blob, pour binary large object, stocké dans la base mais très difficilement exploitable. Les données du big data sont de nature encore plus diverse, plus complexes à exploiter, et surtout beaucoup plus difficiles à stocker directement dans des tables. Les flux d’octets du big data peuvent aussi bien représenter des messages composés de caractères plus ou moins formatés (par exemple, en code ASCII pour American Standard Code for Information Interchange), que des images, des vidéos, du son et de la musique généralement associés à des médias sociaux, et pour lesquels il est important de pouvoir effectuer rapidement des traitements (traitement du signal, formatage, etc.). Les données peuvent également provenir de capteurs numériques en relation directe avec notre monde analogique (carte de températures, données biomédicales, etc.). Elles peuvent aussi correspondre à des coordonnées de géolocalisation ou encore à des informations RFID (radio frequency identification), comme celles de la carte Navigo qui permettent à celui-ci d’interagir avec les portails d’accès au métro. Des individus ou des robots informatiques arpentant le Web peuvent aussi être à l’origine de la collecte de ces informations. Cette diversité complexifie les analyses car les données sont généralement beaucoup moins bien structurées que celles qui se trouvent dans les bases de données classiques. Les données représentant l’information peuvent être brutes ou partiellement raffinées, et il est alors nécessaire d’utiliser des outils informatiques spécialisés pour extraire l’information importante (analyse d’images à des fins d’indexation automatique par exemple).
Véracité
La variété des formats de données et les divers lieux où s’effectue la collecte font que les informations peuvent être entachées d’erreurs, introduites volontairement ou non. Les données non structurées issues des réseaux sociaux privés, de capteurs situés dans des endroits inaccessibles ou de sites Internet douteux ne doivent ainsi pas être prises avec la même objectivité que des informations recoupées et vérifiées émanant de sources fiables. On ne saurait confier à un outil informatique la charge de prendre automatiquement une décision sans être sûr que les données qui ont servi à lui faire prendre cette décision sont objectivement vraies. La sensibilité des outils d’analyse du big data à ces erreurs est telle que celles-ci peuvent influencer la qualité des résultats. Le chatbot (dialogueur ou robot conversationnel, en français) intelligent Tay, outil de conversation automatique mis au point par Microsoft pour discuter sur les réseaux sociaux et les applications de messagerie (Twitter, Snapchat…), a ainsi dû être désactivé en mars 2016, quelques heures après son lancement, ayant été l’objet d’une opération massive et mal intentionnée de détournement de ses capacités conversationnelles. L’algorithme d’apprentissage utilisé par ce robot conversationnel reposait, pour s’améliorer, sur les interactions avec les utilisateurs, et n’a pas tardé à tenir des propos racistes parce qu’il était alimenté, sans vérification, avec des données générées par des propos malveillants. Il est donc nécessaire de considérer un indice de confiance pour chaque donnée introduite afin de limiter les inexactitudes.
Valeur
La notion de valeur correspond au principal objectif du big data, avec une connotation très commerciale et politique. Il s’agit ici de donner une valeur marchande aux données, car leur acquisition, leur traitement et leur analyse coûtent très cher. Ainsi, les profils de consommateurs, qui sont minutieusement et officieusement accumulés par les grands réseaux sociaux et d’achats en ligne, ont une très forte valeur marchande. Alors que les études de marché, les enquêtes d’opinion et les sondages traditionnels s’appuient généralement sur l’analyse de quelques milliers d’échantillons, et sont déjà assez représentatifs, la quantité d’informations obtenue de manière passive (sans interrogation directe de la personne sondée mais par l’analyse continue de son comportement, de ses choix, de ses achats et des sites qu’elle consulte) par le big data permet d’appliquer la loi des grands nombres et de réaliser des modèles mathématiques de comportement quasi parfaits. On comprend alors que ces modèles deviennent des enjeux stratégiques au cœur de toute politique, économie ou démarche sociétale.
L'article aborde ensuite les aspects matériels du big data, ses aspects algorithmiques et logiciels, ses usages, ses risques et le futur du big data.
La documentation sur le big data s'est multipliée depuis 2012. Nous vous proposons ici quelques ouvrages d'introduction aux data sciences puis des titres parmi les plus récents :
- 50 principes et applications de la science des données [Livre] / sous la direction de Liberty Vittert ; contributeurs, Maryam Ahmed, Vinny Davies, Sivan Gamliel... [et al.] ; illustrateur, Steve Rawlings, 2021
Cinquante chapitres et 300 mots clés pour découvrir les data sciences, qui combinent raisonnement humain et outils mathématiques, statistiques et informatiques pour extraire des informations utiles et exploitables d'une masse importante de données brutes. Les auteurs présentent les bases et les limites de ce domaine, utilisé dans la santé, l'économie, la politique et la vie personnelle. (c) Electre
- Les data sciences en 100 questions-réponses [Livre] / Younes Benzaki ; Préface de Farid Oukaci, 2020
Une introduction aux concepts et aux fondamentaux de la science des données, des algorithmes d'apprentissage aux mesures de performance en passant par les techniques d'exploration. Deux études de cas donnent un aperçu pratique de ces considérations théoriques. (c) Electre
- Le big data [Livre] / Pierre Delort, 2018
Le big data, ou mégadonnées, entend rationaliser et formaliser la gestion des données très volumineuses afin d'en extraire des informations utiles et économiquement exploitables. Ainsi les recherches effectuées sur Google peuvent-elles orienter vers la production d'un nouveau produit. Cet ouvrage invite à penser à l'innovation induite par les mégadonnées, notamment dans les entreprises. ©Electre 2018
- Big data et plateformes : la nouvelle économie des données / Lionel Melka ; préface de Rachel Delacour, 2022
La transition numérique provoque un bouleversement de l'économie mondiale. Dans la plupart des secteurs, la collecte, le traitement et l'exploitation des données permettent l'émergence de nouveaux modèles d'affaires. Google, TikTok, PayPal, Shopify, Tinder, BlaBlaCar, Uber, Palantir, IQVIA : comment ces sociétés dont le modèle d'affaires est basé sur l'exploitation des données ont-elles crû de manière si fulgurante ? Comment parviennent-elles à dominer leur secteur ? L'essor de cette nouvelle économie autour des données est marqué par la domination d'un principe de redevabilité qui investit tous les espaces de pouvoir, tant dans les démocraties que dans les entreprises. Pourtant, cette révolution a rarement fait l'objet d'une analyse rigoureuse, au-delà des controverses médiatiques. Ce livre raconte cette transformation et explique l'émergence de ces nouveaux acteurs. Il allie une approche théorique et des cas pratiques permettant de comprendre cette révolution en cours. Il s'adresse donc aussi bien aux étudiants en économie et gestion (écoles de commerce, universités, etc.), qu'aux professionnels de la finance (dirigeants d'entreprises, gérants de fonds, etc.) et à tous ceux qui souhaitent mieux comprendre les bouleversements récents du capitalisme. (4e de couverture)
- La data science pour modéliser les systèmes complexes : optimiser la prédiction, l'estimation et l'interprétation / Alain Chautard, 2022
La data science est devenue un outil de prévision et d'aide à la décision indispensable aux ingénieurs, aux chercheurs et aux responsables en charge de la gestion des projets et des processus. Toutefois, son application à des systèmes complexes exige de dépasser les méthodes linéaires de modélisation généralement appliquées. En effet, si ces méthodes fonctionnent dans la plupart des environnements, elles présentent d'importants biais dès lors que l'on a affaire à des systèmes complexes (météorologie, physique non linéaire, économétrie, finance, etc.). En s'appuyant sur trois cas concrets représentatifs (environnement physique, marchés financiers, gestion de projet), cet ouvrage illustre comment exploiter les données de systèmes complexes pour construire des modèles maîtrisables, exploitables et performants en termes de prédiction, d'estimation et d'interprétation. Il offre une réflexion globale sur les spécificités des systèmes complexes ainsi que des outils concrets pour mieux les interpréter. Points forts : un ouvrage s'attachant aux systèmes complexes et non linéaires, plus difficiles à modéliser. Des méthodes de modélisation permettant une réduction des coûts et une augmentation de la robustesse des résultat : une approche transverse de la data science (physique, ingénierie, économie, sciences sociales...). Contenu de l'ouvrage : complexité et système complexe. Méthode d'approche systémique. Modélisation d'environnement physique. Modèle comportemental des marchés financiers. Modèle statistique de la réponse à appel d'offres et de la gestion de projets. (4e de couverture)
- Révolution de la donnée : les data, ressources du XXIe siècle / sous la direction de Jean-Michel Huet et Florence Dugas ; Maroua Affa, Edgar Bellow, Cyril Bladier et al. ; préface de Pierre Barnabé, 2022
Présentation des défis liés à la gestion des données en entreprise, illustrée de nombreuses études de cas dans divers secteurs tels que la banque, le luxe et la santé, ainsi que des témoignages de praticiens de la donnée. ©Electre 2022
- Intelligence artificielle & data : comment mieux analyser vos données, les exploiter et en saisir tous les enjeux / Harvard Business Review France ; [préface de Gabriel Joseph-Dezaize,...], 2022
Comment rester compétitif à l'heure de l'intelligence artificielle ? Quelles méthodes adopter pour exploiter vos données avec efficacité ? quelle stratégies mettre en place pour tirer profit des technologies de pointe ? Pour répondre à ces questions essentielles, les experts de la 'Harvard Business Review' proposent un éclairage inédit sur le pouvoir de l'intelligence artificielle et de la data. RH, marketing, finance, ventes... : tous les services sont désormais concernés par la transformation digitale qui definit de nouvelles règles du jeu au sein des organisations et exige de nouveaux réflexes de la part des managers. Riche d'enquêtes, d'analyses et de conseils, cet ouvrage de référence donne toutes les clés pour relever avec succès le défi des technologies numériques et exploiter pleinement la puissance de l'intelligence artificielle. (4e de couverture)
- Introduction au machine learning [Livre] / Chloé-Agathe Azencott,..., 2022
Une introduction aux principes et aux algorithmes du machine learning, ou apprentissage automatique. Cet ouvrage explique comment résoudre et formaliser certains problèmes grâce à ce champ d'étude, à identifier les algorithmes appropriés et à évaluer leurs performances. Avec des exercices corrigés. Edition complétée de nouvelles méthodes telles que le clustering spectral. ©Electre 2022
- La transformation numérique [Livre] : cloud, big data, IA, Internet des objets : s'adapter ou disparaître / Thomas M. Siebel ; traduit de l'anglais (États-Unis) par Pierre Reignier ; préface de Jacques Attali, 2022
Un décryptage des mutations radicales engendrées par quatre technologies : cloud, big data, intelligence artificielle et Internet des objets. Entrepreneur spécialiste des technologies de l'information, l'auteur explique l'importance de la transformation numérique et donne des clés aux professionnels qui doivent engager leur organisation dans la voie de la numérisation. ©Electre 2022
Big quali est une méthode pour réaliser des études qualitatives en prenant en compte le digital et les nouvelles technologies. Elle permet de réaliser une analyse en profondeur et à grande échelle et de la restituer dans des formats riches et inspirants. ©Electre 2022
- Sortez vos données du frigo [Livre] : une entreprise performante avec la data et l'IA / Mick Lévy ; préface de Gilles Babinet, 2021
Un guide pour investir massivement dans la transformation des données grâce aux technologies du Big data, de l'analytique et de l'intelligence artificielle afin de créer de la valeur et se réinventer. Cas d'usage, stratégie, nouveaux métiers, organisation, technologies et éthique sont quelques-uns des sujets développés et illustrés par des exemples concrets. ©Electre 2021
- Big Data : faut-il avoir peur de son nombre ? : cybernétique, dataveillance et néolibéralisme : des armes contre la société / Pierre Henrichon, 2020
Pierre Henrichon analyse de quelle façon la cybernétique, la quantification, la dataveillance et le néolibéralisme participent d'un même processus de dissolution du politique et de la société, lequel trouve aujourd'hui son point de confluence dans le complexe du Big Data et de l'économie de la donnée. Car au-delà des promesses de progrès et de liberté chantées par ses principaux laudateurs se cachent des dangers potentiels pour nos démocraties : leur crise est entre autres causée par la neutralisation du politique et la montée au pouvoir des « Goliaths de l'économie de la donnée » sur nos esprits et dans l'espace public. Aujourd'hui, cette domination de l'économique est valorisée, reproduite et renforcée par le complexe sociotechnique et financier qu'est le Big Data" (éditeur)
- Géopolitique des données numériques [Livre] : pouvoir et conflits à l'heure du big data / Amaël Cattaruzza, 2019
Le traitement des masses de données disparates nécessite ©aujourd'hui l'utilisation de nouveaux outils (big data, intelligence ©artificielle) qui sont devenus des instruments de pouvoir sur la scène internationale. L'auteur montre comment ces données numériques redéfinissent les notions de frontière et de puissance entre Etats et acteurs non étatiques et comment ils refaçonnent la géopolitique. ©Electre 2019
Par ailleurs vous pourrez trouver des articles très pointus et en anglais présentés sur ScienceDirect.
Pour finir, d'autres références sont proposées dans des réponses plus anciennes du Guichet du savoir :
Bonne journée.