Les ensembles de données traités correspondant à la définition du big data répondent à trois caractéristiques principales : volume, vélocité et variété.
Les composantes d'une architecture Big Data
La plupart des architectures de données volumineuses incluent tout ou partie des éléments suivants : Source de données (data mart, data warehouse, cloud, base de données hybride) Stockage (magasin de données, data lake) Batch processing (traitement par lots)
Volume, variété, vitesse, valeur – les « 4V »- sont les quatre critères définissant le phénomène Big data. Le Big data, c'est d'abord l'explosion du volume de données, qui met à l'épreuve les infrastructures de stockage classiques des entreprises.
L'évolution du Big Data pose naturellement la question de la protection des données et du respect de la vie privée. C'est le plus gros inconvénient du Big Data et le plus gros challenge que nous devons relever.
En d'autres termes, le Big Data est composé de jeux de données complexes, provenant essentiellement de nouvelles sources. Ces ensembles de données sont si volumineux qu'un logiciel de traitement de données traditionnel ne peut tout simplement pas les gérer.
L'objectif de l'analytique Big Data est de mieux exploiter les ensembles volumineux de données dans le but de : Déceler des corrélations entre des informations, Identifier des schémas et tendances auparavant inconnus, Mieux comprendre les préférences des clients ou cibles.
Les six V du Big Data (Velocity, Volume, Value, Variety, Veracity et Variability) sont les caractéristiques les plus importantes du Big Data. Les connaître permet aux data scientists de tirer davantage de valeur de leurs données.
Les 5 V du Big Data
On parle très souvent des 5 V pour qualifier le Big Data. Ceux-ci correspondent au Volume, la Vitesse, la Variété, la Véracité et enfin la Valeur. Le Volume: en effet, la Big Data se caractérise par une quantité très importante de données qui sont collectées puis analysées.
On parle depuis quelques années du phénomène de big data , que l'on traduit souvent par « données massives ». Avec le développement des nouvelles technologies, d'internet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc.
Quels sont les 6V et 7V du big data ? En plus des V de Volume, Variété, Vélocité, Véracité et Valeur, deux derniers "V" finissent de caractériser le big data : Visualisation. Collecter, traiter et analyser les données ne suffit pas.
– Les données doivent être structurées dans la base de données ; – Elle assure la sécurité des informations ; – Elle doit être indépendante des programmes et des données, elle doit permettre la prise en compte facile de nouvelles applications.
Les opportunités du Big Data : création de nouvelles lignes de business. Les entreprises ont tout intérêt à agir et à mettre en place des stratégies de développement basées sur l'utilisation de toutes ces données, qui pourront être transformées en valeur ajouté.
Le marché des logiciels analytiques et BI
Les fournisseurs de logiciels figurent parmi les acteurs clés du Big Data. Ils profitent largement de la révolution Big Data pour proposer des solutions adaptées aux besoins des entreprises.
Amazon, le géant américain de la vente en ligne, figure également parmi les précurseurs du Big Data.
L'expression « big data » serait apparue en octobre 1997 selon les archives de la bibliothèque numérique de l'Association for Computing Machinery (ACM), dans un article scientifique sur les défis technologiques à relever pour visualiser les « grands ensembles de données ».
Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques.
Optimiser le traitement des données
Pour de nombreux experts, le traitement des données est l'un des enjeux les plus importants du Big Data. En effet, les informations arrivent en masse et se présentent sous divers formats.
Le big data fait référence à des ensemble de données trop volumineux et complexes pour les applications traditionnelles de traitement et de management des datas. Ce terme est devenu populaire grâce à l'essor de la technologie mobile, de l'IoT (Internet of things ou Internet des objets en français) et de l'IA.
Le cloud computing (en français, « informatique dans les nuages ») fait référence à l'utilisation de la mémoire et des capacités de calcul des ordinateurs et des serveurs répartis dans le monde entier et liés par un réseau.
Le Big Data, sans nettoyage, n'est en fin de compte qu'un fatras de bruit qui n'a pas de sens. Il est impossible de comprendre réellement la valeur des données si leur qualité est faible. Les données brutes, en particulier les données non structurées recueillies en temps réel, sont inutiles.