Les principales étapes du processus d'analyse consistent à cerner les sujets d'analyse, à déterminer la disponibilité de données appropriées, à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux questions d'intérêt, à appliquer les méthodes et à évaluer, résumer et communiquer les résultats.
Le processus d'analyse de données consiste à collecter des données brutes (raw data) à l'aide d'un outil ou d'une application pour explorer ces informations et découvrir des tendances. Il est ensuite possible de se baser sur les résultats de ces analyses pour prendre de meilleures décisions.
Les plus connus sont par exemple Statistica, Stata ou encore SPSS. Ces logiciels permettent également de travailler sur des données textuelles, mais d'autres outils ont été spécifiquement développés en sciences humaines et sociales pour le traitement statistique de corpus de texte.
Le traitement des données commence avec les données brutes : il les convertit sous une forme plus lisible (graphiques, documents de texte, etc.) en leur donnant le format et contexte nécessaires pour qu'elles puissent être interprétées par les systèmes IT et utilisées par les employés à l'échelle de l'entreprise.
Le traitement des données peut être divisé en plusieurs types, notamment le traitement par lots, le traitement des flux, le traitement distribué et le multitraitement. Avec un matériel conçu pour le Big Data, les technologies Intel® améliorent les capacités de traitement des données en commençant par le silicium.
L'objectif de l'analyse des données est d'extraire une information statistique qui permet de cerner plus précisément le profil de la donnée. Les résultats obtenus permettent ensuite d'optimiser la stratégie de la société en question en ajustant certains points.
La structure dimensionnelle en étoiles, avec ses faits au centre et ses dimensions autour décrivant les faits, est la meilleure façon de structurer les données pour en faciliter la consommation.
L'analyse des données consiste à identifier parmi la variété de données présentées celles qui sont significatives, à la lumière des objectifs de la recherche, et à établir des relations entre elles. Cette analyse est à la base de l'interprétation ou de la discussion des résultats.
Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques.
Étape 1 – Identifier les données essentielles
La première étape du nettoyage des données consiste donc à déterminer quels types de données (champs de données) sont essentiels pour un projet ou processus donné.
Un traitement de données de qualité répond à quatre étapes incontournables. Il s'agit dans un premier temps de la collecte des données, du nettoyage de données puis de la structuration des données et enfin de l'analyse des données.
1. Hadoop, l'outil Big Data par excellence. Hadoop est un framework open source permettant de créer des applications capables de stocker et de traiter une masse importante de données en mode batch. Cette plateforme libre a été inspirée de MapReduce, Big Table et Google FS.
Qu'est-ce qu'une méthode d'analyse de données ? En Data Analysis, une méthode d'analyse est un processus statistique, informatique ou dérivé de l'IA qui permet d'extraire le maximum d'informations exploitables d'un groupe de données à disposition.
On parle depuis quelques années du phénomène de big data , que l'on traduit souvent par « données massives ». Avec le développement des nouvelles technologies, d'internet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc.
Il est construit autour de la règle des « 7M » qui évalue l'ensemble des facteurs de causalité induits par la Matière, le Milieu, le Matériel, les Méthodes, la Main d'oeuvre, le Management et les Moyens financiers.
La méthode des 5 M est un schéma en forme de poisson qui analyse les liens de cause à effet d'un problème donné : ses arêtes représentent les causes, et la tête, l'effet, le problème final, l'objectif.