Nettoyage, exploration et préparation des données. Présentation des données (Statistiques descriptives) Élaboration, validation et interprétation des modèles prédictifs (statistiques inférentielles, datamining, machine learning) Présentation des résultats.
Les principales étapes du processus d'analyse consistent à cerner les sujets d'analyse, à déterminer la disponibilité de données appropriées, à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux questions d'intérêt, à appliquer les méthodes et à évaluer, résumer et communiquer les résultats.
Les différents aspects de la statistique sont regroupés en différents domaines ou concepts : la statistique descriptive, plus couramment appelée aujourd'hui statistique exploratoire, l'inférence statistique, la statistique mathématique, l'analyse des données, l'apprentissage statistique, etc.
σ ( X ) = V ( X ) = 1 N ∑ k = 1 N ( x k − X ¯ ) 2 . Si la série statistique est donnée par un tableau statistique (xi,ni) ( x i , n i ) , ce qui signifie que la valeur xi est prise ni fois, on peut directement calculer la variance par la formule : V(X)=1n1+⋯+nNN∑i=1ni(xi−¯X)2.
On effectue une étude statistique par le relevé de certaines données sur une population. Les données sont, suivant les besoins, sous forme de listes, de tableaux d'effectifs ou de diagrammes. À partir de ces données, on effectue des calculs qui nous renseignent sur cette étude.
Fréquences, médianes, quartiles, déciles, moyennes, variances, etc. sont des statistiques.
L'analyse statistique consiste donc à collecter et à interpréter des données dans le but d'identifier des modèles et des tendances.
La science des statistiques est utile pour choisir objectivement un échantillon, faire des généralisations valables à partir des observations faites sur l'ensemble d'échantillons, mais aussi pour mesurer le degré d'incertitude, ou la fiabilité, des conclusions tirées.
L'analyse des données consiste à identifier parmi la variété de données présentées celles qui sont significatives, à la lumière des objectifs de la recherche, et à établir des relations entre elles. Cette analyse est à la base de l'interprétation ou de la discussion des résultats.
Les quatre types d'analyse de données sont :
Analyse descriptive. Analyse diagnostique. Analyse prédictive. Analyse prescriptive.
Analyser le sujet, c'est définir et expliquer chacun des termes du sujet, de façon à éviter tout contresens et tout hors-sujet, et à ne pas manquer la spécificité de la question posée. Ces éléments d'analyse devront être réutilisés pour l'introduction, dont ils constituent la première étape essentielle.
En ingénierie, une méthode d'analyse et de conception est un procédé qui a pour objectif de permettre de formaliser les étapes préliminaires du développement d'un système afin de rendre ce développement plus fidèle aux besoins du client.
Un test statistique (ou test d'hypothèse) consiste à détecter une différence significative : Entre une population étudiée et une valeur cible (Test de comparaison à une valeur théorique ou test de -conformité). Entre deux populations (Test de comparaison de population ou test d'homogénéité)
On peut classer la plupart des méthodes d'échantillonnage en deux grandes catégories : l'échantillonnage aléatoire et l'échantillonnage représentatif. Un échantillon aléatoire est, comme son nom l'indique, un échantillon d'individus sélectionnés au hasard, conçu pour représenter l'ensemble de la population.
Il faut en repérer la source, l'auteur, la date de publication, le champ (population étudiée, date des données, lieu concernant les données). Il s'agit ensuite de comprendre les données. Pour cela, il peut être utile de repérer le total en lignes ou en colonnes. Enfin, il faut analyser les données du tableau.
Tout d'abord, pourquoi faire des tests statistiques ? Les tests statistiques (ou tests d'hypothèses) vont vous permettre de tirer des conclusions claires, mathématiquement rigoureuses (et élégantes !) à partir des données que vous aurez analysées.
1. Ensemble de données d'observation relatives à un groupe d'individus ou d'unités (souvent pluriel). 2. Ensemble des méthodes qui ont pour objet la collecte, le traitement et l'interprétation de ces données.
les analyses descriptives, les analyses inférentielles, et les analyses prédictives.
Les variables d'intérêt sont aussi dites, un peu abusivement, variables dépendantes, et les variables explicatives indépendantes. Lorsqu'on peut faire correspondre, dans le contexte de l'étude, à deux ou plusieurs individus une valeur unique qui résulte d'une opération mathématique, comme l'addition etc.
Les statistiques servent à réduire les gros nombres à une dimension où it est plus facile de les comprendre. Les hommes aiment ì recueillir des chiffres, à les combiner de diverses façons, ì en tirer des conclusions et à les citer.
Les statistiques sont une matière notoirement difficile à enseigner aux étudiants des sciences humaines. L'anxiété statistique, une forme d'anxiété bien documentée chez ces étudiants, est présente dès le début du cours et explique donc une partie des difficultés rencontrées par ces étudiants.
La moyenne est calculable pour les variables numériques, qu'elles soient discrètes ou continues. On l'obtient simplement en additionnant l'ensemble des valeurs et en divisant cette somme par le nombre de valeurs. Ce calcul peut être fait à partir des données brutes ou d'un tableau de fréquences.