Un test statistique (ou test d'hypothèse) consiste à détecter une différence significative : Entre une population étudiée et une valeur cible (Test de comparaison à une valeur théorique ou test de -conformité). Entre deux populations (Test de comparaison de population ou test d'homogénéité)
Pour les données qui suivent une loi normale, nous privilégions toujours les tests paramétriques. C'est à dire le test T de Student et l'ANOVA. Si cette condition n'est pas remplie, nous devons utiliser des tests non paramètriques tel que le test de Wilcoxon, test de Mann Whitney ou un Kruskal Wallis.
Définitions. Un test paramétrique est un test pour lequel on fait une hypothèse paramétrique sur la loi des données sous H0 (loi normale, loi de Poisson...). Les hypothèses du test concernent alors les paramètres de cette loi. Un test non paramétrique est un test ne nécessitant pas d'hypothèse sur la loi des données.
Les tests paramétriques sont des tests dont l'échantillon que nous étudions suit une certaine loi (loi normale par exemple) ou vérifie un certain nombre d'hypothèses (même variance entre les deux échantillons donnés). Ils sont plus puissants mais nécessitent un certain nombre d'hypothèses à vérifier.
Tests non paramétriques
Pour statuer sur la significativité de l'écart de la médiane à la médiane théorique, il suffit donc de vérifier si la fréquence de 11 fois sur 14 est significativement différente de 50%. On observe que cet écart est limite.
Les différents aspects de la statistique sont regroupés en différents domaines ou concepts : la statistique descriptive, plus couramment appelée aujourd'hui statistique exploratoire, l'inférence statistique, la statistique mathématique, l'analyse des données, l'apprentissage statistique, etc.
On peut classer la plupart des méthodes d'échantillonnage en deux grandes catégories : l'échantillonnage aléatoire et l'échantillonnage représentatif. Un échantillon aléatoire est, comme son nom l'indique, un échantillon d'individus sélectionnés au hasard, conçu pour représenter l'ensemble de la population.
Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques.
Le test T est une statistique inférentielle utilisée pour évaluer les différences entre les moyennes de deux groupes. Le test T est généralement utilisé lorsque les ensembles de données suivent une distribution normale et peuvent avoir des variances inconnues.
Les tests non paramétriques sont donc utilisés lorsque le niveau d'échelle n'est pas métrique, que la distribution réelle des variables aléatoires n'est pas connue ou que l'échantillon est simplement trop petit pour supposer une distribution normale.
Il s'agit du test de Kruskal-Wallis, mesure de l'association entre deux variables qualitatives. Le croisement de deux questions qualitatives produit un tableau que l'on désigne généralement par « tableau de contingence ».
Le test t est utilisé lorsque vous devez trouver la moyenne de la population entre deux groupes, tandis que lorsqu'il y a trois groupes ou plus, vous optez pour le test ANOVA. Le test t et l'ANOVA sont tous deux des méthodes statistiques permettant de tester une hypothèse.
Pour ce faire, il faut prendre 50 vis de chaque ligne de production et de chaque équipe et en mesurer le poids. L'ANOVA à deux facteurs permet de déterminer si le poids moyen des vis des trois lignes de production et des deux équipes est significativement différent l'un de l'autre.
Un test statistique permet d'évaluer à quel point les données vont à l'encontre d'une certaine hypothèse, l'hypothèse nulle aussi appelée H0. Sous H0, les données sont générées par le hasard. En d'autres termes, les processus contrôlés (manipulations expérimentales par exemple) n'ont pas d'influence sur les données.
Deux types d'échantillons peuvent être distingués : les échantillons non-probabilistes et les échantillons probabilistes. Les sujets ou les objets sont choisis selon une procédure pour laquelle la sélection n'est pas aléatoire.
Par exemple, un chercheur a l'intention de collecter un échantillon systématique de 500 personnes dans une population de 5 000 personnes. Il numérote chaque élément de la population de 1 à 5000 et choisit un individu sur 10 pour faire partie de l'échantillon (population totale/taille de l'échantillon = 5000/500 = 10).
Il faut que la fréquence d'échantillonnage soit d'au moins 40000 Hz pour avoir un résultat correct à nos oreilles. C'est pourquoi la résolution de 44 100 Hz est la plus utilisé car elle permet de couvrir le spectre jusqu'à 22 050 Hz.
les analyses descriptives, les analyses inférentielles, et les analyses prédictives.
L'analyse statistique consiste donc à collecter et à interpréter des données dans le but d'identifier des modèles et des tendances.
Lorsque les échantillons peuvent être considérés indépendants, on applique le test de Mann et Whitney pour 2 échantillons, celui de Kruskal et Wallis pour un nombre quelconque d'échantillons. Lorsque on a affaire à deux échantillons appariés (c'est-à-dire non indépendants), on applique le test de Wilcoxon.
Le test U de Mann-Whitney est donc le pendant non paramétrique du test t pour échantillons indépendants ; il est soumis à des hypothèses moins strictes que le test t. Par conséquent, le test U de Mann-Whitney est toujours utilisé lorsque la condition de distribution normale du test t n'est pas remplie.
Dans le cas d'échantillons indépendants, le test de Mann-Whitney permet de comparer deux populations. Les deux séries de valeurs sont mélangées puis ordonnées par valeurs croissantes. On identifie alors les rangs des individus du premier groupe et on calcule la somme des rangs de ces individus.