L'ANOVA univariée ne s'utilise que lorsque l'on étudie un seul facteur et une seule variable dépendante. Pour comparer les moyennes de trois groupes ou plus, elle indique si au moins une paire de moyennes est significativement différente, mais elle n'indique pas laquelle.
L'ANOVA à un facteur peut vous aider à savoir s'il existe ou non des différences significatives entre les groupes de vos variables indépendantes (comme les États-Unis vs le Canada vs le Mexique lors du test d'une variable de localisation).
5.1.3 Effectuer une ANOVA
Pour tous les autres modèles linéaires avec des variables explicatives catégoriques avec > 2 niveaux, on utilise une ANOVA. Lorsque l'ANOVA détecte une différence significative entre les groupes, l'analyse n'indique pas quel(s) groupe(s) diffère(nt) de(s) l'autre(s).
L'ANOVA à 2 facteurs est généralement employée pour analyser les résultats d'une expérimentation dans laquelle des individus, ou des unités expérimentales, ont été exposées, de façon aléatoire (randomisée), à l'une des combinaisons (ou croisement) des modalités des deux variables catégorielles.
Pour les données qui suivent une loi normale, nous privilégions toujours les tests paramétriques. C'est à dire le test T de Student et l'ANOVA. Si cette condition n'est pas remplie, nous devons utiliser des tests non paramètriques tel que le test de Wilcoxon, test de Mann Whitney ou un Kruskal Wallis.
Test unilatéral : test statistique pour lequel on prend comme hypothèse alternative l'existence d'une différence dont le sens est connu. Test bilatérale : test statistique pour lequel on prend, comme hypothèse alternative, l'existence d'une différence, dans un sens ou l'autre.
Il s'agit du test de Kruskal-Wallis, mesure de l'association entre deux variables qualitatives. Le croisement de deux questions qualitatives produit un tableau que l'on désigne généralement par « tableau de contingence ».
Il existe principalement deux types d'ANOVA : à un facteur et à deux facteurs. Les deux tests ANOVA diffèrent l'un de l'autre par le nombre de variables indépendantes. L'ANOVA à un facteur implique qu'il n'y a qu'une variable indépendante.
L'ANOVA sur mesures répétées est utilisée pour l'analyse de données lorsque les mêmes sujets sont mesurés plus d'une fois. Ce test est également appelé ANOVA intra-sujets ou ANOVA sur mesures répétées.
En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'une différence existe. Valeur de p ≤ α : les différences entre certaines moyennes sont statistiquement significatives.
Un test paramétrique est un test pour lequel on fait une hypothèse paramétrique sur la loi des données sous H0 (loi normale, loi de Poisson...). Les hypothèses du test concernent alors les paramètres de cette loi. Un test non paramétrique est un test ne nécessitant pas d'hypothèse sur la loi des données.
Duncan en 1955. Ce test post-hoc ou test de comparaisons multiples peut être utilisé pour déterminer les différences significatives entre les moyennes des groupes dans une analyse de variance.
Le test de Kruskal-Wallis est une alternative non paramétrique au test ANOVA à un facteur. Il étend le test de Wilcoxon à deux échantillons dans les cas où il y a plus de deux groupes à comparer. Il est recommandé lorsque les hypothèses du test ANOVA, à un facteur, ne sont pas respectées.
Un test d'analyse de variance unidirectionnelle est une extension du test t mais un test d'analyse de variance peut comparer un nombre illimité de moyennes. Le test t ne peut comparer que deux moyennes.
Pour calculer cette variance, nous devons calculer à quelle distance chaque observation est de sa moyenne de groupe pour les 40 observations. Techniquement, c'est la somme des écarts au carré de chaque observation de la moyenne de son groupe divisé par le degré de liberté de l'erreur.
On obtient une p-value que l'on compare avec 0,05 (ou tout autre seuil). Si elle est supérieure, on ne rejette pas H0. En cas de variances parfaitement égales, TEST. F donne 1 ; en revanche, plus les variances sont dissemblables, plus la p-value tend vers zéro.
La variance est un concept statistique qui nous permet de mieux comprendre les données. D'un point de vue intuitif, elle aide à comprendre la notion de dispersion. D'un point de vue plus formel, elle permet de multiples applications dans le domaine des statistiques.
La variance est utilisée dans le domaine de la statistique et de la probabilité en tant que mesure servant à caractériser la dispersion d'une distribution ou d'un échantillon. Il est possible de l'interpréter comme la dispersion des valeurs par rapport à la moyenne.
On distingue divers types de variables selon la nature des données. Ainsi, une variable peut être qualitative ou quantitative; une variable qualitative peut être nominale ou ordinale, alors qu'une variable quantitative peut être continue ou discrète.
Les variables peuvent être classées en deux catégories principales : les catégoriques et les variables numériques. Chacune des catégories se sépare en deux sous-catégories : nominale et ordinales pour les variables catégoriques, discrètes et continues pour les variables numériques.
Elle peut être estimée à l'aide d'un échantillon et de la moyenne empirique ou déterminée grâce à l'espérance si celle-ci est connue. La variance apparait comme un cas particulier de covariance.
Les variables quantitatives correspondent à des informations que l'on peut mesurer, compter. Cela peut être par exemple : la taille, le poids, l'âge, le nombre d'enfants, etc. Les variables qualitatives correspondent à des informations que l'on ne peut pas mesurer, comme le sexe ou la couleur des cheveux.
Le rapport de corrélation est un indicateur statistique qui mesure l'intensité de la liaison entre une variable quantitative et une variable qualitative. la moyenne globale. Si le rapport est proche de 0, les deux variables ne sont pas liées. Si le rapport est proche de 1, les variables sont liées.
Le cas de plus de deux échantillons appariés :
Ce test, très utile, permet d'analyser la liaison entre un caractère quantitatif et un caractère qualitatif à k classes (k >2). Ce test permet notamment d'effectuer des comparaisons multiples en testant ce que l'on appelle les rangs moyens.