Le test t est un test d'hypothèse statistique utilisé pour comparer les moyennes de deux groupes de population. L'ANOVA est une technique d'observation utilisée pour comparer les moyennes de plus de deux groupes de population.
Le test T est une statistique inférentielle utilisée pour évaluer les différences entre les moyennes de deux groupes. Le test T est généralement utilisé lorsque les ensembles de données suivent une distribution normale et peuvent avoir des variances inconnues.
5.1.3 Effectuer une ANOVA
Le test de t s'applique seulement quand on a une seule variable explicative catégorique, qui comprend 2 niveaux. Pour tous les autres modèles linéaires avec des variables explicatives catégoriques avec > 2 niveaux, on utilise une ANOVA.
Pour comparer deux moyennes, il faut habituellement employer le test «T» de Student, qui suppose la normalité des distributions et l'égalité des variances (test paramétrique), hypothèses invérifiables avec des effectifs faibles.
L'ANOVA sur mesures répétées est utilisée pour l'analyse de données lorsque les mêmes sujets sont mesurés plus d'une fois. Ce test est également appelé ANOVA intra-sujets ou ANOVA sur mesures répétées.
L'ANOVA à 2 facteurs est généralement employée pour analyser les résultats d'une expérimentation dans laquelle des individus, ou des unités expérimentales, ont été exposées, de façon aléatoire (randomisée), à l'une des combinaisons (ou croisement) des modalités des deux variables catégorielles.
L'ANOVA est une technique de statistique inférentielle élaborée pour tester l'existence d'une relation significative entre deux variables dans deux ou plusieurs groupes.
Le test du Chi2 consiste à mesurer l'écart entre une situation observée et une situation théorique et d'en déduire l'existence et l'intensité d'une liaison mathématique. Par exemple, en théorie il y a autant de chance d'obtenir « pile » que « face » au lancer d'une pièce de monnaie, en pratique il n'en est rien.
Si les données des échantillons suivent une loi normale, les tests à privilégier sont les tests paramétriques. C'est le cas du test T de Student et de l'ANOVA. Si cette condition n'est pas remplie, nous devons utiliser des tests non paramètriques Wilcoxon, test de Mann Whitney ou un Kruskal Wallis.
L'épreuve de Chi-carré est toute épreuve statistique de l'hypothèse dans laquelle le test statistique de la distribution du Chi-carré si l'hypothèse nulle est vrai. Il détermine s'il existe une association entre des variables qualitatives.
L'analyse de variance permet simplement de répondre à la question de savoir si tous les échantillons suivent une même loi normale. Dans le cas où l'on rejette l'hypothèse nulle, cette analyse ne permet pas de savoir quels sont les échantillons qui s'écartent de cette loi.
Il existe différents types de tests post hoc
Les tests post hoc les plus courants sont les suivants : Procédure Bonferroni : Il est possible d'effectuer plusieurs tests statistiques en même temps en utilisant cette correction post hoc de comparaison multiple.
Vous utilisez un test du khi-deux pour tester des hypothèses afin de déterminer si les données sont conformes aux attentes. L'idée de base qui sous-tend le test est de comparer les valeurs observées dans vos données aux valeurs attendues si l'hypothèse nulle est vraie.
Les tests de Mann-Whitney servent à vérifier que deux échantillons d'une population ont une position équivalente. Les observations des deux groupes sont combinées et ordonnées, et il leur est attribué un rang moyen en cas d'ex aequo. Le nombre d'ex aequo doit être petit par rapport au nombre total d'observations.
En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'une différence existe. Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez rejeter l'hypothèse nulle.
Définitions. Un test paramétrique est un test pour lequel on fait une hypothèse paramétrique sur la loi des données sous H0 (loi normale, loi de Poisson...); Les hypothèses du test concernent alors les paramètres de cette loi. Un test non paramétrique est un test ne nécessitant pas d'hypothèse sur la loi des données.
Les techniques statistiques associées à l'Exploratory Data Analysis sont entre autres le regroupement en k-moyennes, la régression linéaire, la réduction de la dimensionnalité des variables, les visualisations (univariées, bivariées ou multivariées).
Lorsque l'on réalise des comparaisons de population ou que l'on compare une population à une valeur théorique, il existe deux grandes familles de tests : les tests paramétriques, et les tests non paramétriques.
On différencie deux types de variables : les variables quantitatives : il s'agit de valeurs numériques, on les appelles aussi continues, les variables qualitatives : il s'agit de variables dont le nombre de valeurs possibles est limité.
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Deux grands types sont distingués : les variables quantitatives, sur lesquelles des résumés numériques peuvent être calculés (âge pour des individus, population pour des communes) ; les variables qualitatives, qui regroupent les individus dans un nombre fini de modalités (sexe pour des individus, département d' ...
ANOVA teste l'homogénéité de la moyenne de la variable quantitative étudiée sur les différentes valeurs de la variable qualitative. L'analyse de la variance, si elle aboutit à un résultat éloigné de zéro, permet de rejeter l'hypothèse nulle : la variable qualitative influe effectivement sur la variable quantitative.
L'ANOVA mixte à trois facteurs peut être effectuée afin de déterminer s'il y a une interaction significative entre les variables diet (régime alimentaire), exercises (exercices) et time (le temps) sur le score de perte de poids.
Il peut être utilisé dans le cadre d'une ANOVA ou bien sur des données brutes pour évaluer par exemple si des moyennes sont significativement différentes l'une de l'autre.