L'analyse de variance ou ANOVA permet de faire une comparaison des moyennes entre plusieurs populations. Dans le cas particulier où l'on ne désire comparer entre-elles que 2 populations, on utilise généralement le test de Student, une version particulière de l'ANOVA.
Le cas de deux échantillons indépendants :
Pour comparer deux moyennes, il faut habituellement employer le test «T» de Student, qui suppose la normalité des distributions et l'égalité des variances (test paramétrique), hypothèses invérifiables avec des effectifs faibles.
Le test-t de Student est un test statistique permettant de comparer les moyennes de deux groupes d'échantillons. Il s'agit donc de savoir si les moyennes des deux groupes sont significativement différentes au point de vue statistique.
On définit par p1 = n1 / N1, la proportion de l'échantillon E1 vérifiant la propriété, et par p2 = n2 / N2 la proportion pour E2. Soit D la différence (exacte, minimale ou maximale) supposée entre les deux proportions.
Deux tests statistiques, le test de Student et le test de Wilcoxon, sont généralement employés pour comparer deux moyennes. Il existe cependant des variantes de ces deux tests, pour répondre à différentes situations, comme la non indépendance des échantillons par exemple.
Un test de Student peut être utilisé pour évaluer si un seul groupe diffère d'une valeur connue (test t à un échantillon), si deux groupes diffèrent l'un de l'autre (test t à deux échantillons indépendants), ou s'il existe une différence significative dans des mesures appariées (test de Student apparié ou à ...
Elle est notamment utilisée pour les tests de Student, la construction d'intervalle de confiance et en inférence bayésienne.
L'ANOVA est un test statistique qui généralise le test t − Student au cadre de comparaisons de plusieurs moyennes. On l'applique dès lors que l'on étudie les effets d'une ou plusieurs variables qua- litatives sur une variable quantitative.
Lorsque l'un des effectifs théoriques est inférieur à 5 ou lorsque les sommes marginales du jeu de données réel sont très déséquilibrées, il est préférable de se fier au test exact de Fisher.
Il faut commencer par tester la normalité de la distribution à l'aide du test de Shapiro-Wilk ou du test de Kolmogorov-Smirnov. Si l'hypothèse de normalité n'est pas rejetée, on peut utiliser un test paramétrique. Sinon, on doit utiliser un test non paramétrique.
ANOVA teste l'homogénéité de la moyenne de la variable quantitative étudiée sur les différentes valeurs de la variable qualitative. L'analyse de la variance, si elle aboutit à un résultat éloigné de zéro, permet de rejeter l'hypothèse nulle : la variable qualitative influe effectivement sur la variable quantitative.
L'hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s'appelle l'hypothèse nulle et est notée H0. N'importe quelle autre hypothèse qui diffère de l'hypothèse H0 s'appelle l'hypothèse alternative (ou contre-hypothèse) et est notée H1.
Pour comparer deux séries statistiques, en termes d'homogénéité, on peut également comparer les écartes interquartiles : S'ils sont sensiblement égales alors les dispersions des deux sont semblables.
La procédure Test U de Mann-Whitney utilise le rang de chaque observation pour tester si les groupes sont issus de la même population. Les tests de Mann-Whitney servent à vérifier que deux échantillons d'une population ont une position équivalente.
En statistiques, les tests de normalité permettent de vérifier si des données réelles suivent une loi normale ou non. Les tests de normalité sont des cas particuliers des tests d'adéquation (ou tests d'ajustement, tests permettant de comparer des distributions), appliqués à une loi normale.
A.
Le test statistique est utile lorsqu'il faut trancher entre 2 hypothèses : H0 : hypothèse nulle, elle correspond à une situation de statu quo. H1 : hypothèse alternative, elle correspond à l'hypothèse qu'on veut démontrer.
Les variables dépendantes et indépendantes.
En général, on représente la variable indépendante par la lettre «x». Une variable dépendante dans un problème est le paramètre du problème qui varie sous l'influence de la variable indépendante. En général, on représente la variable dépendante par la lettre «y».
La moyenne est calculable pour les variables numériques, qu'elles soient discrètes ou continues. On l'obtient simplement en additionnant l'ensemble des valeurs et en divisant cette somme par le nombre de valeurs. Ce calcul peut être fait à partir des données brutes ou d'un tableau de fréquences.
Ce calcul nous indique à combien d'unités d'erreur-type se situe la différence observée de la moyenne populationnelle de 0. Lorsque le degré de signification est petit (p < 0,05), nous pouvons rejeter l'hypothèse nulle et conclure que les deux moyennes ne proviennent pas de la même population.
Le t-test avec 1 seul échantillon à comparer à une moyenne
Sauf qu'ici, on ne dispose que d'un seul échantillon qu'on veut comparer à une moyenne (une référence donnée). Le t-test est donc réalisé comme si un deuxième échantillon existait avec la même valeur pour chaque individu (qui est la référence donnée).
Les méthodes non paramétriques sont utiles lorsque l'hypothèse de normalité ne tient pas et que l'effectif d'échantillon est faible. Cela dit, dans les tests non paramétriques, vos données reposent également sur des hypothèses.
Cette loi est principalement utilisée dans le test du χ2 basé sur la loi multinomiale pour vérifier l'adéquation d'une distribution empirique à une loi de probabilité donnée. Plus généralement elle s'applique dans le test d'hypothèses à certains seuils (indépendance notamment).
Il existe une formule simple pour calculer le degré de liberté d'un tableau. dll = (nb de lignes - 1) x (nb de colonnes – 1) où le nombre de lignes et de colonnes s'entend sans les lignes ou colonnes de total.
La variance empirique est l'analogue « empirique » (ie calculé sur échantillon) de la variance « théorique ». (i) Si X : Ω ↦ RN est un N-échantillon aléatoire, on note resp PN et FN la loi empirique et la fonction de répartition empirique associées à X. -1 . Σn=1 N (Xn -‾XN)2.