Pour savoir si la distribution des réponses de deux variables qualitatives est due au hasard ou si elle révèle une liaison entre elles, on utilise généralement le test du Khi2 dit «Khi-deux».
TEST DE CHI AU CARRÉ
Il détermine s'il existe une association entre des variables qualitatives. Si la valeur P associée à la statistique de contraste est plus petite on rejettera l'hypothèse nulle. Elle permet d'évaluer l'effet du hasard.
Un test de Student peut être utilisé pour évaluer si un seul groupe diffère d'une valeur connue (test t à un échantillon), si deux groupes diffèrent l'un de l'autre (test t à deux échantillons indépendants), ou s'il existe une différence significative dans des mesures appariées (test de Student apparié ou à ...
La description d'une variable qualitative est beaucoup plus sommaire. Une fois les modalités de la variable identifiées, il s'agit d'identifier le mode et d'étudier les proportions associées à chaque modalité. Il sera souvent plus intéressant de croiser des variables qualitatives afin d'extraire plus d'information.
Vous avez les échantillons de deux groupes d'individus et vous souhaitez comparer leurs revenus moyens. Il s'agit d'une variable numérique. Les tests que vous pouvez utiliser sont alors le test de Student ou le test de Wilcoxon-Mann-Whitney, selon si les groupes suivent une distribution normale (en forme de cloche).
La procédure Test U de Mann-Whitney utilise le rang de chaque observation pour tester si les groupes sont issus de la même population. Les tests de Mann-Whitney servent à vérifier que deux échantillons d'une population ont une position équivalente.
Vous utilisez un test du khi-deux pour tester des hypothèses afin de déterminer si les données sont conformes aux attentes. L'idée de base qui sous-tend le test est de comparer les valeurs observées dans vos données aux valeurs attendues si l'hypothèse nulle est vraie.
Il est possible de regrouper les données relatives à deux variables qualitatives sous la forme d'un tableau d'effectifs ou de fréquences. On parle de tableau de contingence. La réalisation d'un tableau de contingence sur R se fait à l'aide de la commande table() .
ANOVA teste l'homogénéité de la moyenne de la variable quantitative étudiée sur les différentes valeurs de la variable qualitative. L'analyse de la variance, si elle aboutit à un résultat éloigné de zéro, permet de rejeter l'hypothèse nulle : la variable qualitative influe effectivement sur la variable quantitative.
Le test statistique se base sur le coefficient de Pearson r calculé par cor(x, y) . Il suit une distribution t avec un degré de liberté ddl = length(x)-2 si les échantillons suivent une distribution normale indépendante. La fonction indique enfin une p-value pour ce test.
Or selon la théorie il faut faire un test de Fisher lorsque la présence de racine unitaire n'est pas rejetée (p. value > 5%). Dans le cas contraire, le test convenable est en principe celui de student pour tester uniquement la significativité de la tendance ou de la constante.
Le test exact de Fisher calcule la probabilité d'obtenir les données observées (en utilisant une distribution hypergéométrique) ainsi que les probabilités d'obtenir tous les jeux de données encore plus extrêmes sous l'hypothèse nulle. Ces probabilités sont utilisées pour calculer la p-value.
2. Le test de Mann-Whitney. le test de Mann-Whitney est l'alternative non paramétrique de t de Student pour deux échantillons indépendants. Lorsque la distribution des valeurs ne suit pas une loi normale, donc dissymétrique, le test t de student ne s'applique pas; il faut utiliser plutôt le test de Mann-Whitney.
La corrélation de Spearman est l'équivalent non-paramétrique de la corrélation de Pearson. Elle mesure le lien entre deux variables. Si les variables sont ordinales, discrètes ou qu'elles ne suivent pas une loi normale, on utilise la corrélation de Spearman.
Quel est l'avantage d'utiliser un test paramétrique ? Les tests paramétriques sont, eux, plus puissants en général que leurs équivalents non-paramétriques. Autrement dit, un test paramétrique sera plus apte à aboutir à un rejet de H0, si ce rejet est justifié.
l'ACP est utilisé sur un tableau de données où toutes les variables sur tous les individus sont numériques. L'AFC, elle, s'utilise avec des variables qualitatives qui possèdent deux ou plus de deux modalités. L'AFC offre une visualisation en deux dimensions des tableaux de contingence.
Le test t est un test d'hypothèse statistique utilisé pour comparer les moyennes de deux groupes de population. L'ANOVA est une technique d'observation utilisée pour comparer les moyennes de plus de deux groupes de population. Les tests t sont utilisés à des fins de test d'hypothèses pures.
La première étape consiste à formuler l'hypothèse nulle d'indépendance entre ces deux variables qualitatives. Si ces deux variables sont indépendantes, on peut alors calculer la probabilité de chaque modalité A1, A2... La probabilité de présenter A1 et B1 est alors égale à P(A1) × P(B1).
Interpréter les résultats d'un test F de Fisher pour comparer la variance de deux échantillons. Les résultats qui apparaissent dans une nouvelle feuille montre qu'il faut rejeter l'hypothèse H0 car la p-value est de 0,009 qui est inférieure à la limite de 0,05.
Le coefficient de Pearson permet de mesurer le niveau de corrélation entre les deux variables. Il renvoie une valeur entre -1 et 1. S'il est proche de 1 cela signifie que les variables sont corrélées, proche de 0 que les variables sont décorrélées et proche de -1 qu'elles sont corrélées négativement.
L'outil principal pour étudier les relations entre variables qualitatives est le tableau croisé (parfois appelé tri croisé). Il s'agit d'un tableau indiquant la distribution des individus selon deux variables simultanément [2][2]Sur les principes de construction et de lecture de tels….
le GLM est un outil robuste pour fournir une mesure de l'influence de la variable si celle-ci est globale ; dès lors que l'on souhaite décomposer plus finement la mesure par segment, l'approche non paramétrique fournit des mesures cohérentes, alors que le GLM ne peut plus être utilisé.
En statistique, le test de Wilcoxon-Mann-Whitney (ou test U de Mann-Whitney ou encore test de la somme des rangs de Wilcoxon) est un test statistique non paramétrique qui permet de tester l'hypothèse selon laquelle les distributions de chacun de deux groupes de données sont proches.
Le calcul du Khi2 des données s'effectue comme suit : La donnée observée moins la donnée de l'hypothèse nulle mise au carré et finalement divisée par la donnée de l'hypothèse nulle. *Le « O » est la donnée observée et le « E » est la donnée de l'hypothèse nulle. On répète cette formule pour chaque cellule du tableau.
Un seuil de signification de 0,05 indique un risque de 5 % de rejeter à tort l'hypothèse nulle. Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez rejeter l'hypothèse nulle et en conclure que vos données ne suivent pas une loi avec certaines proportions.