Il est possible de regrouper les données relatives à deux variables qualitatives sous la forme d'un tableau d'effectifs ou de fréquences. On parle de tableau de contingence. La réalisation d'un tableau de contingence sur R se fait à l'aide de la commande table() .
Croiser une variable quantitative et une variable qualitative, c'est essayer de voir si les valeurs de la variable quantitative se répartissent différemment selon la catégorie d'appartenance de la variable qualitative. Cette syntaxe de boxplot utilise une nouvelle notation de type “formule”.
La comparaison de deux variables qualitatives s'appelle en général un tableau croisé . C'est sans doute l'une des analyses les plus fréquentes lors du traitement d'enquêtes en sciences sociales.
Le rapport de corrélation est un indicateur statistique qui mesure l'intensité de la liaison entre une variable quantitative et une variable qualitative. la moyenne globale. Si le rapport est proche de 0, les deux variables ne sont pas liées. Si le rapport est proche de 1, les variables sont liées.
Comme pour les variables catégorielles il existe un test pour déterminer si deux variables continues sont indépendantes : le test de corrélation de Pearson. L'hypothèse nulle à tester est identique : « les deux variables testées sont indépendantes ».
Vous utilisez un test du khi-deux pour tester des hypothèses afin de déterminer si les données sont conformes aux attentes. L'idée de base qui sous-tend le test est de comparer les valeurs observées dans vos données aux valeurs attendues si l'hypothèse nulle est vraie.
Celle-ci prend en premier argument un vecteur, puis une série de recodages sous la forme Nouvelle valeur = Ancienne valeur . À noter que toutes ces opérations sont sensibles à la casse (majuscules/minuscules), aux accents, aux espaces, etc. Il faut donc recopier exactement à l'identique les noms des anciennes valeurs.
Pour étudier le relation entre une variable qualitative et une variable quantita- tive, on décompose la variation totale en variation intergroupe et en variation intragroupe. Pour mesurer l'intensité de la relation (toujours d'un point de vue descriptif), on peut calculer un param`etre appelé rapport de corrélation.
Qu'est-ce que la corrélation ? La corrélation est une mesure statistique qui exprime la notion de liaison linéaire entre deux variables (ce qui veut dire qu'elles évoluent ensemble à une vitesse constante).
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Le cas de deux échantillons indépendants :
Pour comparer deux moyennes, il faut habituellement employer le test «T» de Student, qui suppose la normalité des distributions et l'égalité des variances (test paramétrique), hypothèses invérifiables avec des effectifs faibles.
Deux échantillons E1 et E2 sont dit appariés lorsque chaque valeur x1,i de E1 est associée à une valeur x2,i de E2 (appariés = associés par paire : variables dépendantes). Par exemple E1 peut être un groupe de malades avant traitement et E2 le groupe des mêmes malades après traitement.
La méthode la plus simple et probablement la plus répandue pour permuter deux variables est d'utiliser une troisième variable temporaire. L'inconvénient de cette méthode est qu'elle nécessite une variable supplémentaire.
Il existe un autre test non paramétrique permettant de comparer plus de 2 échantillons et qui est en fait la généralisation du test de Mann-Whitney. Il s'agit du test de Kruskal-Wallis, mesure de l'association entre deux variables qualitatives.
Soit f une fonction de deux variables réelles à valeurs réelles et soit D un sous ensemble de R2. On dit que f est continue sur (l'ensemble) D si et seulement si elle est continue en chacun des points de D. f + g est continue en (x0, y0). fg est continue en (x0, y0).
5.3.2 Quantitatif à qualitatif
Si une variable numérique contient en réalité un petit nombre de valeurs différentes, il suffit de convertir la classe de l'objet de numeric vers factor ou ordered pour que R comprenne que la variable doit être traitée comme une variable qualitative.
Le graphique le plus adapté dans le cas de deux variables quantitatives est un diagramme de dispersion, qui n'est autre qu'un nuage de points (ou scatter plot, en anglais). Le coefficient de corrélation de Pearson ou coefficient de corrélation linéaire permet de compléter numériquement l'analyse de la corrélation.
le GLM est un outil robuste pour fournir une mesure de l'influence de la variable si celle-ci est globale ; dès lors que l'on souhaite décomposer plus finement la mesure par segment, l'approche non paramétrique fournit des mesures cohérentes, alors que le GLM ne peut plus être utilisé.
Une variable catégorique (aussi appelée variable qualitative) réfère à une caractéristique qui n'est pas quantifiable. Une variable catégorique peut être nominale ou ordinale.
La commande RECODE sert à créer de nouvelles variables (ou à modifier des variables existantes) sur la base de regroupement des valeurs.
La boîte de dialogue Recodage de variables vous permet de réaffecter les valeurs de variables existantes ou de fusionner des plages de valeurs existantes dans de nouvelles valeurs. Par exemple, vous pourriez fusionner des salaires dans des catégories de plages de salaires.
Le test du chi carré est utilisé pour déterminer s'il y a une différence significative entre les fréquences attendues et les fréquences observées dans une ou plusieurs catégories.
Le test du khi² a une puissance plus importante que le test exact de Fisher. En d'autres termes, il est plus apte à rejeter l'hypothèse nulle lorsqu'elle est fausse.
La statistique du Khi deux de vraisemblance est de 11,816 et la valeur de p = 0,019. Avec un seuil de signification de 0,05, vous pouvez donc conclure que l'association entre les variables est statistiquement significative.