On distingue divers types de variables selon la nature des données. Ainsi, une variable peut être qualitative ou quantitative; une variable qualitative peut être nominale ou ordinale, alors qu'une variable quantitative peut être continue ou discrète.
Une variable continue est une variable qui peut prendre toutes les valeurs possibles d'un intervalle de nombres réels. Une variable discrète est une variable qui peut prendre uniquement certaines valeurs d'un intervalle de nombres réels. Généralement, les valeurs admissibles ne sont que les nombres entiers.
Le rapport de corrélation est un indicateur statistique qui mesure l'intensité de la liaison entre une variable quantitative et une variable qualitative. la moyenne globale. Si le rapport est proche de 0, les deux variables ne sont pas liées. Si le rapport est proche de 1, les variables sont liées.
Les variables qualitatives contiennent des valeurs qui expriment une qualité, un état, c'est-à-dire une condition, un statut unique et exclusif comme le sexe, la couleur ou bien encore la catégorie socioprofessionnelle.
Les variables indépendantes sont celles qui sont manipulées, tandis que les variables dépendantes sont seulement mesurées ou enregistrées.
Les variables quantitatives continues correspondent à des données issues de mesures, comme par exemple la taille, le poids, la pression artérielle, la glycémie, etc.
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Croiser une variable quantitative et une variable qualitative, c'est essayer de voir si les valeurs de la variable quantitative se répartissent différemment selon la catégorie d'appartenance de la variable qualitative. Cette syntaxe de boxplot utilise une nouvelle notation de type “formule”.
Le coefficient de Pearson permet de mesurer le niveau de corrélation entre les deux variables. Il renvoie une valeur entre -1 et 1. S'il est proche de 1 cela signifie que les variables sont corrélées, proche de 0 que les variables sont décorrélées et proche de -1 qu'elles sont corrélées négativement.
pour tester le type d'une variable, on peut faire : type(var) == list (ou str ou int ou float) mais pour tester le type d'une variable, le mieux est isinstance(var, list). isinstance donne True si on teste si un objet contre sa classe, mais aussi contre ses classes de base.
Un caractère peut être qualitatif (non mesurable) ou quantitatif (mesurable). Un caractère quantitatif est discret s'il prend un nombre fini de valeurs ou continu, s'il prend toutes les valeurs entre deux limites.
Les variables temporelles
Type date: 31 octobre 1983.
Une variable numérique (aussi appelée variable quantitative) est une caractéristique quantifiable dont les valeurs sont des nombres, à l'exclusion des nombres qui correspondent en fait à des codes. Les variables numériques peuvent être continues ou discrètes.
Une variable est considérée comme quantitative ou métrique lorsque ses modalités peuvent être mesurées (par exemple, l'âge, la valeur d'une action, etc.).
On distingue ainsi classiquement trois types de caractères observables, ou encore de variables : les variables nominales, les variables ordinales et les variables métriques.
Une variable quantitative est une variable dont les valeurs sont exprimées par des nombres, accompagnés au besoin d'unités et d'incertitudes. Une variable quantitative est dite discrète si elle ne peut prendre que des valeurs bien précises (des entiers, par exemple, comme celles qui résultent d'un dénombrement).
ANOVA teste l'homogénéité de la moyenne de la variable quantitative étudiée sur les différentes valeurs de la variable qualitative. L'analyse de la variance, si elle aboutit à un résultat éloigné de zéro, permet de rejeter l'hypothèse nulle : la variable qualitative influe effectivement sur la variable quantitative.
Le tableau de contingence
Il est possible de regrouper les données relatives à deux variables qualitatives sous la forme d'un tableau d'effectifs ou de fréquences. On parle de tableau de contingence. La réalisation d'un tableau de contingence sur R se fait à l'aide de la commande table() .
Exemple : l'âge est théoriquement une variable quantitative continue, mais en pratique l'âge est mesuré dans le meilleur des cas au jours près.
Le test statistique se base sur le coefficient de Pearson r calculé par cor(x, y) . Il suit une distribution t avec un degré de liberté ddl = length(x)-2 si les échantillons suivent une distribution normale indépendante. La fonction indique enfin une p-value pour ce test.
Par conséquent, les corrélations sont généralement exprimées à l'aide de deux chiffres clés : r = et p = . Plus r est proche de zéro, plus la relation linéaire est faible. Les valeurs positives de r indiquent une corrélation positive lorsque les valeurs des deux variables tendent à augmenter ensemble.
On récapitule ! Variables qualitatives ou catégorielles expriment une qualité comme le sexe, le métier ou le nom. Nominales, comme par exemple le nom des journaux, le signe astrologique. Ordinales, désigne le rang : un peu, moyen, beaucoup, énormément, à la folie !
5.3.2 Quantitatif à qualitatif
Si une variable numérique contient en réalité un petit nombre de valeurs différentes, il suffit de convertir la classe de l'objet de numeric vers factor ou ordered pour que R comprenne que la variable doit être traitée comme une variable qualitative.