Celle-ci prend en premier argument un vecteur, puis une série de recodages sous la forme Nouvelle valeur = Ancienne valeur . À noter que toutes ces opérations sont sensibles à la casse (majuscules/minuscules), aux accents, aux espaces, etc. Il faut donc recopier exactement à l'identique les noms des anciennes valeurs.
Si une variable numérique contient en réalité un petit nombre de valeurs différentes, il suffit de convertir la classe de l'objet de numeric vers factor ou ordered pour que R comprenne que la variable doit être traitée comme une variable qualitative.
Re: Créer une boucle pour changer le type de variable
S'il n'est pas possible de modifier la base, on peut toujours transformer le data frame sous R avec (par exemple) la fonction reshape (du format "wide" vers le format "long"), puis ensuite reformatter l'unique colonne date.
Si on souhaite recoder une modalité de la variable en NA , il faut (contre intuitivement) lui assigner la valeur NULL . À l'inverse, si on souhaite recoder les NA d'une variable, on utilisera la fonction fct_explicit_na , qui convertit toutes les valeurs manquantes ( NA ) d'un facteur en une modalité spécifique.
Renommer des variables
Sous R les noms de variables doivent être à la fois courts et explicites. Les noms de variables peuvent contenir des lettres, des chiffres (mais ils ne peuvent pas commencer par un chiffre), les symboles . et _ et doivent commencer par une lettre.
VA discrète (quantitative discontinue) Ce type de variable est associée généralement à un diagramme en bâtons où l'axe horizontal des abscisses porte les valeurs prises par la VA (xi) tandis que l'axe vertical des ordonnées porte l'effectif absolu (ni) observé.
Il est possible de regrouper les données relatives à deux variables qualitatives sous la forme d'un tableau d'effectifs ou de fréquences. On parle de tableau de contingence. La réalisation d'un tableau de contingence sur R se fait à l'aide de la commande table() .
Pour étudier le relation entre une variable qualitative et une variable quantita- tive, on décompose la variation totale en variation intergroupe et en variation intragroupe. Pour mesurer l'intensité de la relation (toujours d'un point de vue descriptif), on peut calculer un param`etre appelé rapport de corrélation.
On appelle affectation le fait de donner une certaine valeur à une variable. Affecter une valeur à une variable signifie écrire cette valeur dans la case mémoire représentée par la variable. Pour réaliser une affectation en JavaScript ou en Python on utilise le signe = .
1.2.1 Pour afficher les modalités
Ces modalités (ou levels) sont affichées dans la sortie de la fonction str , mais il est parfois plus pratique d'utiliser la fonction levels , qui n'affichera que cette information.
Le test le plus utilisé pour tester la liaison entre une variable quantitative et une variable qualitative à deux (2) modalités est le test de Student (alternative test de Man-Withney).
Description d'une variable
La description d'une variable qualitative consiste à présenter les effectifs, c'est-à-dire le nombre d'individus de l'échantillon pour chaque modalité de la variable, et les fré- quences, c'est-à-dire la proportion des réponses associées à chaque modalité de la variable étudiée.
Une variable catégorique (aussi appelée variable qualitative) réfère à une caractéristique qui n'est pas quantifiable. Une variable catégorique peut être nominale ou ordinale.
Croiser une variable quantitative et une variable qualitative, c'est essayer de voir si les valeurs de la variable quantitative se répartissent différemment selon la catégorie d'appartenance de la variable qualitative. Cette syntaxe de boxplot utilise une nouvelle notation de type “formule”.
le GLM est un outil robuste pour fournir une mesure de l'influence de la variable si celle-ci est globale ; dès lors que l'on souhaite décomposer plus finement la mesure par segment, l'approche non paramétrique fournit des mesures cohérentes, alors que le GLM ne peut plus être utilisé.
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Le polygone de fréquence est un graphique linéaire, adapté pour représenter des variables quantitatives continue.
Un caractère quantitatif est discret s'il prend un nombre fini de valeurs ou continu, s'il prend toutes les valeurs entre deux limites.
Chaque nom de variable doit être unique ; aucune duplication n'est admise. Les noms de variable peuvent contenir jusqu'à 64 octets, le premier caractère étant une lettre ou l'un des caractères suivants : @, # ou $. Les caractères suivants peuvent être une combinaison de lettres, de chiffres, un point (.)
Pour créer une nouvelle variable, il suffit d'assigner des valeurs à une variable dont le nom n'existe pas encore dans le tableau. Si l'utilisateur assigne des valeurs à une variable dont le nom existe déjà dans le tableau, les valeurs originelles seront écrasées par les nouvelles valeurs.
La fonction merge() permet de fusionner 2 data frames horizontalement par une ou deux variables communes. Copier vers le presse-papierCode R : merge(x, y, by ="name") # fusionne les data frames x et y par la colonne name.