Le coefficient de corrélation de Pearson est utilisé pour les données bivariées continues afin de déterminer l'intensité et le sens de la corrélation linéaire entre les deux ensembles de données.
La corrélation de Spearman utilise le rang des données pour mesurer la monotonie entre des variables ordinales ou continues. La corrélation de Pearson quant à elle détecte des relations linéaires entre des variables quantitatives avec des données suivant une distribution normale.
Le coefficient de corrélation linéaire, ou de Bravais-Pearson, permet de mesurer à la fois la force et le sens d'une association. Variant de -1 à +1, il vaut 0 lorsqu'il n'existe pas d'association. Plus ce coefficient est proche de -1 ou +1, plus l'association entre les deux variables est forte, jusqu'à être parfaite.
Pour faire court, la seule condition de validité pour le calcul d'un coefficient de corrélation de Pearson ou l'estimation d'une régression linéaire, est l'existence d'une variance non-nulle sur chacune des deux variables, sous peine de division par zéro.
Le coefficient de corrélation, mesuré par la fonction cor(), permet de savoir à quel point deux variables quantitatives sont corrélées. Il existe 3 méthodes pour tester la significativité de ce coefficient : la méthode de « Pearson », de « Kendall », et de « Spearman ».
Pour savoir si la distribution des réponses de deux variables qualitatives est due au hasard ou si elle révèle une liaison entre elles, on utilise généralement le test du Khi2 dit «Khi-deux».
Un coefficient de 0,1 indique ainsi une relation linéaire positive existante, mais faible et probablement anecdotique. À l'inverse, un coefficient de 0,9 indique une relation linéaire très forte. En pratique, on ne considère la corrélation comme significative que lorsque la valeur du coefficient dépasse 0,8.
La corrélation mesure l'intensité de la liaison entre des variables, tandis que la régression analyse la relation d'une variable par rapport à une ou plusieurs autres.
Le coefficient de Pearson permet de mesurer le niveau de corrélation entre les deux variables. Il renvoie une valeur entre -1 et 1. S'il est proche de 1 cela signifie que les variables sont corrélées, proche de 0 que les variables sont décorrélées et proche de -1 qu'elles sont corrélées négativement.
Pour être interprété, le coefficient de corrélation doit être significatif (la valeur de p doit être plus petite que 0,05). Si le coefficient est non significatif, on considère qu'il est semblable à r = 0.
Il existe 2 types de corrélation : la corrélation positive et la corrélation négative.
Conditions de la corrélation de Pearson
La meilleure façon de vérifier si les variables ont une corrélation linéaire est d'utiliser un nuage de points. Si ces conditions ne sont pas remplies, on utilise la corrélation de Spearman.
Une valeur de 0 de 𝑟 indique qu'il n'y a pas de relation entre les variables. Plus la valeur de 𝑟 est proche de − 1 ou 1, plus la corrélation est forte ; et plus elle est proche de 0, plus la corrélation est faible.
Deux grands types sont distingués : les variables quantitatives, sur lesquelles des résumés numériques peuvent être calculés (âge pour des individus, population pour des communes) ; les variables qualitatives, qui regroupent les individus dans un nombre fini de modalités (sexe pour des individus, département d' ...
Le test le plus utilisé pour tester la liaison entre une variable quantitative et une variable qualitative à deux (2) modalités est le test de Student (alternative test de Man-Withney).
Une variable discontinue est dite discrète si elle ne contient que des valeurs entières (exemple : nombre d'enfants d'une famille). Par ailleurs, une variable continue accepte toutes les valeurs d'un intervalle fini ou infini (exemple : diamètre de pièces, salaires…).
La régression linéaire va vous permettre d'en analyser la nature. Par exemple, si le prix d'un produit particulier change en permanence, vous pouvez utiliser l'analyse de régression pour déterminer si la consommation baisse à mesure que le prix augmente.
La régression linéaire simple permet d'estimer les paramètres de la droite liant la variable réponse à la variable prédictive, mais elle permet également d'évaluer si cette relation est significative ou non. Pour cela, un test T est employé pour évaluer si la pente est significativement différente de 0 ou non.
Principes de la régression logistique
Elle est très utilisée dans le domaine médical (guérison ou non d'un patient), en sociologie, en épidémiologie, en marketing quantitatif (achat ou non de produits ou services suite à une action) et en finance pour la modélisation de risques (scoring).
Il n'y a pas de score minimum, mais un modèle simple prédisant tout le temps la valeur moyenne atteint un score R2 de 0%. Par conséquent un score R2 négatif signifie que les prédictions sont moins bonnes que si l'on prédisait systématiquement la valeur moyenne.
Il s'agit d'une variable numérique. Les tests que vous pouvez utiliser sont alors le test de Student ou le test de Wilcoxon-Mann-Whitney, selon si les groupes suivent une distribution normale (en forme de cloche).