Les valeurs 1 et -1 représentent chacune les corrélations « parfaites », positive et négative respectivement. Deux variables présentant une corrélation parfaite évoluent ensemble à une vitesse fixe.
Cette mesure est normée de telle sorte que la corrélation positive est comprise entre r = ]0;+1] et la corrélation négative est comprise entre r = [-1;0[ . Pour des valeurs r = -1 ou r = 1 , la dépendance est parfaite. Si r = 0 alors les deux variables sont parfaitement indépendantes.
Interprétation des valeurs de R carré? Ce coefficient est compris entre 0 et 1, et croît avec l'adéquation de la régression au modèle: – Si le R² est proche de zéro, alors la droite de régression colle à 0% avec l'ensemble des points donnés.
On peut (par la pensée ou réellement) tracer une droite qui passe au mieux par ces points (au milieu du "nuage" de points). Si cette droite "monte", on dira qu'il y a corrélation positive entre les deux variables. Si elle "descend", c'est une corrélation négative.
Interprétation du coefficient de corrélation de Pearson
Pour être interprété, le coefficient de corrélation doit être significatif (la valeur de p doit être plus petite que 0,05). Si le coefficient est non significatif, on considère qu'il est semblable à r = 0.
Lorsqu'il existe une corrélation entre deux variables, cela signifie simplement qu'il existe une relation entre ces deux variables. Cette relation peut être : positive : lorsque les deux variables bougent dans la même direction ou ; négative : lorsque les deux variables bougent dans une direction opposée.
La corrélation mesure l'intensité de la liaison entre des variables, tandis que la régression analyse la relation d'une variable par rapport à une ou plusieurs autres.
La valeur de la mesure R2 ajusté est toujours inférieure ou égale à la valeur de R2. La valeur 1 indique un modèle qui prévoit parfaitement les valeurs du champ cible. Une valeur inférieure ou égale à 0 indique un modèle qui n'a pas de valeur prédictive. Dans le réel, la valeur R2 ajusté se situe entre ces valeurs.
Pour les points situés au-dessus de la droite, le résidu est positif, et pour les points situés au-dessous de la droite, le résidu est négatif. Plus le résidu est proche de 0, plus la droite ajuste au mieux la valeur observée.
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Le test de corrélation est utilisé pour évaluer une association (dépendance) entre deux variables. Le calcul du coefficient de corrélation peut être effectué en utilisant différentes méthodes. Il existe la corrélation r de pearson, la corrélation tau de Kendall et le coefficient de corrélation rho de Spearman.
Qu'est-ce que la corrélation ? La corrélation est une mesure statistique qui exprime la notion de liaison linéaire entre deux variables (ce qui veut dire qu'elles évoluent ensemble à une vitesse constante). C'est un outil courant permettant de décrire des relations simples sans s'occuper de la cause et de l'effet.
Rapport existant entre deux choses, deux notions, deux faits dont l'un implique l'autre et réciproquement. Être, mettre en corrélation; établir une corrélation; corrélation étroite, forte, intime.
Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b, c'est à dire si le nuage de point peut s'ajuster correctement à une droite. Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais de type différent (parabole, hyperbole, sinusoïde, etc).
La droite de régression est la droite qu'on peut tracer dans le nuage de points qui représente le mieux la distribution à deux caractères étudiée. Il existe plusieurs manières de trouver l'équation de cette droite de régression.
2.1 Le modèle linéaire
– Y est une variable aléatoire réelle (v.a.r.) que l'on observe et que l'on souhaite expliquer, ou prédire (ou les deux à la fois) ; on l'appelle variable à expliquer, ou variable réponse (parfois aussi variable dépendante, ou variable endogène).
Elle est mesurée par la somme des distances au carré entre chaque observation et la droite de régression (autrement dit, la valeur prédite). On appelle ce paramètre la somme des carrés résiduels (SCRes).
Le coefficient r de Bravais-Pearson entre deux variables X et Y se calcule en appliquant la formule suivante: où covx,y => covariance entre les deux variables; mx et mY => moyennes des deux variables; sx et sY => écarts-types des deux variables.
Si Y est qualitative, le modèle est nommé régression logistique, logistic regression en anglais. Le cas le plus simple est la régression logistique binaire (Y n'a que deux modalités). Si ce n'est pas le cas, la régression logistique peut être multinomiale, polytomique, ordinale, nominale...
Une corrélation est un lien statistique, sans qu'on se demande quelle variable agit sur l'autre. Une causalité est un lien qui affirme qu'une variable agit sur une autre.
De façon générale, on va parler de corrélation linéaire ou non-linéaire. Pour une corrélation linéaire, on va y rattacher le concept de droite de régression. Du côté du sens, on définit une corrélation positive lorsque les deux ensembles varient dans le même sens.
Lien, rapport réciproque.
Une causalité est une corrélation dans laquelle une variable dépend de l'autre et cette relation persiste dans le temps.
Le coefficient de corrélation sur les rangs (Rho de Spearman) s'interprète de la même manière qu'un coefficient de corrélation de Pearson : une valeur positive (maximum = +1) indique une variation simultanée dans le même sens, une valeur négative (minimum = -1) une variation simultanée en sens inverse.