Le coefficient de corrélation de Pearson est utilisé pour les données bivariées continues afin de déterminer l'intensité et le sens de la corrélation linéaire entre les deux ensembles de données.
en effet, il est utilisé afin d'évaluer la dépendance entre deux variables aléatoires, ou liaison statistique. Le plus célèbre test de corrélation, ou coefficient de corrélation linéaire de Pearson, consiste à calculer le quotient de la covariance des deux variables aléatoires par le produit de leurs écarts-types.
Si les variables sont ordinales, discrètes ou qu'elles ne suivent pas une loi normale, on utilise la corrélation de Spearman. Cette corrélation n'utilise pas les valeurs des données mais leur RANG. L'interprétation du coefficient de corrélation obtenu reste la même que lorsqu'on utilise une corrélation de Pearson.
À quoi sert le coefficient de corrélation ? Pour deux variables, la formule compare la distance de chaque point de données depuis la moyenne de la variable et l'utilise pour indiquer dans quelle mesure la relation entre les variables suit une ligne imaginaire tracée dans les données.
Le coefficient de corrélation linéaire, ou de Bravais-Pearson, permet de mesurer à la fois la force et le sens d'une association. Variant de -1 à +1, il vaut 0 lorsqu'il n'existe pas d'association. Plus ce coefficient est proche de -1 ou +1, plus l'association entre les deux variables est forte, jusqu'à être parfaite.
Pour faire court, la seule condition de validité pour le calcul d'un coefficient de corrélation de Pearson ou l'estimation d'une régression linéaire, est l'existence d'une variance non-nulle sur chacune des deux variables, sous peine de division par zéro.
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Le coefficient de corrélation de Pearson est calculé en utilisant la formule ? = ? ∑ ? ? − ∑ ? ∑ ? ? ∑ ? − ∑ ? ? ∑ ? − ∑ ? , où ? représente les valeurs d'une variable, ? représente les valeurs de l'autre variable et ? représente le nombre de points de données.
Les tests que vous pouvez utiliser sont alors le test de Student ou le test de Wilcoxon-Mann-Whitney, selon si les groupes suivent une distribution normale (en forme de cloche).
Le rapport de corrélation est un indicateur statistique qui mesure l'intensité de la liaison entre une variable quantitative et une variable qualitative.
Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b, c'est à dire si le nuage de point peut s'ajuster correctement à une droite. Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais de type différent (parabole, hyperbole, sinusoïde, etc).
Bien évidemment, quand les variables sont indépendantes, les résultats sont cohérents, mais il y a encore une énorme différence : Le test du Chi-deux, réussi, ne permet pas de conclure quoi que ce soit; alors que le rapport de corrélation donne une information utilisable.
Qu'est-ce que la corrélation ? La corrélation est une mesure statistique qui exprime la notion de liaison linéaire entre deux variables (ce qui veut dire qu'elles évoluent ensemble à une vitesse constante). C'est un outil courant permettant de décrire des relations simples sans s'occuper de la cause et de l'effet.
La droite de régression est la droite qu'on peut tracer dans le nuage de points qui représente le mieux la distribution à deux caractères étudiée. Il existe plusieurs manières de trouver l'équation de cette droite de régression.
Le coefficient de Pearson permet de mesurer le niveau de corrélation entre les deux variables. Il renvoie une valeur entre -1 et 1. S'il est proche de 1 cela signifie que les variables sont corrélées, proche de 0 que les variables sont décorrélées et proche de -1 qu'elles sont corrélées négativement.
ANOVA teste l'homogénéité de la moyenne de la variable quantitative étudiée sur les différentes valeurs de la variable qualitative. L'analyse de la variance, si elle aboutit à un résultat éloigné de zéro, permet de rejeter l'hypothèse nulle : la variable qualitative influe effectivement sur la variable quantitative.
Concrètement, le coefficient de détermination est un indice de la qualité de la prédiction de la régression linéaire. Le coefficient de détermination se situe entre 0 et 1. Plus il est proche de 1, plus la régression linéaire est en adéquation avec les données collectées.
Lorsqu'il existe une corrélation entre deux variables, cela signifie simplement qu'il existe une relation entre ces deux variables. Cette relation peut être : positive : lorsque les deux variables bougent dans la même direction ou ; négative : lorsque les deux variables bougent dans une direction opposée.
La régression linéaire simple permet d'estimer les paramètres de la droite liant la variable réponse à la variable prédictive, mais elle permet également d'évaluer si cette relation est significative ou non. Pour cela, un test T est employé pour évaluer si la pente est significativement différente de 0 ou non.
L'intérêt est de déterminer le degré de corrélation entre des variables, afin de mieux prédire leur comportement dans l'avenir. En effet, en faisant varier une variable, on pourra prévoir l'impact sur l'autre variable.
Ces tests hypothétiques liés aux différences sont classés en tests paramétriques et non paramétriques. Le test paramétrique en est un qui contient des informations sur le paramètre population. D'autre part, le test non paramétrique est un test pour lequel le chercheur n'a aucune idée du paramètre population.