Pour être interprété, le coefficient de corrélation doit être significatif (la valeur de p doit être plus petite que 0,05). Si le coefficient est non significatif, on considère qu'il est semblable à r = 0.
Les valeurs positives de r indiquent une corrélation positive lorsque les valeurs des deux variables tendent à augmenter ensemble. Les valeurs négatives de r indiquent une corrélation négative lorsque les valeurs d'une variable tend à augmenter et que les valeurs de l'autre variable diminuent.
Le coefficient de corrélation linéaire, ou de Bravais-Pearson, permet de mesurer à la fois la force et le sens d'une association. Variant de -1 à +1, il vaut 0 lorsqu'il n'existe pas d'association. Plus ce coefficient est proche de -1 ou +1, plus l'association entre les deux variables est forte, jusqu'à être parfaite.
Il existe 3 méthodes pour tester la significativité de ce coefficient : la méthode de « Pearson », de « Kendall », et de « Spearman ». Pour réaliser ce test il est nécessaire d'avoir un échantillonnage aléatoire et qu'il n'y ait pas de données manquantes.
Lorsque r = -1, les deux variables sont parfaitement corrélées négativement. Cela signifie qu'une augmentation d'une unité d'une variable se traduira par une diminution de d'une unité de l'autre variable et inversement. La valeur absolue du coefficient indique ensuite la force de la relation entre les deux variables.
Comment interpréter le coefficient de corrélation de Pearson
Plus les diagrammes de dispersion sont proches de la ligne, plus la relation entre les variables est forte. Plus ils s'éloignent de la ligne, plus la relation s'affaiblit.
Une corrélation égale à 0 signifie que les variables ne sont pas corrélées linéairement, elles peuvent néanmoins être corrélées non-linéairement, comme on peut le voir sur la troisième ligne de l'image ci-contre. Le coefficient de corrélation n'est pas sensible aux unités de chacune des variables.
S'il génère une valeur p inférieure ou égale au niveau de signification, un résultat est alors défini comme statistiquement significatif et ne sera donc pas considéré comme un événement fortuit. Cela est généralement écrit sous la forme suivante : p≤0,05.
Si la statistique-t est supérieure à la valeur critique, alors la différence est significative. Si la statistique-t est inférieure, il n'est pas possible de différencier les deux nombres d'un point de vue statistique.
La corrélation positive et la corrélation négative. Il existe 2 types de corrélation : la corrélation positive et la corrélation négative.
Le test de corrélation est utilisé pour évaluer une association (dépendance) entre deux variables. Le calcul du coefficient de corrélation peut être effectué en utilisant différentes méthodes. Il existe la corrélation de Pearson, la corrélation tau de Kendall et le coefficient de corrélation rho de Spearman.
Corrélation entre variables qualitatives
Si vous cherchez à étudier la relation entre deux ou plusieurs variables qualitatives, il faut utiliser le test de Khi-2 d'indépendance. Ce test a le même principe et les mêmes calculs que le test du Khi-2 de comparaison de pourcentages.
Le R² se distingue de la corrélation en ce sens que, si la corrélation mesure la force et la direction de la relation linéaire entre deux variables, le R² se concentre sur la capacité d'une variable ou de plusieurs variables indépendantes à prédire la variation d'une variable dépendante.
L'analyse de corrélation est utilisée pour étudier des cas pratiques. Ici, le chercheur ne peut pas manipuler les variables individuelles. Par exemple, l'analyse de corrélation est utilisée pour mesurer la corrélation entre la tension artérielle du patient et le médicament utilisé.
L'analyse de corrélation de Pearson examine la relation entre deux variables. Par exemple, existe-t-il une corrélation entre l'âge et le salaire d'une personne ? Plus précisément, nous pouvons utiliser le coefficient de corrélation de Pearson pour mesurer la relation linéaire entre deux variables.
Rapport existant entre deux choses, deux notions, deux faits dont l'un implique l'autre et réciproquement. Être, mettre en corrélation; établir une corrélation; corrélation étroite, forte, intime.
Qu'est-ce que la significativité statistique ? La significativité statistique, ou seuil de signification, désigne le seuil à partir duquel les résultats d'un test sont jugés fiables. Autrement dit, ce seuil détermine la confiance dans la corrélation entre un test effectué et les résultats obtenus.
si p > 0.05 : la différence x − m0 est non significative ; si 0.05 ≥ p > 0.01 : la différence x − m0 est significative ; si 0.01 ≥ p > 0.001 : la différence x − m0 est hautement significative ; si p ≤ 0.001 : la différence x − m0 est très hautement significative.
Choisissez un seuil de signification plus élevé, tel que 0,10, si vous souhaitez augmenter le risque de déclarer qu'un effet est significatif sur le plan statistique alors qu'aucun effet n'existe et donc avoir une plus grande puissance de détection d'un effet important.
Une variable est significative lorsque la statistique du test (t, f, etc.) calculée par Stata se trouve dans la zone de rejet de l'hypothèse nulle, on suppose donc que β>0 ou β<0 ou β≠0. On peut aussi utiliser la « p-value » pour déterminer si le coefficient passe le test de signification.
Pour faire simple, une variable est significative avec un intervalle de confiance de 95% si son t-stat est supérieur à 1,96 en valeur absolue, ou bien si sa P-value est inférieure à 0,05.
Un test est dit statistiquement significatif lorsque le risque quantifié de se tromper, nommé p-valeur, est inférieur à un niveau de signification alpha. Pour être plus précis, la valeur-p est la probabilité d'obtenir une donnée aussi extrême sous l'hypothèse nulle.
Le coefficient de corrélation de Pearson est calculé en utilisant la formule 𝑟 = 𝑛 ∑ 𝑥 𝑦 − ∑ 𝑥 ∑ 𝑦 𝑛 ∑ 𝑥 − ∑ 𝑥 𝑛 ∑ 𝑦 − ∑ 𝑦 , où 𝑥 représente les valeurs d'une variable, 𝑦 représente les valeurs de l'autre variable et 𝑛 représente le nombre de points de données.
La différence entre corrélation et causalité
Comme nous l'avons vu plus haut, la causalité se produit lorsqu'une variable en affecte une autre, tandis que la corrélation implique simplement une relation entre les deux variables.
Par exemple, vous pouvez utiliser une corrélation de Pearson afin d'évaluer si les augmentations de température sur votre site de production sont associées à la diminution de l'épaisseur de votre enrobage de chocolat. La corrélation de Spearman évalue la relation monotone entre deux variables continues ou ordinales.