Le coefficient r de Bravais-Pearson entre deux variables X et Y se calcule en appliquant la formule suivante: où covx,y => covariance entre les deux variables; mx et mY => moyennes des deux variables; sx et sY => écarts-types des deux variables.
Le coefficient de corrélation linéaire, ou de Bravais-Pearson, permet de mesurer à la fois la force et le sens d'une association. Variant de -1 à +1, il vaut 0 lorsqu'il n'existe pas d'association. Plus ce coefficient est proche de -1 ou +1, plus l'association entre les deux variables est forte, jusqu'à être parfaite.
Le coefficient de corrélation de Pearson est utilisé pour les données bivariées continues afin de déterminer l'intensité et le sens de la corrélation linéaire entre les deux ensembles de données.
À quoi sert le coefficient de corrélation ? Pour deux variables, la formule compare la distance de chaque point de données depuis la moyenne de la variable et l'utilise pour indiquer dans quelle mesure la relation entre les variables suit une ligne imaginaire tracée dans les données.
Le test statistique se base sur le coefficient de Pearson r calculé par cor(x, y) . Il suit une distribution t avec un degré de liberté ddl = length(x)-2 si les échantillons suivent une distribution normale indépendante. La fonction indique enfin une p-value pour ce test.
Le coefficient r de Bravais-Pearson entre deux variables X et Y se calcule en appliquant la formule suivante: où covx,y => covariance entre les deux variables; mx et mY => moyennes des deux variables; sx et sY => écarts-types des deux variables.
La corrélation de Spearman utilise le rang des données pour mesurer la monotonie entre des variables ordinales ou continues. La corrélation de Pearson quant à elle détecte des relations linéaires entre des variables quantitatives avec des données suivant une distribution normale.
Un coefficient de 0,1 indique ainsi une relation linéaire positive existante, mais faible et probablement anecdotique. À l'inverse, un coefficient de 0,9 indique une relation linéaire très forte. En pratique, on ne considère la corrélation comme significative que lorsque la valeur du coefficient dépasse 0,8.
Le coefficient de Pearson permet de mesurer le niveau de corrélation entre les deux variables. Il renvoie une valeur entre -1 et 1. S'il est proche de 1 cela signifie que les variables sont corrélées, proche de 0 que les variables sont décorrélées et proche de -1 qu'elles sont corrélées négativement.
Pour être interprété, le coefficient de corrélation doit être significatif (la valeur de p doit être plus petite que 0,05). Si le coefficient est non significatif, on considère qu'il est semblable à r = 0.
Le coefficient de corrélation est compris entre −1 et 1. Plus le coefficient est proche de 1, plus la relation linéaire positive entre les variables est forte. Plus le coefficient est proche de −1 , plus la relation linéaire négative entre les variables est forte.
Pour faire court, la seule condition de validité pour le calcul d'un coefficient de corrélation de Pearson ou l'estimation d'une régression linéaire, est l'existence d'une variance non-nulle sur chacune des deux variables, sous peine de division par zéro.
Il existe 3 méthodes pour tester la significativité de ce coefficient : la méthode de « Pearson », de « Kendall », et de « Spearman ». Pour réaliser ce test il est nécessaire d'avoir un échantillonnage aléatoire et qu'il n'y ait pas de données manquantes.
Paramétrer le calcul du coefficient de corrélation de Pearson avec XLSTAT. Dans l'onglet Général de la boîte de dialogue affichée, sélectionnez les colonnes A-E dans le champ Observations/Variables quantitatives. Ensuite, choisissez Pearson comme type de corrélation à utiliser pour les calculs.
Le coefficient d'asymétrie de médiane de Pearson est donné par : 3 (moyenne − médiane)écart-type.
La corrélation mesure l'intensité de la liaison entre des variables, tandis que la régression analyse la relation d'une variable par rapport à une ou plusieurs autres.
Pour savoir si la distribution des réponses de deux variables qualitatives est due au hasard ou si elle révèle une liaison entre elles, on utilise généralement le test du Khi2 dit «Khi-deux».
Le test du Chi2 consiste à mesurer l'écart entre une situation observée et une situation théorique et d'en déduire l'existence et l'intensité d'une liaison mathématique. Par exemple, en théorie il y a autant de chance d'obtenir « pile » que « face » au lancer d'une pièce de monnaie, en pratique il n'en est rien.
Une variable indépendante dans un problème est la donnée qui varie sans être influencée par les autres données du problème. En général, on représente la variable indépendante par la lettre «x». Une variable dépendante dans un problème est la donnée du problème qui varie sous l'influence de la variable indépendante.
Il n'y a pas de score minimum, mais un modèle simple prédisant tout le temps la valeur moyenne atteint un score R2 de 0%. Par conséquent un score R2 négatif signifie que les prédictions sont moins bonnes que si l'on prédisait systématiquement la valeur moyenne.
Les trois tests de corrélation les plus utilisés sont ceux de Spearman, Kendall et Pearson. Les deux premiers sont des tests non-paramétriques que l'on peut également appliquer sur des variables qualitatives ordinales.
Deux grands types sont distingués : les variables quantitatives, sur lesquelles des résumés numériques peuvent être calculés (âge pour des individus, population pour des communes) ; les variables qualitatives, qui regroupent les individus dans un nombre fini de modalités (sexe pour des individus, département d' ...
Il s'agit d'une variable numérique. Les tests que vous pouvez utiliser sont alors le test de Student ou le test de Wilcoxon-Mann-Whitney, selon si les groupes suivent une distribution normale (en forme de cloche).