En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.
La non-linéarité est une propriété utilisée pour décrire une relation qui n'est pas linéaire. Ce terme décrit une fonction qui ne peut être représentée par une ligne droite sur un graphique, mais qui a plutôt une forme courbe ou angulaire.
Rapport existant entre deux choses, deux notions, deux faits dont l'un implique l'autre et réciproquement. Être, mettre en corrélation; établir une corrélation; corrélation étroite, forte, intime.
Le coefficient de corrélation 𝑟 détermine l'intensité de la corrélation entre deux variables 𝑥 et 𝑦 et est calculé en utilisant la formule 𝑟 = 𝑛 ∑ 𝑥 𝑦 − ∑ 𝑥 ∑ 𝑦 𝑛 ∑ 𝑥 − ∑ 𝑥 𝑛 ∑ 𝑦 − ∑ 𝑦 , où 𝑛 est le nombre de valeurs appariées de 𝑥 et 𝑦 .
Il existe 2 types de corrélation : la corrélation positive et la corrélation négative. La corrélation positive indique que les 2 variables ont tendance à évoluer dans le même sens, c'est-à-dire que lorsqu'une variable augmente, l'autre variable augmente aussi, et vice versa.
Le coefficient de corrélation est la mesure spécifique qui quantifie la force de la relation linéaire entre deux variables d'une analyse de corrélation.
Forme de référence la plus simple : la droite La droite exprime une relation entre X et Y du type Y = aX + b. Si la forme du nuage s'apparente à une droite, on parle alors de corrélation linéaire entre les variables. Plus le nuage est étiré et plus la corrélation linéaire observée est forte.
Le coefficient de corrélation linéaire, ou de Bravais-Pearson, permet de mesurer à la fois la force et le sens d'une association. Variant de -1 à +1, il vaut 0 lorsqu'il n'existe pas d'association. Plus ce coefficient est proche de -1 ou +1, plus l'association entre les deux variables est forte, jusqu'à être parfaite.
On notera cette fonction de manière équivalente : ou f : x → ax ou f(x) = ax. la fonction linéaire g de coefficient se note g : x → x ou g(x) = x. Remarques : pour toute fonction linéaire f de coefficient a, on a : f(0) = a × 0 = 0.
Pour calculer ce coefficient il faut tout d'abord calculer la covariance. La covariance est la moyenne du produit des écarts à la moyenne. Remarque : lorsque deux caractères sont standardisés, leur coefficient de corrélation est égal à leur covariance puisque leurs écarts-types sont égaux à 1.
Lorsque r = -1, les deux variables sont parfaitement corrélées négativement. Cela signifie qu'une augmentation d'une unité d'une variable se traduira par une diminution de d'une unité de l'autre variable et inversement. La valeur absolue du coefficient indique ensuite la force de la relation entre les deux variables.
Le coefficient de corrélation linéaire d'une distribution peut donner une idée de l'allure qu'a le nuage de points et inversement. D'abord, le signe du coefficient, positif ou négatif, indique le sens de la pente de la droite de régression.
1.1.
Cette équation s'appelle équation linéaire dans les variables (ou inconnues) x et y. Par exemple, 2x + 3y = 6 est une équation linéaire, alors que les équations suivantes ne sont pas des équations linéaires : 2x + y2 = 1 ou y = sin(x) ou x = y.
Les valeurs positives de r indiquent une corrélation positive lorsque les valeurs des deux variables tendent à augmenter ensemble. Les valeurs négatives de r indiquent une corrélation négative lorsque les valeurs d'une variable tend à augmenter et que les valeurs de l'autre variable diminuent.
Le modèle linéaire déterministe régissant ces deux variables est donné par l'équation suivante : y = β0 + β1x où les coefficients1 β0 et β1 sont respectivement l'ordonnée à l'origine et la pente de la droite et c'est pour cette raison que l'on parle de modèle "linéaire".
Lorsqu'il existe une corrélation entre deux variables, cela signifie simplement qu'il existe une relation entre ces deux variables. Cette relation peut être : positive : lorsque les deux variables bougent dans la même direction ou ; négative : lorsque les deux variables bougent dans une direction opposée.
Le test de corrélation est utilisé pour évaluer une association (dépendance) entre deux variables. Le calcul du coefficient de corrélation peut être effectué en utilisant différentes méthodes. Il existe la corrélation de Pearson, la corrélation tau de Kendall et le coefficient de corrélation rho de Spearman.
Les trois tests de corrélation les plus utilisés sont ceux de Spearman, Kendall et Pearson. Les deux premiers sont des tests non-paramétriques que l'on peut également appliquer sur des variables qualitatives ordinales.
Calculer la corrélation de Pearson
Ainsi, dans notre exemple, nous calculons les valeurs moyennes de l'âge et du salaire. Nous soustrayons ensuite les valeurs moyennes de l'âge et du salaire. Puis, nous multiplions les deux valeurs. Nous additionnons enfin les résultats individuels de la multiplication.
Comme nous l'avons vu plus haut, la causalité se produit lorsqu'une variable en affecte une autre, tandis que la corrélation implique simplement une relation entre les deux variables.
Le coefficient de corrélation r varie de −1 à 1 avec : 0 quand il n'y a pas de relation linéaire entre les variables X et Y; −1 quand il y a relation linéaire négative parfaite; 1 quand il y a une relation linéaire positive parfaite (figure 4.4).
La covariance de deux séries statistiques X=(Xi)i=1,…,N) X = ( X i ) i = 1 , … , N ) et (Yi)i=1,…,N ( Y i ) i = 1 , … , N ayant le même nombre d'éléments est défini par Cov(X,Y)=N∑i=1(Xi−¯X)(Yi−¯Y)N.
Une corrélation égale à 0 signifie que les variables ne sont pas corrélées linéairement, elles peuvent néanmoins être corrélées non-linéairement, comme on peut le voir sur la troisième ligne de l'image ci-contre. Le coefficient de corrélation n'est pas sensible aux unités de chacune des variables.
Corrélation de Pearson. La valeur de r obtenue est une estimation de la corrélation entre deux variables continues dans la population. Dès lors, sa valeur fluctuera d'un échantillon à l'autre. On veut donc savoir si, dans la population ces deux variables sont réellement corrélées ou pas.