l'ACP non normée dans laquelle les variables quantitatives du tableau sont uniquement centrées (moyenne = 0). l'ACP normée dans laquelle les variables quantitatives du tableau sont préalablement centrées réduites (moyenne = 0 et variance = 1; section 2.5.5.2).
Pearson, l'ACP classique, qui standardise ou normalise automatiquement les données avant les calculs pour éviter de gonfler l'impact des variables à forte variance sur le résultat.
Elle prend des valeurs entre 0 (pas corrélé du tout) et 1 (fortement corrélé). Si cette valeur est proche de 1, alors le point est bien représenté sur l'axe. Les points situés près du centre sont donc généralement mal représentés par le plan factoriel. Leur interprétation ne peut donc pas être effectuée avec confiance.
Limites de l'ACP
Cependant, en ACP, nous sommes limités aux corrélations linéaires. La corrélation linéaire, c'est celle mesurée par r_{X,Y} , coefficient de Pearson (pour vous rafraîchir la mémoire, c'est par ici).
L'inertie mesure la dispersion totale du nuage de points.
À titre de rappel, une ACP normée est réalisée sur des variables préalablement centrées réduites (équation (12.4)), ce qui signifie que pour chaque variable : Nous soustrayons à chaque valeur la moyenne de la variable correspondante (centrage); la moyenne est donc égale à 0.
On peut aussi utiliser la contraposée du principe de l'inertie : dans les référentiels terrestre, géocentrique et héliocentrique, si un objet n'est ni au repos ni en mouvement rectiligne et uniforme, alors on peut en déduire que les forces extérieures qui s'exercent sur lui ne se compensent pas.
L'AFC sert à analyser le lien entre deux variables qualitatives. On l'utilise quand le nombre de modalités des variables est tel que la lecture du tableau de contingence (comptage des effectifs d'individus dans les cases du tableau croisé) devient complexe, voire impossible.
Fonctionnement de l'ACP
L'idée est de transformer des variables corrélées en nouvelles variables décorrélées en projetant les données dans le sens de la variance croissante. Les variables avec la variance maximale seront choisies comme les composants principaux.
Les composantes principales sont en fait les vecteurs propres de la matrice de covariance des données, classés par ordre décroissant de valeur propre correspondante. Pour choisir le nombre de composantes à utiliser, on regarde la proportion de la variance totale expliquée par k composantes.
Mathématiquement, les valeurs propres sont représentées par un vecteur Λ ou une matrice diagonale diag(Λ)=Λ diag ( Λ ) = Λ . La somme des valeurs propres égale la somme des variances, ce qui équivaut en matrice de corrélation à p , le nombre de variables.
Cette normalisation permet également de construire le cercle des corrélations pour les variables. Le cosinus2 de l'angle entre deux variables à partir du centre du cercle est égal au coefficient de corrélation entre ces deux variables.
La standardisation est utile lorsque les variables ont des échelles très différentes, et elle permet de centrer les données autour de zéro et de les mettre à l'échelle par rapport à l'écart-type, ce qui peut faciliter l'interprétation des coefficients dans certains modèles.
L'analyse en composante principale ou PCA (Principal component analysis) est une méthode de réduction de dimension, largement utilisée en statistique descriptive, pour visualiser sur un graphique à 2 ou 3 dimensions des données décrites sur plus de dimensions.
Cependant pour étudier des corrélations entre plus de deux variables il est nécessaire d'utiliser l'ACP. En big data ou grande dimensionnalité, afin de réduire le nombre de variables et permettre la mise en place d'un modèle de Machine Learning rapidement.
La valeur propre (ou "eigenvalue") est la somme des carrés de ces saturations. Elle représente la quantité de variance du nuage de points expliquée par cette composante (pour en savoir plus sur la variance d'un nuage de point, cf. le glossaire "NUAGE DE POINTS".
l'ACP est utilisé sur un tableau de données où toutes les variables sur tous les individus sont numériques. L'AFC, elle, s'utilise avec des variables qualitatives qui possèdent deux ou plus de deux modalités. L'AFC offre une visualisation en deux dimensions des tableaux de contingence.
L'analyse en composantes principales permet de réduire les données en un nombre inférieur de composantes. L'analyse factorielle permet de comprendre les constructions sous-jacentes aux données.
L'ACP vise ainsi à expliquer la même quantité de la variance qui est incluse dans les variables initiales avec un nombre restreint des composantes principales. L'AFC fait une estimation des facteurs, des constructions sous-jacentes que l'on ne peut pas mesurer directement.
En analyse discriminante, le nombre de valeurs propres non nulles est au plus égal à (k-1) où k est le nombre de classes. Le scree plot permet de visualiser comment le pouvoir discriminant est réparti entre les facteurs discriminants. La somme des valeurs propres est égale à la trace de Hotelling.
Les 3 lois de Newton : inertie, dynamique et actions réciproques 🔎
Contraire : action, activité, allant, ardeur, dynamisme, énergie, entrain, force, impétuosité, pétulance. – Littéraire : vivacité.
La troisième loi de Newton est le principe de l'action et de la réaction. Si un corps A exerce une force sur un corps B, alors B exerce sur A une force d'égale intensité, de même direction et de sens opposé.