Elle prend des valeurs entre 0 (pas corrélé du tout) et 1 (fortement corrélé). Si cette valeur est proche de 1, alors le point est bien représenté sur l'axe. Les points situés près du centre sont donc généralement mal représentés par le plan factoriel. Leur interprétation ne peut donc pas être effectuée avec confiance.
L'ACP permet de calculer des matrices pour projeter les variables dans un nouvel espace en utilisant une nouvelle matrice qui montre le degré de similarité entre les variables. Il est courant d'utiliser le coefficient de corrélation de Pearson ou la covariance comme indice de similarité.
Quelles sont les principales étapes de l'analyse en composantes principales ? Il existe quatre principales étapes lors d'une analyse en composantes principales : Définir les objectifs de l'analyse et l'approche (exploratoire ou confirmatoire) adaptée au type de problème, selon l'existence ou non d'a priori théoriques.
Calculer la qualité de représentation d'un individu sur un plan factoriel (le premier, par exemple), c'est calculer la qualité de représentation du point par l'axe F1, puis par l'axe F2. Cette qualité s'exprime par le pourcentage d'inertie du point qui est expliqué par l'axe.
Le but de l'ACP est de rechercher une approximation de la matrice de données initiale X(n,p), à n individus et p variables mesurées sur chaque individu, par une matrice de rang inférieur q.
L'objectif de l'Analyse en Composantes Principales (ACP) est de revenir à un espace de dimension réduite (par exemple 2) en déformant le moins possible la réalité (cf. l'introduction élémentaire à l'ACP). Il s'agit donc d'obtenir le résumé le plus pertinent possible des données initiales.
Les composantes principales sont en fait les vecteurs propres de la matrice de covariance des données, classés par ordre décroissant de valeur propre correspondante. Pour choisir le nombre de composantes à utiliser, on regarde la proportion de la variance totale expliquée par k composantes.
L'inertie est donc aussi égale à la somme des variances des variables étudiées. Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1. L'inertie totale est alors égale à p (nombre de variables).
Globalement, un biplot peut être interprété comme suit: un individu qui se trouve du même côté d'une variable donnée a une valeur élevée pour cette variable; un individu qui se trouve sur le côté opposé d'une variable donnée a une faible valeur pour cette variable.
Sélectionner les données sur la feuille Excel. Cocher l'option Libellés des variables, car la première ligne de données contient le nom des variables. Sélectionner Observations/Variables dans le champ Format des données. Sélectionner Corrélation dans le champ Type d'ACP.
Quand les variables sont quantitatives, on peut réaliser une ACP (Analyse en Composantes Principales). Quand les individus sont décrits par deux variables qualitatives, on peut construire un tableau de contingence et réaliser une AFC (Analyse Factorielle des Correspondances).
L'étape ACP peut être considérée comme une étape réduisant le bruit de fond dans les données, ce qui peut conduire à une classification plus stable.
L'analyse peut aussi permettre de déceler certaines similitudes. On peut souligner des contrastes dans l'information en mettant deux éléments en opposition de manière à faire ressortir les différences. On peut établir des relations entre les différents éléments de l'information.
Pourquoi centrer-réduire ? Le principal avantage de la centration-réduction est de rendre comparables des variables qui ne le seraient pas directement parce qu'elles ont des moyennes et ou des variances trop différentes.
Les analyses factorielles sont conduites à partir de tableaux de données parfois gigantesques : si l'on observe cent mille individus caractérisés par trente variables, on place les points-individus, qui sont autant de vecteurs, dans un espace d'au plus trente dimensions.
Pour interpréter l'AFC, la première étape consiste à évaluer s'il existe une dépendance significative entre les lignes et les colonnes. Une méthode rigoureuse consiste à utiliser la statistique de khi2 pour examiner l'association entre les modalités des lignes et celles des colonnes.
Ces trois versions se basent sur le même algorithme de calcul et ne diffèrent que légèrement. . Dans le cas de l'ACP normée ou non normée, nous privilégierons le coefficient de corrélation de Pearson tandis que dans le cas de l'ACP des rangs se sera soit le coefficient de corrélation de Spearman soit celui de Kendall.
Toutefois, c'est dans les années 1930 que l'ACP est formalisée par l'économiste et statisticien américain Harold Hotelling. Il développe par la suite l'analyse canonique des corrélations, généralisation des analyses factorielles dont fait partie l'ACP.
l'ACP est utilisé sur un tableau de données où toutes les variables sur tous les individus sont numériques. L'AFC, elle, s'utilise avec des variables qualitatives qui possèdent deux ou plus de deux modalités. L'AFC offre une visualisation en deux dimensions des tableaux de contingence.
Cliquez sur le bouton “Analyser” et sélectionner au moins deux variables pour calculer la matrice de corrélation. Par défaut, toutes les variables sont sélectionnées. Désélectionner les colonnes contenant du texte. Vous pouvez également sélectionner les méthodes de corrélation (Pearson, Spearman ou de Kendall).
Inertie On appelle inertie totale du nuage de points la moyenne des carrés des distances des n points au centre de gravité : IG(N) = 1 n Σ d(G,xi)2 = 1 n Σ d(O,zi)2 L'inertie mesure la dispersion du nuage de points.
Le pourcentage d'inertie ou de dipersion représente la quantité d'information recueillie par un axe principal. L'analyse ACP es pertinent lorsqu'on arrive avec un petit nombre d'axes à synthétiser le maximum de l'information (80% de l'information par exemple).
Les composantes identifient les variables sous-jacentes (latentes). L'analyse factorielle peut également identifier quelles variables «vont ensemble». La première composante décrit le plus possible la variabilité des données, et chaque composante qui suit explique le plus de variabilité restante possible.