Dans quels cas utiliser l'analyse en composantes principales ? L'ACP est notamment utilisée pour visualiser des corrélations entre les variables, et identifier des groupes homogènes ou à l'inverse des observations atypiques, en particulier des profils à première vue "cachés" à l'intérieur d'un jeu de données.
Elle prend des valeurs entre 0 (pas corrélé du tout) et 1 (fortement corrélé). Si cette valeur est proche de 1, alors le point est bien représenté sur l'axe. Les points situés près du centre sont donc généralement mal représentés par le plan factoriel. Leur interprétation ne peut donc pas être effectuée avec confiance.
Le principe est simple : Il s'agit en fait de résumer l'information qui est contenue dans une large base de données en un certain nombre de variables synthétiques appelées : Composantes principales.
L'objectif de l'analyse factorielle est de représenter les covariances et corrélations entre les variables. L'analyse en composantes principales permet de réduire les données en un nombre inférieur de composantes. L'analyse factorielle permet de comprendre les constructions sous-jacentes aux données.
Les principales étapes du processus d'analyse consistent à cerner les sujets d'analyse, à déterminer la disponibilité de données appropriées, à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux questions d'intérêt, à appliquer les méthodes et à évaluer, résumer et communiquer les résultats.
L'analyse en composantes principales (Principal component) est basée sur la variance spécifique des variables et permet d'extraire un minimum de facteurs qui expliquent la plus grande partie possible de la variance spécifique. C'est habituellement la méthode privilégiée.
Méthode des composantes principales
La matrice des composantes principales est égale au produit de la matrice des valeurs propres et de la matrice des variables indépendantes. La première composante principale rend compte du plus grand pourcentage de la variation totale des données.
Les statistiques descriptives comprennent la moyenne, la médiane, l'écart-type, la variance, les quantiles mais aussi l'aplatissement et l'asymétrie pour une variable quantitative. Pour une variable qualitative, on utilise généralement le mode et la proportion par modalité comme statistiques descriptives.
Quand les variables sont quantitatives, on peut réaliser une ACP (Analyse en Composantes Principales). Quand les individus sont décrits par deux variables qualitatives, on peut construire un tableau de contingence et réaliser une AFC (Analyse Factorielle des Correspondances).
Les quatre types d'analyse de données sont :
Analyse diagnostique. Analyse prédictive. Analyse prescriptive.
L'analyse en composantes principales est l'une des méthodes d'analyse de données multivariées les plus fréquemment utilisées. Elle permet d'étudier des ensembles de données multidimensionnelles avec des variables quantitatives.
Une bonne analyse doit permettre de répondre aux objectifs fixés lors de la préparation du test, que ce soit détecter les irritants dans un parcours, évaluer l'utilisabilité d'une fonctionnalité ou définir les attentes d'une cible sur un service ou un produit.
l'ACP est utilisé sur un tableau de données où toutes les variables sur tous les individus sont numériques. L'AFC, elle, s'utilise avec des variables qualitatives qui possèdent deux ou plus de deux modalités. L'AFC offre une visualisation en deux dimensions des tableaux de contingence.
L'inertie mesure la dispersion totale du nuage de points.
Av = λv. λ est la valeur propre de A associée `a v. Domaine En général, les vecteurs propres et valeurs propres sont complexes; dans tous les cas qui nous inté- ressent, ils seront réels. Interprétation des vecteurs propres ce sont les directions dans lesquelles la matrice agit.
Pour calculer la composante horizontale a, on a :a=Δx=xB−xA=−3−−1=−2 a = Δ x = x B − x A = − 3 − − 1 = − 2 Pour ce qui est de la composante verticale b, on a :b=Δy=yB−yA=4−1=3 b = Δ y = y B − y A = 4 − 1 = 3 Ainsi, les composantes du vecteur −−→AB A B → sont (−2,3).
l'ACP non normée dans laquelle les variables quantitatives du tableau sont uniquement centrées (moyenne = 0). l'ACP normée dans laquelle les variables quantitatives du tableau sont préalablement centrées réduites (moyenne = 0 et variance = 1; section 2.5.5.2).
Étude minutieuse, précise faite pour dégager les éléments qui constituent un ensemble, pour l'expliquer, l'éclairer : Faire l'analyse de la situation. 4. Action de résumer un texte en le décomposant en ses éléments essentiels ; résultat de cette action.
Lorsqu'une crise survient, les entreprises peuvent du jour au lendemain souffrir d'une altération de leurs moyens, voire d'une mise en jeu de leur survie. La crise d'origine économique, naturelle, politique ou sanitaire, nécessite alors la mise en place en amont d'un Plan de continuité d'activité (PCA).
L'AFC sert à analyser le lien entre deux variables qualitatives. On l'utilise quand le nombre de modalités des variables est tel que la lecture du tableau de contingence (comptage des effectifs d'individus dans les cases du tableau croisé) devient complexe, voire impossible.