C'est une méthode statistique qui permet d'explorer des données dites multivariées (données avec plusieurs variables). Chaque variable pourrait être considérée comme une dimension différente.
Ces trois versions se basent sur le même algorithme de calcul et ne diffèrent que légèrement. . Dans le cas de l'ACP normée ou non normée, nous privilégierons le coefficient de corrélation de Pearson tandis que dans le cas de l'ACP des rangs se sera soit le coefficient de corrélation de Spearman soit celui de Kendall.
Elle prend des valeurs entre 0 (pas corrélé du tout) et 1 (fortement corrélé). Si cette valeur est proche de 1, alors le point est bien représenté sur l'axe. Les points situés près du centre sont donc généralement mal représentés par le plan factoriel. Leur interprétation ne peut donc pas être effectuée avec confiance.
L'analyse en composantes principales (ACP) est un outil extrêmement puissant de synthèse de l'information, très utile lorsque l'on est en présence d'une somme importante de données quantitatives à traiter et interpréter.
Il s'agit d'une méthode de projection car elle projette les observations d'un espace à p dimensions avec p variables vers un espace à k dimensions (où k < p) de manière à conserver le maximum d'information (l'information est mesurée ici par la variance totale de l'ensemble de données) des dimensions initiales.
L'étape ACP peut être considérée comme une étape réduisant le bruit de fond dans les données, ce qui peut conduire à une classification plus stable.
L'objectif de l'Analyse en Composantes Principales (ACP) est de revenir à un espace de dimension réduite (par exemple 2) en déformant le moins possible la réalité (cf. l'introduction élémentaire à l'ACP). Il s'agit donc d'obtenir le résumé le plus pertinent possible des données initiales.
Pourquoi centrer-réduire ? Le principal avantage de la centration-réduction est de rendre comparables des variables qui ne le seraient pas directement parce qu'elles ont des moyennes et ou des variances trop différentes.
L'inertie est donc aussi égale à la somme des variances des variables étudiées. Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1. L'inertie totale est alors égale à p (nombre de variables).
Sélectionner les données sur la feuille Excel. Cocher l'option Libellés des variables, car la première ligne de données contient le nom des variables. Sélectionner Observations/Variables dans le champ Format des données. Sélectionner Corrélation dans le champ Type d'ACP.
Pour interpréter l'AFC, la première étape consiste à évaluer s'il existe une dépendance significative entre les lignes et les colonnes. Une méthode rigoureuse consiste à utiliser la statistique de khi2 pour examiner l'association entre les modalités des lignes et celles des colonnes.
Les composantes principales sont en fait les vecteurs propres de la matrice de covariance des données, classés par ordre décroissant de valeur propre correspondante. Pour choisir le nombre de composantes à utiliser, on regarde la proportion de la variance totale expliquée par k composantes.
l'ACP est utilisé sur un tableau de données où toutes les variables sur tous les individus sont numériques. L'AFC, elle, s'utilise avec des variables qualitatives qui possèdent deux ou plus de deux modalités. L'AFC offre une visualisation en deux dimensions des tableaux de contingence.
Quelles sont les principales étapes de l'analyse en composantes principales ? Il existe quatre principales étapes lors d'une analyse en composantes principales : Définir les objectifs de l'analyse et l'approche (exploratoire ou confirmatoire) adaptée au type de problème, selon l'existence ou non d'a priori théoriques.
Il suffit alors de retrouver la surface dans la formule donnant le moment quadratique, de multiplier par la masse volumique et l'épaisseur, pour retrouver la formule du moment d'inertie. Autre exemple : cylindre plein : Moment quadratique pi. D^4/32 = pi. R^4/2.
Cela s'effectue donc en deux étape : (1) on centre la variable, ce qui implique que la nouvelle variable transformée aura une espérance nulle, et (2) on réduit cette variable, i.e. la variable transformée aura un écart-type unitaire (et donc une variance unitaire également).
Une autre possibilité consiste à normaliser les variables pour amener les données sur l'échelle de 0 à 1 en soustrayant le minimum et en divisant par le maximum de toutes les observations. Cela préserve la forme de la distribution de chaque variable tout en les rendant facilement comparables sur la même “échelle”.
Contrairement à l'étendue et à l'écart interquartile, la variance est une mesure qui permet de tenir compte de la dispersion de toutes les valeurs d'un ensemble de données. C'est la mesure de dispersion la plus couramment utilisée, de même que l'écart-type, qui correspond à la racine carrée de la variance.
L'analyse peut aussi permettre de déceler certaines similitudes. On peut souligner des contrastes dans l'information en mettant deux éléments en opposition de manière à faire ressortir les différences. On peut établir des relations entre les différents éléments de l'information.
La méthode centroïde la plus classique est la méthode des k-moyennes. Elle ne nécessite qu'un seul choix de départ : k, le nombre de classes voulues. On initialise l'algorithme avec k points au hasard parmi les n individus. Ces k points représentent alors les k classes dans cette première étape.
Contrairement au k-means, la classification hiérarchique ne nécessite pas de déterminer un nombre de classes au préalable. En effet, en jouant sur la profondeur de l'arbre, on peut explorer différentes possibilités et choisir le nombre de classes qui nous convient le mieux.
La classification ascendante hiérarchique (CAH) est une méthode de classification qui présente les avantages suivants : On travaille à partir des dissimilarités entre les objets que l'on veut regrouper. On peut donc choisir un type de dissimilarité adapté au sujet étudié et à la nature des données.
C'est depuis 2006 la nouvelle appellation des accueils de loisirs (centres de loisirs, centres aérés), des séjours de vacances (centres de vacances, colonies de vacances), et des accueils de scoutisme.
L'analyse des correspondances multiples (ACM) est l'analyse factorielle à utiliser lorsqu'une population est étudiée à partir de trois variables qualitatives ou plus (puisque c'est l'analyse factorielle des correspondances (AFC) qui est appliquée lorsque deux variables seulement sont observées).
Le calcul de l'ACM se fait tout simplement avec la fonction dudi. acm . Si vous souhaitez explorer visuellement et interacticement les résultats, vous pouvez utiliser l'extension explor et sa fonction homonyme explor . Les mêmes valeurs pour les premiers axes s'obtiennent également avec summary .