Tests d'hétéroscédasticité de Breusch-Pagan et de White : pratique avec
Le test de Breuch & Pagan
Si les données sont homoscédastiques, le coefficient de détermination R2 ne devrait pas être égal à 0. Si H0 n'est pas rejeté, nous pouvons conclure que l'hétéroscédasticité, si elle existe, ne prend pas la forme fonctionnelle utilisée.
L'hypothèse d'homoscédasticité
La constance de la variance des résidus peut être évaluée par un nuage de point des résidus en fonctions des valeurs prédites. Ce nuage de points ne doit pas avoir de forme particulière, c'est à dire des résidus homogènes autour de zéro (généralement compris entre -2 et 2).
Le test de White consiste à estimer le modèle puis à régresser les carrés des résidus sur les variables indépendantes. Si le coefficient de détermination (R au carré) de cette régression est significativement différent de zéro, cela suggère la présence d'hétéroscédasticité.
Une autocorrélation signifie que les erreurs d'observations adjacentes sont corrélées. Si les erreurs sont corrélées, la régression par les moindres carrés peut sous-estimer l'erreur type des coefficients.
Règles pour tester l'intercorrélation
Si l'autocorrélation de la population pour un décalage k est de zéro lorsque k = 1,2... alors, pour une valeur suffisamment élevée de n, r xy(k) sera approximativement normalement distribuée, avec une moyenne (μ) de 0 et un écart type (σ) égal à .
L'autocorrélation est l'intercorrélation d'un signal avec lui-même. l'autocorrélation en 0 est la valeur maximale de l'autocorrélation (puisque c'est pour un décalage nul que le signal se ressemble le plus à lui-même). C'est par ailleurs l'énergie du signal : R x ( 0 ) = ∫ − ∞ + ∞ x ( t ) 2 d t .
Les tests d'homogénéité permettent de décider si plusieurs sous-populations sont homogènes par rapport à un critère donné.
Si la valeur p du test de Levene est supérieure à 0,05, alors les variances ne sont pas significativement différentes les unes des autres (c'est-à-dire que l'hypothèse d'homogénéité de la variance est satisfaite).
Une option pour gérer l'hétéroscédasticité consiste à transformer les variables ou à utiliser la régression des moindres carrés pondérés. Une autre approche consiste à utiliser des erreurs types robustes, qui fournissent des estimations cohérentes même en présence d'hétéroscédasticité.
Le test de Bartlett peut être utilisé pour comparer deux variances ou plus. Ce test est sensible à la normalité des données. Autrement dit, si l'hypothèse de normalité des données semble fragile, on utilisera plutôt le test de Levene ou de Fisher.
Définitions. Un test paramétrique est un test pour lequel on fait une hypothèse paramétrique sur la loi des données sous H0 (loi normale, loi de Poisson...); Les hypothèses du test concernent alors les paramètres de cette loi. Un test non paramétrique est un test ne nécessitant pas d'hypothèse sur la loi des données.
Pour vérifier qu'une équation est bien homogène, il faut s'assurer que les deux parties de l'équation utilisent la même dimension. En effet, si ces dernières sont différentes, votre équation sera automatiquement considérée fausse. On appelle cela une analyse dimensionnelle.
Cette notion provient du grec et est composée du préfixe homós (« semblable, pareil ») et de skedasê (« dissipation»). On parle d'homoscédasticité lorsque la variance des erreurs stochastiques de la régression est la même pour chaque observation i (de 1 à n observations).
Le test de Kruskal-Wallis est une alternative non paramétrique au test ANOVA à un facteur. Il étend le test de Wilcoxon à deux échantillons dans les cas où il y a plus de deux groupes à comparer. Il est recommandé lorsque les hypothèses du test ANOVA, à un facteur, ne sont pas respectées.
En statistique, le test t de Welch est une adaptation du test t de Student. Il peut être utilisé notamment pour tester statistiquement l'hypothèse d'égalité de deux moyennes avec deux échantillons de variances inégales. Il s'agit en fait d'une solution approchée du problème de Behrens–Fisher.
Les valeurs élevées (proches de 1, 0) indiquent généralement qu'une analyse factorielle peut être utile avec vos données. Si la valeur est inférieure à 0,50, les résultats de l'analyse factorielle ne seront probablement pas très utiles.
En statistique, le Test de Levene est une statistique déductive utilisée pour évaluer l'égalité de variance pour une variable calculée pour deux groupes ou plus. Certaines procédures statistiques courantes supposent que les variances des populations à partir desquelles différents échantillons sont prélevés sont égales.
Le test de Shapiro-Wilk donne une probabilité de dépassement de 0.1831, supérieure à 0.05. L'hypothèse de normalité est donc tolérée. Le test de Shapiro-Wilk donne une probabilité de dépassement de 0.0009, inférieure à 0.05. L'hypothèse de normalité est donc rejetée.
Le test du khi-deux de qualité de l'ajustement est un test d'hypothèse statistique utilisé pour déterminer si une variable est susceptible de provenir d'une distribution spécifiée ou pas. Il est souvent utilisé pour évaluer si des donnés d'échantillons sont représentatifs de l'ensemble de la population.
Le test SNHT (Standard normal homogeneity test) a été développé par Alexandersson (1986) pour détecter un changement dans une série de précipitations. Le test s'applique à une série de ratios comparant les observations d'une station de mesure à la moyenne de plusieurs stations. Les ratios sont ensuite centrés-réduits.
La statistique de Durbin et Watson, notée DW, est une valeur appartenant à l'intervalle [0;+4]. Elle est dite normale si elle avoisine la valeur 2. Ci-dessus, la statistique du Durbin et Watson vaut 2,29 ; elle semble normale.
Les pourcentages
Un pour cent (ou 1 %) correspond au centième du total ou de l'ensemble, de sorte qu'il est obtenu en divisant le total ou le nombre entier par 100. 70 exprimé en % de 250 = (70 x 100) ÷ 250 = 28 %. Pour calculer la différence de pourcentage entre deux nombres, on utilisera les mêmes calculs de base.
On définit l'autocorrélation spatiale comme la corrélation, positive ou négative, d'une variable avec elle-même du fait de la localisation spatiale des observations.