Comparaison de populations

De Baripedia


Problématique[modifier | modifier le wikicode]

Un problème classique en recherche consiste à déterminer si plusieurs populations sont significativement différentes les unes des autres. Ce problème a déjà été abordé précédemment dans ce cours pour le cas de deux populations (test de Student). Nous allons maintenant passer au cas général et aborder la notion d’analyse de variance ou ANOVA. L’objectif est de déterminer si l’appartenance à une population plutôt qu’une autre permet d’expliquer les valeurs d’une variable quantitative. Comme pour le test Student, le principe de base de l’ANOVA consiste à comparer la moyenne de la variable quantitative dans les différentes populations étudiées.

Logique de l’ANOVA[modifier | modifier le wikicode]

Le chercheur contrôle 1 ou plusieurs variables :

  • Appelées facteurs (parfois appelés traitements)
  • Chaque facteur contient deux modalités ou plus (i.e parfois appelés niveaux)

Le chercheur observe l’effet sur la variable dépendante :

  • Réponses observées pour chacune des modalités

Plan d’expérience :

  • But : maximiser la précision en minimisant le nombre d’observations
  • Considérer un ou plusieurs facteurs pendant la constitution du dessin expérimental
  • Equilibré si toutes les modalités avec la même taille d’échantillon

ANOVA à 1 facteur[modifier | modifier le wikicode]

Evaluer la différence parmi les moyennes de 3 ou plus populations (1 population par modalité du facteur)

Suppositions :

  1. Les populations sont normalement distribuées
  2. Les populations ont des variances égales
  3. Les échantillons sont indépendants, tirés aléatoirement
  4. La variable expliquée est quantitative

Hypothèses : ANOVA à 1 facteur[modifier | modifier le wikicode]

H0 : ()1 = ()2 = ()3 = …= ()C

  • Il y a c populations
  • Toutes les moyennes des c populations ont égales
  • i.e. pas d’effet de facteur (traitement)

H1 : pas toutes les moyennes sont identiques

  • Au moins 1 moyenne est différente
  • i.e il existe un effet de facteur (traitement)
  • Il faut donc c échantillons correspondants aux c populations.

Si rejet de l’hypothèse nulle

  • Quelles populations ont des moyennes différentes ?
  • On ne sait pas !

Il faut donc effectuer d’autres tests pour le savoir : tests Post Hoc qui viennent après. Il existe au moins une population qui diffère des autres. On va aller plus loin en voyant quelle population est distincte des autres.

Exemple : clubs de golf

[[File:./media/image214.emf]]Question : est-ce que les moyennes sont égales entre les 3 clubs ? On a des moyennes par club et la moyenne globale.

1 : La variable quantitative qu’on aimerait expliquer ? Ici, ce sera la distance.

2 : On a une variable dite facteur : le club de golf. Il comporte 3 modalités donc j’ai besoin de 3 échantillons pour dire des choses.

Si je veux savoir si les moyennes sont significativement différentes les unes des autres ou au moins une, je procède par confirmer que les moyennes sont différentes en fonction du club utilisé. On va aller vers des notions proches de la variance.

ANOVA à 1 facteur (simple)[modifier | modifier le wikicode]

Décomposition de la variation[modifier | modifier le wikicode]

La variabilité totale est décomposée en deux parties :

Somme des carrés totale[modifier | modifier le wikicode]

Somme des carrés résiduelle[modifier | modifier le wikicode]

Somme des carrés expliquées[modifier | modifier le wikicode]

Test[modifier | modifier le wikicode]

Pour arriver à une bonne discrimination entre les populations, les deux conditions suivantes doivent être remplies :

  1. La variance doit être grande entre les moyennes de populations :
  2. La variance doit être petite au sein de chaque population :
  • En considérant le rapport de ces deux quantités, on peut tenir compte simultanément des deux conditions.

Soit les carrés moyens :

La statistique de test s’écrit alors :

  • L’hypothèse nulle est rejetée lorsque F est grand. On a suffisamment d’évidences pour penser que les moyennes sont distinctes. Si on rejette l’hypothèse nulle, il y a au moins une valeur qui est différente des autres.

Table ANOVA[modifier | modifier le wikicode]

Les résultats d’une ANOVA sont généralement présentés sous une forme standardisée appelée table ANOVA :

Hypothèses sous-jacentes à l’ANOVA[modifier | modifier le wikicode]

  1. Les populations sont normalement distribuées. La normalité peut être testée par exemple à l’aide du test :
    1. Test de Kolmogorov-Smirnov
    2. Test de Shapiro-Wilk
  2. Les populations ont des variances égales. L’égalité des variances peut être testés, par exemple à l’aide :
    1. Test de Levene
    2. Test de Hartley
  3. Les échantillons sont indépendants, tirés aléatoirement. Il est préférable mai pas obligatoire que l’échantillon issu de chaque population soit de même taille.
  4. La variable expliquée est quantitative.

Gold : homoscédasticité (variance homogène)

Test sur l’égalité des variances

Les variables semblent être homogènes.

Golf : normalité

Les données ne semblent pas provenir de distributions normales, pour chacune des 3 populations.

Golf : ANOVA

Tests post hoc[modifier | modifier le wikicode]

Lorsque l’hypothèse nulle de l’ANOVA est rejetée, nous savons qu’au moins deux moyennes sont significativement différentes l’une de l’autre mais l’analyse ne nous dit pas desquelles il s’agit. Il est donc nécessaire d’effectuer des comparaisons supplémentaires entre les populations. Pour comparer globalement 2 à 2 toutes les populations sans que le risque de se tromper sur l’une des comparaisons ne soit trop grand, des procédures particulières, les tests post hoc, existent. Ces procédures répartissent le risque d’erreur total () entre les différentes comparaisons à effectuer.

Test de Tukey[modifier | modifier le wikicode]

Le test de Tukey s’emploie lorsque nous voulons comparer 2 à 2 toutes les populations. Pour c populations, il faut donc effectuer :

Golf : Tukey

On conclut entre le club 2, le club 1 et club 3, les moyennes ne sont pas égales !

Test de Dunnett[modifier | modifier le wikicode]

Le test de Dunnett s’emploie lorsque l’une des populations sert de témoin ou de contrôle et que nous voulons comparer toutes les autres populations contre celle-ci. Pour c populations, il faut donc effectuer c-1 tests de la forme :

Développements[modifier | modifier le wikicode]

Populations définis selon plusieurs critères[modifier | modifier le wikicode]

Exemple : Donnée GSOEP

Des populations peuvent être définies sur la base de plusieurs facteurs. L’ANOVA permet alors de tester simultanément l’apport de chacun de ces facteurs, ainsi que leur éventuelle interaction. Dans ce cas, la table ANOVA regroupe plusieurs tests. Lorsqu’un facteur est significatif et qu’il comporte plus de deux modalités, il est toujours possible de faire ensuite des tests post hoc.

Santé et service civil

On peut voir que l’hypothèse nulle est rejetée pour le genre, aussi pour le service civil. La dernière ligne, elle signifie qu’entre les différents facteurs, il peut y avoir des influences croisées appelées des interactions où les facteurs interagissent entre eux. On en tient compte lorsqu’on crée le modèle. Si on combine les deux facteurs, est-ce qu’il y a une influence ou pas ? Ici elle n’existe pas. La p-valeur est supérieure à 0.05 et donc, on ne rejette pas l’hypothèse nulle. Ainsi, cette p-valeur ne nous permet de rejeter l’hypothèse nulle et genre et service civil ensemble n’ont pas d’influence ensemble sur l’égalité des moyennes.

On voit qu’il n’y a pas d’influence dans ce graphique. Il y a du parallélisme entre les deux droites.

Lorsqu’on a 3 facteurs, cela commence à devenir complexe parce qu’on a le genre, le handicap et le col blanc. On voit l’interaction des facteurs entre eux. Au fur et à mesure qu’on rajoute des facteurs, cela devient compliqué à gérer. On évite d’avoir trop de facteurs en même sauf que le principe reste le même puisqu’on regarde la p-valeur ; les moyennes sont-elles distinctes ou pas ?

Analyse de données appariées[modifier | modifier le wikicode]

Lorsque les mêmes sujets sont observés à plusieurs reprises au fil du temps (données appariées), l’intérêt est de savoir si une évolution est présente entre les différents moments d’observation. Une telle analyse est dite facteur répété. Si les sujets n’ont été observés qu’à deux reprises, une version du test du Student peut être utilisé. Sinon, il s’agit d’une ANOVA.

Evolution de DOC.3M entre 1984, 1988 et 1991

On fait la même chose qu’avant, on regarde la différence dans la moyenne en prenant la p-valeur. Sauf qu’ici, on regarde aussi la comparaison dans le temps.

Analyse de covariance (ANCOVA)[modifier | modifier le wikicode]

En plus de dépendre de facteurs catégoriels, la variable numérique étudiée peut aussi être influencée par une ou plusieurs variables numériques (souvent appelées covariables). Le principe consiste alors à supprimer l’influence de ces covariables avant d’étudier l’influence des facteurs. En pratique, on suppose qu’il existe un lien linéaire entre les covariables et la variable dépendante et les covariables apparaissent comme des variables explicatives dans le modèle. Ce modèle est une analyse de covariance (ANCOVA).

Covariable AGE par rapport à la SANTE

Analyse de variance multiple (MANOVA)[modifier | modifier le wikicode]

Certains phénomènes difficiles à définir sont souvent représentés par la combinaison de plusieurs variables (notion de bien-être, citoyenneté…). L’analyse de la variance multiple (MANOVA) permet d’analyser la répartition de sujets des groupes par rapport à plusieurs variables numériques simultanément.