Les analyse multivariée

De Baripedia


Introduction[modifier | modifier le wikicode]

Modèles statistiques[modifier | modifier le wikicode]

La régression est un terme exprimant une fonction. De plus, on s’attache aux régressions linéaires dites des fonctions linéaires. Un modèle statistique est un outil permettant d’analyser une situation et d’en tirer des conséquences. Un modèle combine généralement différents concepts statistiques « simples » tels que la tendance centrale, la dispersion, la corrélation… au sein d’une ou plusieurs équations mathématiques. Un modèle permet de tenir compte simultanément de différents facteurs influençant la situation considérée. Dans la mesure du possible, un modèle doit tenir compte du plan d’échantillonnage et des spécificités des données.

Quelques modèles[modifier | modifier le wikicode]

  • Prédire la valeur prise par une variable numérique => régression linéaire.
  • Prédire la modalité prise par une variable dichotomique / mooléenne => régression logistique
  • Comparer plusieurs populations => analyse de la variance (ANOVA).
  • Réduire le nombre de variables ou d’observations à traiter => classification automatique / méthodes factorielles (ACP, AFC,…). Techniques avancées de réduction du nombre de variable.
  • Expliquer l’évolution d’une variable au fil du temps => chaîne de Markov, analyse de survie, analyse des séquences

Modèles de régression[modifier | modifier le wikicode]

Dans un modèle de régression, un ensemble de variables explicatives ou indépendantes X1, X2, X3… est utilisé pour expliquer une variable expliquée ou indépendante Y : Y = f(X1,X2,X3…)

Le type de régression dépend du type de la variable expliquée Y :

  • Numérique -> régression linéaire
  • Dichotomique -> régression logistique
  • Nominale -> régression multinomiale
  • Ordinale -> régression ordinale

Exemple : Données GSOEP

Exemples de régressions

  • Prédire le REVENU d’un ménage -> régression linéaire
  • Prédire le fait d’avoir un TRAVAIL -> régression logistique
  • Prédire le nombre de visites chez un docteur durant les 3 derniers mois en 4 catégories (DOC_4c) -> régression multinomiale ou ordinale

Les Régressions Linéaires[modifier | modifier le wikicode]

Le modèle[modifier | modifier le wikicode]

En régression linéaire simple, une seule variable indépendante X (explicative) explique la variable dépendante Y (expliquée). Le modèle est linéaire, ce qui signifie que la relation théorique entre les variables X et Y est une droite. Sauf cas particulier, la relation linéaire liant X et Y n’est pas parfaite. Le modèle s’écrit alors (ce qu’on aurait dans la population) :

e est un terme d’erreur représentant la part de Y qui n’est pas expliqué par le modèle linéaire. Après estimations des coefficients ()0 et ()1, le modèle fournit une estimation de [[File:./media/image142.emf]] pour chaque observation Y1 (dans un échantillon, on a des valeurs estimées et on essaie d’estimer la pente par bêta. On n’obtient pas directement les vraies valeurs parce que si on a deux échantillons, on va obtenir deux échantillons distincts) :

Le modèle comporte deux coefficients à estimer :

  • ()0 est la constante (ordonnée à l’origine) du modèle. C’est la valeur de Y lorsque la variable explicative Y vaut 0.
  • ()1 est la pente du modèle. Elle s’interprète comme l’effet sur Y d’une variation d’une unité de la variable X.

Le point commun de toutes les régressions linéaires, c’est le point de moyenne entre X et Y ((),( )).

Estimation des coefficients[modifier | modifier le wikicode]

L’estimation des coefficients ()0 et ()1 s’effectue selon la méthode des moindres carrées. L’objectif est de trouver la droite de régression qui minimise globalement les termes d’erreur ei. La droite optimale passe par le point moyen ((),( )).

  • Bêta 1 (pente) : Estimateur des moindres carrées : la covariance de X et Y / variance de X
  • Bêta 0 (constante) = moyenne Y (variable dépendante) – pente x la moyenne de X
  • Pour trouver les coefficients à estimer, il faut faire l’estimateur des moindres carrées. Pour trouver l’estimation de la constante, il faut calculer les moyennes et prendre la pente.

Exemple : REVENU et EDUCATION : Le revenu dépend-t-il du niveau d’éducation ?

On voit que dans le tableau des résultats, nous avons trois parties dans le listing. La partie centrale correspond au modèle lui-même. La catégorie « intercept » correspond à l’ordonnée à l’origine – bêta 0 (ici = à 0.1669) et la catégorie D$EDUCATION correspond à la pente ou bêta 1 (ici = à 0.0242). Ainsi, on peut dire que par années d’éducation supplémentaire, le revenu augmente théoriquement de 0.0242%. Ainsi, il semble que l’éducation influence positivement le revenu puisqu’il est possible de trouver une relation entre ces deux variables.

[[File:./media/image148.emf]]On obtient ça comme modèle. A partir de ce modèle, on peut prédire quel salaire une personne devrait théoriquement toucher en fonction du nombre d’année d’éducation à son actif. Par exemple, quel devrait être le salaire d’une personne ayant été 17 années à l’école ?

Exemple : REVENU et EDUCATION

Une fois estimé, le modèle peut être utilisé pour faire des prédictions en l’appliquant sur des valeurs choisies des variables explicatives. Pour x=17 années d’éducation, le modèle prédit :

soit en moyenne un revenu de 0.5738.

Attention :

  • Pour faire des prédictions valables, il faut que le modèle soit de bonne qualité, ce qui n’est pas le cas ici.
  • Un modèle ne peut être utilisé que pour des données du même ordre de grandeur que celles ayant servi à estimer le modèle.
  • Ce que le graphique permet de voir, c’est que les points ne sont pas bien alignés sur la droite, ce qui permet de dire que ce modèle est insuffisant pour expliquer à lui seul le revenu. Pour obtenir un meilleur modèle avec un pouvoir explicatif plus fort, il faut intégrer d’autres variables dans l’analyse. De plus, il faut exclure les données aberrantes pour que ces dernières ne puissent pas influencer et biaiser le modèle construit par le chercheur. En effet, il est bien intéressant de les étudier séparément.

On a remplacé notre variable X et on obtient d’autres valeurs.

[[File:./media/image151.emf]]On a un intercept plus une pente négative fois la valeur col bleu oui/non. Cela signifie que si j’augmente col bleu, l’effet sur le revenu sera augmenté (on regarde le coefficient qui est négatif et donc on descend dans les valeurs). Si je passe à col bleu, cela a pour effet un revenu qui décroît par rapport à un col blanc.

Le modèle[modifier | modifier le wikicode]

La variable dépendante Y est souvent influencée simultanément par plusieurs variables explicatives. Soit X1, X2,…Xk, k variables indépendantes qui peuvent toutes expliquer en partie la variable dépendante Y. Le modèle s’écrit alors :

Même s’il n’est pas possible de représenter graphiquement le modèle, la relation entre chaque variable explicative et la variable dépendante reste linéaire.

Indépendance des variables explicatives[modifier | modifier le wikicode]

Les variables explicatives du modèle doivent être linéairement indépendantes les unes des autres : il ne doit pas être possible d’écrire l’une d’entre-elles comme une combinaison linéaire des autres. Cela revient à dire que chaque variable explicative doit apporter une information qui lui est propre pour l’explication de la variable dépendante. Si les variables explicatives ne sont pas linéairement indépendantes, le modèle ne peut plus estimer et on parle alors de multicolinéarité. Par ailleurs, les variables explicatives doivent aussi être indépendantes des termes d’erreur du modèle.

Je tente d’expliquer le revenu par l’âge, l’éducation et le col bleu. Dans notre output, on a à nouveau un bêta 0 estimé, un bêta 1 pour l’éducation, un bêta 2 pour l’âge et un bêta 3 pour col bleu. Si on veut établir l’équation expliquant le revenu, il serait égal à XXXX. Si je connais cette équation, je suis capable de donner une estimation du revenu où je remplacerais l’éducation par le nombre d’années d’éducation. On voit sur l’exemple que le R2 est égal à 0.0759, on peut donc conclure que ce modèle permet d’expliquer à 7,59% le niveau de revenu des individus. Ainsi, c’est un modèle très insuffisant pour expliquer le salaire, sans pour autant être inutile puisqu’il permet malgré tout de comprendre une partie de la variable dépendante Y. La variable col bleu n’est pas significative. L’interprétation des coefficients, pour une année supplémentaire d’éducation, j’augmente mon augmentation de 0.024791 en éducation.

Variables explicatives qualitatives[modifier | modifier le wikicode]

L’utilisation de variables explicatives qualitatives (nominales ou ordinales) est problématique car les codes numériques attribués à leurs modalités sont arbitraires. Si le code change, l’estimation du modèle change aussi, ce qui n’est pas réaliste. La solution consiste à associer à chacune des modalités une variable indicatrice binaire (0-1). On parle aussi de variables muettes (dummy variables). Une variable catégorielle à c modalités est remplacée par c-1 variables muettes, la i-ème variable prenant la valeur 1 si la variable originale prend la valeur i et zéro sinon. Une des modalités sert de référence et on ne lui associe par de variable indicatrice.

Niveau d’analyse[modifier | modifier le wikicode]

Sauf car particulier, il est toujours possible d’estimer la valeur des coefficients d’un modèle de régression. Cependant, l’existence du modèle n’implique pas automatiquement qu’il soit de bonne qualité. Plusieurs niveaux d’analyse peuvent être utilisés afin de juger de la pertinence du modèle de régression linéaire :

  • Qualité globale de l’ajustement
  • Test individuel de chaque coefficient
  • Analyse des termes d’erreur

Cette problématique n’est pas spécifique à la régression linéaire. Elle est présente dans tous les modèles statistiques

Qualité globale de l’ajustement[modifier | modifier le wikicode]

Le premier point à vérifier après avoir calculé un modèle est de savoir si ce modèle permet d’expliquer réellement, en partie du moins, la variable dépendante. Si c’est le cas, il sera ensuite utile d’étudier un à un ses coefficients. Si ce n’est pas le cas, le modèle doit être purement et simplement rejeté et un autre modèle doit être défini.

Coefficient de détermination de R2[modifier | modifier le wikicode]

Le coefficient de détermination (ou de corrélations multiple) R2 est une mesure variant entre 0 et 1 et représentant la part de la variable dépendante qui est expliquée par le modèle de régression. Plus R2 est proche de 1, plus le modèle s’ajuste bien aux données. Le coefficient de détermination est défini comme la proportion de la variance totale expliquée par le modèle :

Dans le cas particulier de la régression linéaire simple, [[File:./media/image155.emf]]

Coefficient de détermination R2 ajusté[modifier | modifier le wikicode]

Le coefficient de détermination R2 présente l’inconvénient d’augmenter en fonction du nombre de variables explicatives. Le coefficient de détermination R2 ajusté corrige ce défaut :

n est le nombre d’observations et p le nombre de coefficients estimés du modèle. C’est ce coefficient ajusté qui devrait toujours être utilisé.

Exemple :

Test de la significativité globale[modifier | modifier le wikicode]

Nous aimerons savoir si le modèle contient des éléments utiles pour expliquer la variable dépendante. Pour ce faire, nous formulons le test suivant :

Si l’on accepte H0, aucune des variables explicatives n’a d’influence sur la variable dépendante et le modèle doit être entièrement rejeté.

La statistique de test F-statistic se calcule comme :

Test individuel de chaque coefficient[modifier | modifier le wikicode]

Même si un modèle apporte globalement de l’information pour comprendre le comportement de la variable dépendante, cela ne signifie pas que toutes les variables explicatives sont utiles. Ceci est particulièrement vrai dans le cas de modèles comportant un grand nombre de variables explicatives. Seules les variables apportant réellement quelque chose de significatif doivent être interprétées.

Test de significativité de chaque coefficient[modifier | modifier le wikicode]

Nous voulons vérifier si chacun des coefficients du modèle est réellement différent de zéro et donc utile au niveau de la population. Nous effectuons pour chaque coefficient le test suivant :

Ces tests sont appelés les tests de significativité et le coefficient est dit significatif si l’hypothèse nulle est rejetée. Accepter l’hypothèse nulle revient à dire que la variable explicative correspondant au coefficient testé n’a pas de relation avec la variable dépendante.

Coefficients standardisés de la régression[modifier | modifier le wikicode]

Quelle est l’importance d’un coefficient ? Si on veut comparer les coefficients entre eux, on ne peut pas le faire parce qu’ils n’ont pas la même unité. Pour ce faire, il faut essayer de standardiser.

La valeur des coefficients de la régression dépend de l’unité de mesure des variables explicatives correspondantes. Ce n’est donc pas parce qu’un coefficient est très différent de zéro qu’il est significatif. Une solution consiste à standardiser les coefficients de manière à les rendre comparables les uns avec les autres :

où Sy est l’écart-type de la variable dépendante et Sxj est l’écart-type de la j-ième variable explicative.

Analyse des termes d’erreur[modifier | modifier le wikicode]

Le modèle de régression linéaire repose sur un ensemble d’hypothèses ayant trait aux termes d’erreur du modèle. Si ces hypothèses ne sont pas vérifiées, alors le modèle perd en fiabilité et il devrait être modifié. Selon les cas, ces hypothèses peuvent être vérifiées graphiquement ou par calcul. Pour une observation i, le terme d’erreur se calcule comme (valeur réelle (Yi) – valeur estimée Yi chapeau estimée par la régression) :

[[File:./media/image163.emf]]

Un terme d’erreur positif correspond donc à une sous-estimation de la réalité par le modèle et un terme négatif correspond à une surestimation.

Erreur standard de la régression[modifier | modifier le wikicode]

L’erreur standard du modèle de régression est l’écart-type non-biaisé des termes d’erreur :

La somme carrée des erreurs/ nombre d’observations – nombre de paramètres estimés (variables) au raciné carré.

L’erreur standard intervient notamment dans le calcul des tests de significativité et lors de la détection de donnés atypiques de l’échantillon.

Données atypiques[modifier | modifier le wikicode]

Les modèles de régression sont fortement influencés par des données atypiques ou aberrantes au sein de l’échantillon. Le mieux est de supprimer ces données avant l’estimation mais il est aussi possible de détecter leur présence a posteriori. Un critère habituel consiste à supprimer les données dont le terme d’erreur pris en valeur absolue dépasse 2.5 fois l’erreur standard du modèle. En supposant normale la distribution des observations, ces données font partie du 1% des données les plus extrêmes (grandes ou petites).

Exemple :

La limite pour des données atypiques est 2.5 x 0.208 = 0.52. Les termes d’erreur acceptable sont compris entre [-0.52 ; 0.52]. La valeur maximale est de 2.57 sauf qu’il y a un souci parce qu’il y a au moins une valeur atypique supérieure à 0.52.

Si on regarde le graphique, on remarque que tout ce qui est au-dessus, ce sont de trop grandes erreurs donc il y a un souci.

Hypothèses sur les termes d’erreur[modifier | modifier le wikicode]

Construction de modèles[modifier | modifier le wikicode]

Deux approches[modifier | modifier le wikicode]

  • Approche théorique : on part d’une théorie existante et on construit le modèle explicatif qui lui correspond. Les variables explicatives utilisées dépendant de la théorie.
  • Approche empirique : on recherche le modèle permettant d’expliquer au mieux la variable dépendante. Le choix des variables explicatives utilisées dépend uniquement de leurs qualités statistiques.
  • L’approche théorique est généralement préférable à l’approche empirique.

Ajustement VS simplicité[modifier | modifier le wikicode]

Il n’est pas forcément souhaitable que le modèle estimé à partir d’un échantillon soit trop parfait ! L’échantillon est une image imparfaite de la population. Un modèle parfait pour l’échantillon ne le sera pas forcément pour la population. Une telle situation est une situation dite de surapprentissage. Un bon modèle doit être le résultat d’un arbitrage entre l’ajustement aux données et la simplicité.

Approche théorique[modifier | modifier le wikicode]

Dans le cas d’une approche théorique, le modèle est défini par la théorie et il n’y a normalement pas de doutes quant aux variables explicatives à utiliser. La limitation provient naturellement des données à disposition : si les concepts théoriques n’ont pas pu être correctement mesurée, alors le modèle ne reflètera pas exactement la théorie ! Cela rappelle une fois encore l’importance de penser à une recherche quantitative comme un tout et de prévoir bien avant la récolte des données ce qui sera fait avec ces dernières du point du vue statistique.Tester la théorie Partir d’un modèle théorique ne veut pas dire que l’on ne peut pas le remettre en question. Le test de significativité de chaque coefficient permet de déterminer quelles variables soutiennent la théorie et quelles variables la remettent en cause. De même, il est possible d’ajouter des variables ne faisant pas partie de la théorie, de manière à remettre en question la théorie et à en proposer une nouvelle.

Comparer des théories[modifier | modifier le wikicode]

Dans certains cas, plusieurs théories différentes ont été bâties afin d’expliquer un même phénomène. Sous réserve de disposer des variables nécessaires pour chaque théorie, il est possible de calculer un modèle différent pour chaque théorie, puis de les comparer afin de déterminer quelle théorie est la mieux soutenue par les données. La comparaison peut se faire notamment sur la base du coefficient de détermination ajusté (R2) ou de critères d’information tels que le BIC.

Approche empirique[modifier | modifier le wikicode]

Dans le cas d’une approche empirique, toutes les variables à disposition peuvent être utilisée comme prédicteurs de la variable dépendante. Au vu du nombre de modèles différents que cela peut impliquer, il faut travailler de manière systématique. Principales approches :

  • Backward
  • Forward
  • Blocs

Procédure backward[modifier | modifier le wikicode]

La procédure backward prend comme point de départ un modèle incluant toutes les variables explicatives à disposition. On utilise ensuite l’algorithme suivant :

  • Le modèle de régression multiple est estimé.
  • Chaque coefficient du modèle est testé individuellement.
  • Décision :
    • Si tous les paramètres sont significativement différents de zéro, la procédure s’arrête.
    • Sinon, la variable correspondant au paramètre le moins fortement significative (celui pour lequel l’hypothèse H0 a été la plus fortement acceptée) est supprimée du modèle et on retourne au point 1).

Procédure forward[modifier | modifier le wikicode]

La procédure forward prend comme point de départ un modèle incluant uniquement une constante. On utilise ensuite l’algorithme suivant :

  • On recherche, parmi les variables ne faisant pas partie du modèle, celle qui permet le mieux d’améliorer le modèle. Cela peut nécessiter le calcul de tous les modèles possibles en incluant à tour de rôle chacune des variables potentielles.
  • Décisions :
    • Si cette variable est significative lorsqu’on l’ajoute au modèle, on l’ajoute et on retourne au point 1.
    • Sinon, la procédure s’arrête.

Remarque : les procédures « stepwise » combinent les deux approches précédentes. Une variable peut ressortir du modèle après y être entrée, et vice versa.

Construction par blocs[modifier | modifier le wikicode]

La construction par blocs est une approche intermédiaire entre les approches théoriques et empiriques. Les variables explicatives sont réparties en plusieurs blocs (variables essentielles, variables sociodémographiques, variables de contrôle…) et ces blocs sont ajoutés successivement au modèle. L’objectif n’est plus seulement d’établir l’utilité de chaque variable explicative prise isolément mais de mesurer l’apport respectif de chaque bloc ou type de variables dans l’explication de la variable dépendante.

Comment comparer ces modèles ?[modifier | modifier le wikicode]

Plusieurs critères peuvent être utilisés pour comparer des modèles entre eux. Tout d’abord, il faut savoir si l’on travaille au niveau individuel de chaque variable ou au niveau du modèle pris dans son ensemble :

  • Au niveau des variables, on peut utiliser le test de significativité si la variable est dans le modèle, ou se baser sur la corrélation (partielle) entre cette variable et la variable dépendante sinon.
  • Au niveau du modèle, on peut se baser sur des coefficients d’ajustement (R2), sur des tests du rapport de vraisemblance, ou sur des critères d’information (BIC).

Critères d’information[modifier | modifier le wikicode]

Les critères d’information combinent la qualité d’ajustement du modèle aux données avec sa complexité :

  • Akaike : AIC = FIT + 2k
  • Bayes (Schwarz) : BIC = FIT + ln(n)k -> où k est le nombre de coefficient estimés du modèle et n est le nombre d’observations.

Plus un coefficient est proche de zéro, meilleur il est. Pour une régression logistique, FIT est égal à -2 fois la log-vraisemblance du modèle, alors que pour une régression linéaire, il s’agit de n fois le logarithme de la somme des carrés des résidus du modèle.

Il n’est pas possible de tester formellement la valeur du BIC mais Raftery (1995) propose un ordre de grandeur pour la comparaison de deux modèles. Soit M1 et M2, deux modèles tels que M2 est emboîté dans M1 (ie : il a été obtenu en supprimant une ou plusieurs variables de M1 et il est donc plus simple). Alors :

Exemple : comparaison de théories

Pour expliquer le revenu, il faut prendre la variable travail (oui/non), si c’est un col blanc (oui/non) et s’il est indépendant. Les 3 variables sont significatives par rapport à leur p-valeur.

On a la variable santé qui est significative et les deux autres qui ne sont pas significatives.

On a aussi des variables significatives et d’autres qui ne le sont pas (âge, diplôme universitaire).

Lequel des 3 modèles est le plus pertinent ? On compare les R2 ajusté et les BIC.

Le R2 du modèle sociodémographique permet d’expliquer les 12% de notre modèle de comparaison. Avec le BIC, la valeur la plus petite, c’est une sorte de différence entre ce que ça prédit et ce qui est réellement donc plus c’est petit, mieux c’est. Pour les deux critères, on a le modèle sociodémographique qui est meilleur mais est-ce un bon modèle ? Là, on a environ 12% de variance expliqué mais ce n’est pas excellent. Parmi les 3, c’est le meilleur mais il n’est pas très bon.

Exemple : construction par blocs

On construit un modèle en examinant tout d’abord l’influence des facteurs économiques puis celle de la santé et en dernier lieu celle des facteurs socio-démographiques.

Le bloc économique : on prend le même modèle. On remarque qu’il y a au moins une valeur qui est significative. Toutes les variables sont significatives en l’occurrence avec un R2 de 0.0509 donc on explique 5% de la variance. Maintenant on rajoute les valeurs dues à la santé à ce modèle. Ce nouveau modèle comprenant deux séries de blocs de variables, il vaut la peine de s’y intéresser. Est-ce qu’il explique beaucoup mieux la variable indépendante ? Les variables sont significatives du bloc économique et juste une du modèle de la santé. Puis on ajoute les variables socio-démographiques et on obtient un modèle combiné par les 3 blocs de variables. On voit ainsi qu’il y a des variables non-significatives.

Si on compare ces 3 modèles entre eux,

Le dernier bloc permet la plus forte augmentation et donc la plus forte explication de la variation (avec un pourcentage d’environ 16%). Par conséquent, c’est l’ajout des facteurs socio-démographiques qui permet la plus forte augmentation de l’explication de la variable dépendante.

Exemple : sélection backward

A partir du modèle précédent à 3 blocs de variables, on effectue une sélection backward en supprimant à chaque étape la variable non-significative ayant la plus grande p-valeur. On supprime ainsi successivement les variables suivantes : HANDI.POUR, HANDI, UNIV, AGE. En termes de R2 ajusté, le modèle obtenu est très proche du modèle précédent à 3 blocs, tout en étant plus simple.

[[File:./media/image175.emf]]Toutes ces variables ont l’air significatives. Comment expliquer la variance ? Par 16.2% mais qui n’est pas terrible. C’est un modèle considéré comme mauvais.