Analyses multivariées : leur utilité pour la recherche

De Baripedia


Rappel[modifier | modifier le wikicode]

  • Analyses univariées
    • Description de la distribution d’une seule variable
    • Fréquences, tendance centrale (moyenne, médiane etc) et dispersion (écart-type, écart interquartile etc.
  • Analyses multivariées

C’est une mise en relation de plusieurs variables pour voir comment elles sont associées. Les analyses bi-variée et tri-variée sont des cas particuliers. L’usage voudrait qu’on parle d’analyse multivariée dès lors qu’on analyse plusieurs variables.

  • Analyse bivariées

Mise en relation de 2 variables. On utilise des corrélations, des comparaisons de moyennes, des tableaux croisés et des régressions simples dans ce cas d’analyse. Sauf qu’on n’est pas à l’abri d’une relation fallacieuse, à savoir qu’on peut avoir une corrélation entre deux variables mais il n’y a pas de sens en termes de causalité.

  • Analyses trivariées

C’est une mise en relation de 2 variables sous contrôle d’une 3ème. On utilise les mêmes outils statistiques pour une analyse bivariée et de plus, il y a la régression multiple. Néanmoins, si le contrôle est limité, quelles sont les causes concurrentes ?

  • Autres analyses multivariées

C’est une mise en relation de plus que 3 variables. On utilise des régressions multiples et d’autres méthodes plus complexes dont on ne va pas triater.

Régression multiple[modifier | modifier le wikicode]

La logique, on cherche à expliquer/prédire un phénomène et c’est une variable expliquée/dépendante notée Y. A côté de ça, on a une série de variables indépendantes ou explicatives notées X. On cherche à trouver leur effet sur la variable dépendante.

Variable de contrôle VS indépendante : mathématiquement, il n’y a pas de différence. C’est une distinction théorique, c’est le chercher qui décide ce qui l’intéresse vraiment, les variables dont l’effet l’intéresse et les variables de contrôle sont là pour contrôler.

2 usages de la régression multiple[modifier | modifier le wikicode]

  • Expliquer un phénomène social dans son ensemble
    • Objectif d’expliquer un maximum de la variance de ce phénomène (variable dépendante) et c’est pour ça que l’examen du R2 nous donne l’indice de combien de variance on explique de ce phénomène.
    • Avantage par rapport aux autres types d’analyse : on peut tester des choses plus complexes. On peut introduire plus de facteurs explicatifs et par définition, on a plus de chance de cerner le phénomène qu’on cherche à expliquer (notamment par le R2).
  • Expliquer l’influence de certains facteurs en particulier
    • On est moins intéresser à expliquer un phénomène dans son ensemble mais on a un intérêt en se demandant quel est l’influence d’une variable en particulier.
    • Avantage c’est ce fameux toute chose égale par ailleurs – ceteris paribus qui nous permet de dire qu’en contrôlant tout un paquet de facteurs, la variable qui nous intéresse a un effet. Si on garde tout le reste constant, on peut dire qu’une variable a un effet. En gros, l’avantage de la régression multiple est qu’elle permet de contrôler l’effet des causes concurrentes.
  • Coefficients (standardisés et non-standardisés) sont plus importants, R2 est moins intéressant sauf si comparaison de modèles « avec/sans » la variable clé. Le R2 : de combien de variance supplémentaire on peut expliquer en ajoutant cette variable explicative.

Différents types de régression multiple[modifier | modifier le wikicode]

Le type de régression utilisée dépend du niveau de mesure de la variable dépendante (Y).

Interprétation[modifier | modifier le wikicode]

B = coefficient de régression / e = terme d’erreur (estimation statistique) / H0 = hypothèse avec pas d’effet

Interprétation[modifier | modifier le wikicode]

Régression logistique binaire[modifier | modifier le wikicode]

Dans l’absolu, le R2 ajusté est difficile à interpréter par contre pour comparer des modèles, le R2 ajusté peut être utile en disant que celui qui a le R2 ajusté le plus grand, c’est le meilleur modèle.

Le logit, c’est une quantité mathématique qui est difficile à interpréter. Raison pour laquelle on utilise le plus souvent les odd ratios. Le coefficient, la valeur de référence est 0 pour voir la relation est + ou -. Pour les odd rations, la valeur de référence est de 1. Si on est entre 0 et 1, on a une relation négative, si on est au-delà de 1, la relation est positive.

Les cotes = on est à 1 contre 3 ; en gros, sur 4 situations, il y a 1 dans laquelle on gagne et 3 dans laquelle on perd. Dire la côte est de 1 contre 3, on a 1 chance sur 4 de gagner.

Vu que la valeur de référence pour 1 (OR), l’intervalle de confiance comprend-elle le 1 ?

()R2 : pourcentage de variance qu’on explique en plus à chaque nouveau bloc

Régression multiple : exemple[modifier | modifier le wikicode]

Régression multiple : exemple 2[modifier | modifier le wikicode]