|
|
| (60 versions intermédiaires par 3 utilisateurs non affichées) |
| Ligne 1 : |
Ligne 1 : |
| <nowiki>#</nowiki> Cours introductif
| | {{Infobox Cours |
| | |image= |
| | |image_caption= |
| | |cours=[[Introduction aux méthodes quantitatives]] |
| | |faculté= |
| | |département= |
| | |professeurs= |
| | |enregistrement= |
| | |lectures= |
|
| |
|
| <nowiki>##</nowiki> Objectifs du cours
| | *[[Méthodes quantitatives : éléments généraux]] |
| | *[[Les éceuils à éviter en méthodes quantitatives]] |
| | *[[Histoire et développements des méthodes quantitatives en sciences sociales]] |
| | *[[Méthodes quantitatives et qualitatives : des épistémologies distinctes ?]] |
| | *[[Pratiques de la recherche et causalité : théorie et empirie sous tension]] |
| | *[[Les Dessins de recherche ou comment maîtriser la causalité ?]] |
| | *[[Des concepts aux mesures, un travail d’opérationnalisation]] |
| | *[[Introduction Enjeux de la collecte et types de données]] |
| | *[[Elaboration d’un questionnaire standardisé : Principes généraux]] |
| | *[[Analyses uni-,bi- et tri-variées, Quelles utilités pour la recherche ?]] |
| | *[[Analyses multivariées : leur utilité pour la recherche]] |
| | *[[Comment analyser / évaluer des études de manière critique ?]] |
| | *[[Méthodes statistique : introduction]] |
| | *[[Graphiques]] |
| | *[[Analyse univariée]] |
| | *[[Echantillonage]] |
| | *[[Inférence statistique]] |
| | *[[Tests d’hypothèses]] |
| | *[[Analyse bivariée]] |
| | *[[Le cas des comparaison de populations]] |
| | *[[Les analyse multivariée]] |
| | *[[Les régression logistiques]] |
| | *[[Comparaison de populations]] |
| | *[[Backup version complète]] |
|
| |
|
| | }} |
|
| |
|
| 1. Savoir interpréter les analyses quantitatives et statistiques
| | <br /> |
|
| |
|
|
| | =Eléments généraux à propos de ce cours= |
|
| |
|
| 1. Les comprendre et les interpréter correctement
| |
|
| |
|
|
| | Ce cours est écrit pour les étudiants souhaitant s'initier aux méthodes quantititaves. Ce cours essaie de permettre de comprendre les concepts généraux relatifs à ces méthodes, pour des personnes n'ayant pas nécéssairement un bagage technique ou mathématique. Les formules seront explicitées ainsi que appliquées avec des exemples concrets. Ce cours n'est pas une introduction à la statistique, mais souhaite pouvoir présenter les concepts et leur applications en vue de permettre par la suite à quelqu'un de pouvoir appliquer ces méthodes pour une recherche ou un projet personnel. Les calculs complexes ne seront pas toujours explicités en vue de pouvoir les reproduire à la main, mais plutôt d'offrir les outils pour des applications concrètes, le développement d'un esprit critique et la compréhension de ce qu'il se passe lors d'utilisation de comandes dans un logiciel de programmation statistique comme R, SPSS, Python etc... |
|
| |
|
| 2. Déjouer leurs pièges et évaluer leurs apports
| | ==Objectifs du cours== |
| | <br /> |
|
| |
|
| 2. Comprendre la production de ces analyses
| | #Savoir interpréter les analyses quantitatives et statistiques |
| | ##Les comprendre et les interpréter correctement |
| | ##Déjouer leurs pièges et évaluer leurs apports |
| | #Comprendre la production de ces analyses |
| | ##Elaboration et collecte de données |
| | ##Elaboration des analyses statistiques |
| | #Connaître les outils statistiques |
| | ##Présupposée, leur application possible et nos usages |
| | ##Réflexivité et vigilance épistémologique |
| | ##Développer un esprit critique et autonomie (≠aveuglement vs relativisme) |
|
| |
|
|
| | ==Utilité d’une telle formation== |
| | <br /> |
|
| |
|
| 1. Elaboration et collecte de données
| | #Former des citoyens citoyen.nes éclairées |
| | ##Consommateur de médias |
| | ##Citoyen.nes acteurs |
| | #Futur professionnel |
| | ##Rapports mobilisant ce type d’analyse |
| | ##Formation en science sociales |
| | #Comprendre la production intellectuelle en science sociale : comprendre diverses statistiques (but, points forts et faibles) |
| | ##Comprendre les études et la production du savoir |
| | ##Autonomie intellectuelle |
|
| |
|
|
| |
|
| |
|
| 2. Elaboration des analyses statistiques
| |
|
| |
|
| 3. Connaître les outils statistiques
| | <br /> |
|
| |
|
|
| | =Exercices= |
|
| |
|
| 1. Présupposée, leur application possible et nos usages
| |
|
| |
|
| 4. Réflexivité et vigilance épistémologique
| | [[Questions de compréhension]] |
|
| |
|
|
| | [[Exercices numériques]] |
|
| |
|
| 1. Esprit critique et autonomie (≠aveuglement vs relativisme)
| | .[[Apprendre avec R]] |
|
| |
|
| <nowiki>##</nowiki> Utilité d’une telle formation | | =Contenus complémentaire= |
| | <br />[[Videos]] |
|
| |
|
| | [[Livres]] |
|
| |
|
| 1. Citoyen.nes éclairées
| | <br /> |
| | | =Références= |
|
| |
| | |
| 1. Consommateur de médias
| |
| | |
|
| |
| | |
| 2. Citoyen.nes acteurs
| |
| | |
| 2. Futur professionnel
| |
| | |
|
| |
| | |
| 1. Rapports mobilisant ce type d’analyse
| |
| | |
|
| |
| | |
| 2. Formation en science sociales
| |
| | |
| 3. Comprendre la production intellectuelle en science sociale :
| |
| | |
| comprendre diverses statistiques (but, points forts et faibles)
| |
| | |
|
| |
| | |
| 1. Comprendre les études et la production du savoir
| |
| | |
|
| |
| | |
| 2. Autonomie intellectuelle
| |
| | |
| <nowiki>##</nowiki> Importance des méthodes
| |
| | |
| Exemple avec P. Bourdieu : les sciences sociales ne peuvent exister sans
| |
| | |
| empirie. Une analyse empirique scrupuleuse du monde social qui permet de
| |
| | |
| mettre en exergue des dimensions essentielles de la réalité sociale.
| |
| | |
| L’analyse empirique du monde social est la clé de l’élaboration
| |
| | |
| théorique.
| |
| | |
| Exemple avec R. Merton : il souligne également l’importance des méthodes
| |
| | |
| quantitatives mais dans une vision opposée à celle de Bourdieu par
| |
| | |
| rapport à l’empirie et à la théorie. Pour lui, la théorie sert de
| |
| | |
| fondement logique et c’est à partir d’elle qu’on peut formuler des
| |
| | |
| hypothèses. Néanmoins, il en oublie pas moins l’empirie et il attribue
| |
| | |
| un rôle essentiel à la *serendipity*. C’est la découverte par chance ou
| |
| | |
| sagacité de résultats que l’on ne cherchait pas. Il y a donc un
| |
| | |
| va-et-vient entre la théorie et l’empirie.
| |
| | |
| - Tous deux estiment l’importance de l’empirie pour le développement
| |
| | |
| de travaux sociaux, et cela passe par les méthodes de recherche.
| |
| | |
| En science sociale, l’empirie est essentielle pour l’élaboration
| |
| | |
| théorique (Bourdieu), pour la créativité théorique (Merton) et pour la
| |
| | |
| théorie considérée comme le premier pilier de la production du savoir.
| |
| | |
| Les méthodes ont aussi accès au terrain et elles sont le second pilier
| |
| | |
| de la production du savoir. Ces méthodes rendent ainsi possibles l’accès
| |
| | |
| au terrain.
| |
| | |
| <nowiki>##</nowiki> A éviter
| |
| | |
| <nowiki>###</nowiki> Méthodes VS techniques : conception technicienne
| |
| | |
| Le terme de méthode vient du latin et signifie une direction qui mène au
| |
| | |
| but ou un chemin à suivre. Cette notion n’est pas forcément claire.
| |
| | |
| C’est au XIXème qu’il va obtenir une définition plus claire, à savoir
| |
| | |
| un procédé ou une technique que l’on met en œuvre. Cela illustre la
| |
| | |
| première tension qui se retrouve dans le métier du chercheur qui est
| |
| | |
| souvent de substituer la compréhension. Cette compréhension des méthodes
| |
| | |
| sous l’angles des méthodes est dangereux. Une compréhension technicienne
| |
| | |
| ne rend pas compte du travail de construction et d’élaboration qui sont
| |
| | |
| derrière tout travail de recherche. On a besoin de ce travail de
| |
| | |
| construction et d’élaboration pour construire un objet de recherche.
| |
| | |
| Cela va aussi influencer la manière dont on va regarder le monde social.
| |
| | |
| Néanmoins, c’est souvent restreint en raison d’un faible budget.
| |
| | |
| Derrière le choix d’une recherche, il y a un nombre élevé de
| |
| | |
| contraintes. Si on prend les méthodes comme techniques, on ne se rend
| |
| | |
| pas compte que les résultats découlent des choix du chercheur et donc,
| |
| | |
| ce sont des constructions et non pas des statistiques « naturelles ». De
| |
| | |
| plus, les méthodes nous écartent du chemin d’une vigilance critique à
| |
| | |
| laquelle doit se soumettre tout chercheur. D’ailleurs, des innovations
| |
| | |
| théoriques reposent sur des innovations méthodologiques.
| |
| | |
| - Grâce aux méthodes quantitatives, on répond à un certain type de
| |
| | |
| questions.
| |
| | |
| <nowiki>###</nowiki> Données chiffrées VS constructions
| |
| | |
| Il n’y a pas de donnée qui se donnent à voir naturellement mais c’est
| |
| | |
| toujours une construction du chercheur. Derrière les chiffres, c’est la
| |
| | |
| même chose. Le terme de « donnée » veut étymologiquement dire « faire
| |
| | |
| don », ce qui induit l’idée de données de recherche offerte aux
| |
| | |
| chercheurs sur un plateau d’argent. A partir du 18ème siècle, les
| |
| | |
| intellectuels rompent avec cette vision idéale pour conclure que ***les
| |
| | |
| données correspondent avant tout à une construction du chercheur,
| |
| | |
| construction sociale puisqu’elle est située dans le temps et dans
| |
| | |
| l’espace***. En effet, les débats sociaux, politiques, idéologiques...
| |
| | |
| sont influents si bien que les données sont tout sauf données mais bien
| |
| | |
| construites et mise en scène par le chercheur en fonction de l’époque et
| |
| | |
| du lieu où il se trouve.
| |
| | |
| - C’est pourquoi on parle de processus, la construction de donnée
| |
| | |
| n’étant jamais définitivement terminée.
| |
| | |
| <nowiki>###</nowiki> Statistiques et sciences sociales
| |
| | |
| Enfin, ***le passé commun des statistiques et des sciences sociales***
| |
| | |
| est à prendre en compte, bien qu’elles se soient progressivement
| |
| | |
| différenciées puis institutionnalisées séparément. C’est pourquoi les
| |
| | |
| statistiques ont dû ***importer des savoirs qu’il a fallu adapter*** au
| |
| | |
| mieux pour l’usage nouveau qu’il en était lors fait. Par exemple, les
| |
| | |
| chercheurs travaillent encore aujourd’hui sur le concept de base de
| |
| | |
| l’échantillonnage, bien qu’il ait été complexifié depuis. Les
| |
| | |
| statistiques se sont beaucoup développées si bien que maintenant, nous
| |
| | |
| sommes dans un travail d’importation de connaissances depuis une autre
| |
| | |
| discipline.
| |
| | |
| C’est pourquoi il est important de travailler sur les connaissances et
| |
| | |
| leur histoire afin de mieux comprendre l’appropriation qu’il en a été
| |
| | |
| fait. L’étude des méthodes est d’ailleurs possible uniquement sur la
| |
| | |
| base de recherches spécifiques, comme l’explique Auguste Comte :
| |
| | |
| « La méthode n’est pas susceptible d’être étudiée séparément des
| |
| | |
| recherches où elle est employée ; ou, du moins ce n’est là qu’une
| |
| | |
| <nowiki>**</nowiki>étude morte**, incapable de féconder l’esprit qui s’y livre ».
| |
| | |
| En effet, il postule que les méthodes doivent être réfléchies en
| |
| | |
| fonction du terrain d’enquête et que par conséquent, des méthodes
| |
| | |
| abstraites, dénuées de tout fondements empiriques sont inutiles. C’est
| |
| | |
| pourquoi ***les méthodes ne peuvent être développées que par le biais de
| |
| | |
| recherches spécifiques***. C’est également ce que plaide Pierre
| |
| | |
| Bourdieu :
| |
| | |
| « Ceux qui portent un souci méthodologique jusqu’à l’obsession font en
| |
| | |
| effet songer à ce malade dont parle Freud, et qui passait tout son temps
| |
| | |
| à essuyer ses lunettes sans jamais les chausser ».
| |
| | |
| <nowiki>###</nowiki> Unicité VS pluralité des chemins
| |
| | |
| Enfin, ***il ne faut pas penser que les méthodes qualitatives et les
| |
| | |
| méthodes quantitatives sont opposées***. Il existe une pluralité de
| |
| | |
| méthodes, les méthodes quantitatives et qualitatives comme approches
| |
| | |
| dominantes, mais également d’autres méthodes comme les méthodes
| |
| | |
| exploratoires ou confirmatoires. Toutefois, chacune se différencie des
| |
| | |
| autres au travers d’un aspect spécifique, comme les méthodes
| |
| | |
| quantitatives reposant sur la statistique de base.
| |
| | |
| <nowiki>#</nowiki> Histoire et développements des méthodes quantitatives en sciences sociales
| |
| | |
| On ne veut pas se laisser uniquement guider par les méthodes et les
| |
| | |
| données. On n’a pas l’idée que les chiffres parlent d’eux-mêmes et
| |
| | |
| qu’ils détiennent la vérité. D’autant plus, les observations ne sont
| |
| | |
| pas suffisantes pour comprendre la réalité sociologique. Par exemple,
| |
| | |
| les enfants de famille monoparentale aux USA réussissent moins bien leur
| |
| | |
| parcours scolaire. Cela s’explique par différentes interprétations. Si
| |
| | |
| on vise à trouver une hypothèse, il serait nécessaire de faire une
| |
| | |
| comparaison avec l’Europe pour tenter d’en savoir plus.
| |
| | |
| - Les chiffres ne parlent pas d’eux-mêmes et il est difficile de ne
| |
| | |
| pas tomber dans ce piège surtout lors de grandes enquêtes.
| |
| | |
| Un grand nombre d’outils sont élaborés à l’extérieur des sciences
| |
| | |
| sociales et cela pose problème. L’effet de cette externalisation est que
| |
| | |
| les outils ne sont pas toujours adaptés aux problèmes.
| |
| | |
| - Mise en perspective est nécessaire quant aux méthodes puisqu’elles
| |
| | |
| construisent la réalité.
| |
| | |
| <nowiki>##</nowiki> La relation entre les sciences sociales et les statistiques
| |
| | |
| On est face à un phénomène social complexe. La statistique donne des
| |
| | |
| formules et des chiffres pour pouvoir interpréter la réalité. Sauf que
| |
| | |
| les deux domaines sont intimement liés. Les sciences sociales et
| |
| | |
| statistiques sont nées des préoccupations communes. Les statistiques,
| |
| | |
| l’arithmétique politique et les mathématiques se sont développés puis,
| |
| | |
| on voit émerger leur institutionnalisation sauf qu’au lieu de devenir
| |
| | |
| une discipline spécifique des sciences sociales, elles se rapprochent
| |
| | |
| des sciences mathématiques. Cela a des implications, à savoir que
| |
| | |
| l’origine des statistiques ne peut être fixé à une date précise. Les
| |
| | |
| données chiffrées proviennent de la Chine, d’Egypte et des Incas. En
| |
| | |
| Europe, ces données deviennent centrales au XVI<nowiki><sup>ème</sup></nowiki> et c’est à
| |
| | |
| cette époque que les mathématiques commencent à dominer le monde. On
| |
| | |
| commence à systématiser le phénomène de la nature et on souhaite la
| |
| | |
| mesurer comme en astronomie. Quant aux statistiques, elles sont nées
| |
| | |
| dans le contexte du XVII<nowiki><sup>ème</sup></nowiki>. A l’origine du mot, il y a le
| |
| | |
| <nowiki>*</nowiki>Staat* et cela montre le lien entre la construction des Etats nations
| |
| | |
| et le développement des statistiques. Du coup, compter les hommes et les
| |
| | |
| ressources industrielles est central dans le processus de construction
| |
| | |
| et de consolidation de l’Etat. La statistique descriptive était
| |
| | |
| responsable de récolter des données économiques et démographiques de
| |
| | |
| manière systématique.
| |
| | |
| Le contexte politique n’est pas le seul qui contribue au développement
| |
| | |
| de la statistique. Le contexte scientifique est en explosion avec les
| |
| | |
| mathématiques qui deviennent une discipline majeure des sciences. De
| |
| | |
| plus, on est dans un contexte philosophique avec les Lumières qui
| |
| | |
| apportent l’idée du progrès avec les sciences. Le contexte social et
| |
| | |
| économique ; on est au début de l’industrialisation qui va apporter des
| |
| | |
| changements profonds de la société. En même temps, l’industrialisation
| |
| | |
| apporte des outils qui vont booster les statistiques comme l’imprimerie
| |
| | |
| qui va permettre de diffuser l’information.
| |
| | |
| <nowiki>###</nowiki> Empires, Etats et statistique
| |
| | |
| De plus, ces savoirs statistiques précoces sont différents de leurs
| |
| | |
| préoccupations et de leurs domaines en fonction des différents
| |
| | |
| Etats-nations où ils émergent. Ces savoirs sont d’origine et de formes
| |
| | |
| différents selon les États et la manière dont ceux-ci sont construits et
| |
| | |
| articulés dans la société. En Allemagne, la tâche principale est de
| |
| | |
| connaître ces Etats, ces ressources et ses difficultés. On assiste à une
| |
| | |
| tradition de description globale des Etats. En France, on souhaitait une
| |
| | |
| administration forte et un pouvoir royal fort. Dans ce contexte, on
| |
| | |
| souhaite avoir des statistiques descriptifs de l’Etat ; au service du
| |
| | |
| pouvoir royal. En GB, on a un autre fonctionnement, à savoir qu’il y a
| |
| | |
| une bourgeoise émergente qui est relativement autonome et du coup, la
| |
| | |
| statistique vise à mesurer la population et le bien-être de la
| |
| | |
| population (alcoolémie). Cela devient une statistique plus analytique
| |
| | |
| qui essaie de comprendre ce phénomène et c’est focalisé sur des groupes
| |
| | |
| spécifiques.
| |
| | |
| On est face à deux types de statistiques qui se développe :
| |
| | |
| - Au service de *l’Etat *: aide à la décision politique avec une
| |
| | |
| « comptabilité nationale » (ALL et FRA)
| |
| | |
| - Au service de la *société *: montrer les inégalités et les
| |
| | |
| difficultés sociales, exercer des pressions politiques (GB)
| |
| | |
| Dans les 2 cas, la statistique devient un instrument puissant qui sert
| |
| | |
| comme en ALL et en FRA en tant qu’outil de rationnaliser la décision
| |
| | |
| politique. Des décisions prouvées par les faits comme on pensait à
| |
| | |
| l’époque et on développe <nowiki><span class="underline">la théorie des</nowiki>
| |
| | |
| erreurs<nowiki></span></nowiki> pour juger le degré de certitude d’un résultat trouvé. En
| |
| | |
| GB, grâce à la statistique qui est au service de la société,
| |
| | |
| l’arithmétique politique émerge. Elle est l’ancêtre des méthodes
| |
| | |
| quantitatives puisqu’on commence à mesurer des phénomènes sociaux. C’est
| |
| | |
| une constellation historique particulière qui favorise ce développement,
| |
| | |
| marqué par des changements politiques et sociaux majeurs. Ces derniers
| |
| | |
| sont combinés entre une bourgeoisie intellectuelle et plus autonome par
| |
| | |
| rapport à l’Etat. Ce contexte provoque une curiosité intellectuelle pour
| |
| | |
| comprendre la situation anglaise. Dans ce contexte, F. Bacon portait une
| |
| | |
| vision humaniste et souhaitait améliorer la vision sociale de la
| |
| | |
| société. Il avait une influence sur l’arithmétique politique car il
| |
| | |
| prenait une observation rigoureuse dans toutes les disciplines,
| |
| | |
| organisation systématique de recherche et une démarche inductive
| |
| | |
| (qualitative) et il pensait toujours dans l’idée d’observation qui
| |
| | |
| permettait selon lui de trouver la vérité. Encore, W. Petty est perçu
| |
| | |
| comme le fondateur de l’arithmétique politique. Le principe de base de
| |
| | |
| Petty était le suivant :
| |
| | |
| « La méthode que j’emploie n’est pas encore très commune car, au lieu de
| |
| | |
| me servir seulement des termes, comparatifs et superlatifs, et
| |
| | |
| d’arguments purement intellectuels, j’ai adopté la méthode qui
| |
| | |
| consiste à s’exprimer en termes de nombres, poids et mesures ; et
| |
| | |
| d’utiliser uniquement des arguments observables, et de considérer
| |
| | |
| uniquement de telles causes comme ayant un fondement visible dans la
| |
| | |
| nature ; laissant ceux qui dépendent d’idées variables, opinions,
| |
| | |
| appétits intellectuels, et passions à la considérations des autres ».
| |
| | |
| <nowiki>##</nowiki> Etude de la société et statistique
| |
| | |
| <nowiki>###</nowiki> Arithmétique politique : logique de la démarche
| |
| | |
| Idée de base est passer par des observations quantifiées, rigoureuses et
| |
| | |
| objectives. Donc on veut objectiver la réalité à partir de l’observation
| |
| | |
| pour entrer dans le monde de la science. Avec cette démarche, l’anatomie
| |
| | |
| sociale est utile pour cerner l’état de la population, la santé
| |
| | |
| publique, alcoolémie et la criminalité au moyen d’enquêtes sociales. Le
| |
| | |
| but de la recherche étant de découvrir des lois sociales par des
| |
| | |
| observations neutres et des enquêtes. Donc on veut se rapprocher des
| |
| | |
| sciences naturelles. On souhaite comptabiliser des phénomènes sociaux en
| |
| | |
| découvrant des régularités et ce, en procédant par une démarche
| |
| | |
| inductive dans une visée explicative.
| |
| | |
| Süssmilch était un pionner de la diffusion de l’arithmétique politique
| |
| | |
| sur le continent : « observation des grandes masses est la voie de la
| |
| | |
| connaissance des régularités de phénomènes paraissant aléatoires ».
| |
| | |
| <nowiki>###</nowiki> Arithmétique politique se développe
| |
| | |
| <nowiki>**</nowiki>Arithmétique **: comptabiliser les phénomènes sociaux mais aussi
| |
| | |
| tenter de les expliquer par l’inductif pour découvrir des régularités
| |
| | |
| sociales, c’est-à-dire des lois sociales.
| |
| | |
| Puis, ces idées deviennent encore plus centrales et se développent. On
| |
| | |
| assiste à une multiplication des descriptions sur toujours plus de
| |
| | |
| groupes et de problèmes sociaux différents. Volonté d’entrer dans le
| |
| | |
| domaine de la science par la production de vérité et d’information
| |
| | |
| objective. Au sein de l’Etat, on se rend compte de la nécessité des
| |
| | |
| statistiques dans tous domaines de l’activité des Etats : création
| |
| | |
| d’offices statistiques et formation statistique des fonctionnaires
| |
| | |
| pour répondre aux besoins de l’administration. Instauration de
| |
| | |
| recensements réguliers et réflexion plus poussé sur la méthodologie,
| |
| | |
| c’est-à-dire analyses et méthodes, innovations techniques pour
| |
| | |
| collecter et présenter des données. On développe des questionnaires et
| |
| | |
| des sondages ; la première utilisation du questionnaire date de la fin
| |
| | |
| du XVIII<nowiki><sup>ème</sup></nowiki> quand Davis a mené une enquête sur le budget des
| |
| | |
| travailleurs agricoles.
| |
| | |
| Sauf qu’il faut attendre encore 40 ans pour remarquer un début de
| |
| | |
| volonté d’institutionnalisation des sciences sociales et de la
| |
| | |
| statistique. Dans ce contexte se glisse l’idée de l’*homme moyen*
| |
| | |
| développé par Quételet. On souhaite désormais étendre l‘usage des
| |
| | |
| mathématiques à toute dimension de la société. Il note que pour
| |
| | |
| beaucoup de phénomènes sociaux, les proportions restent stables dans le
| |
| | |
| temps (suicide, alcool). Donc les phénomènes sociaux sont régis par des
| |
| | |
| lois analogues à la physique et les méthodes statistiques permettraient
| |
| | |
| de les découvrir en restant toujours dans une logique déterministe.
| |
| | |
| - Idée centrale, c’est que l’homme moyen permet de caractériser et
| |
| | |
| comprendre les lois régissant le système social. Donc les moyens
| |
| | |
| deviennent des causes constantes tandis que les lois et les
| |
| | |
| variations, des causes accidentelles. Quételet introduit les
| |
| | |
| probabilités et les chances en sciences sociales.
| |
| | |
| - Les sciences sociales et statistiques ont un destin commun, trouvé
| |
| | |
| avec développement de l’arithmétique politique, se poursuit avec
| |
| | |
| l’entrée toujours plus poussée de l’entrée des mathématiques.
| |
| | |
| <nowiki>##</nowiki> Sciences sociales et statistique
| |
| | |
| <nowiki>###</nowiki> Différenciation et institutionnalisation (fin 19<nowiki><sup>ème</sup></nowiki>)
| |
| | |
| Au terme de ce long processus, les statistiques s’institutionnalisent à
| |
| | |
| la fin 19<nowiki><sup>ème</sup></nowiki> siècle, passant aussi par une complexification
| |
| | |
| de l’outil, notamment les probabilités. C’est le début de ***la
| |
| | |
| statistique moderne***. C’est à ce moment-là que la *statistique
| |
| | |
| inférentielle*, la régression, l’échantillonnage et les méthodes
| |
| | |
| représentatives émergent, techniques toujours utilisées aujourd’hui. De
| |
| | |
| plus, les biais cherchent à être compris et pris en compte pour qu’ils
| |
| | |
| affectent au minimum les résultats obtenus. ***On assiste à la
| |
| | |
| progressive séparation des diverses branches des sciences sociales,
| |
| | |
| notamment avec Auguste de Comte, portant le projet de constituer la
| |
| | |
| sociologie comme discipline à part*** et ce, en se basant sur la
| |
| | |
| philosophie positiviste de Saint-Simon.
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> Divorce consommé
| |
| | |
| On assiste alors au rejet de la mathématique sociale du passé afin
| |
| | |
| d’adapter les mathématiques à la compréhension du social. En effet, la
| |
| | |
| loi sociale, soutenue par certains chercheurs, fut vivement combattue
| |
| | |
| par la majorité (Mill, Comte, Durkheim...). L’idée émerge alors que ce
| |
| | |
| n’est pas les mathématiques qui pourront transformer la science du
| |
| | |
| social en science dure. ***Pour Mill comme pour Comte, la sociologie est
| |
| | |
| une science déductive et non inductive comme l’induisait la méthode
| |
| | |
| chiffrée***. Il s’agit dès lors de développer des théories au travers
| |
| | |
| desquelles il est possible d’aller étudier le monde social. Max Weber,
| |
| | |
| grand sociologue, explique que la sociologie se doit aussi d’être
| |
| | |
| compréhensive, c’est à dire qu’elle est la science qui comprend par
| |
| | |
| interprétation le monde social. Ainsi, ***la sociologie et la
| |
| | |
| statistique se séparent. Malgré tout, les nombres restent utilisés dans
| |
| | |
| les recherches sociologiques pour démontrer les faits avérés. C’est
| |
| | |
| pourquoi on ne peut considérer ce divorce comme absolu***. Toutefois,
| |
| | |
| pendant des années, une véritable guerre a eu lieu entre les tenants des
| |
| | |
| approches quantitatives et ceux des approches qualitatives. Aujourd’hui,
| |
| | |
| cette opposition est révolue et les recherches sociologiques combinent
| |
| | |
| alternativement les deux méthodes, chacune permettant de saisir et de
| |
| | |
| comprendre des aspects différents de la réalité sociale.
| |
| | |
| <nowiki>***</nowiki>Les chiffres ont ancré les sciences sociales dans les sciences***. En
| |
| | |
| effet, les chiffres ont permis aux sciences sociales d’acquérir un degré
| |
| | |
| de scientificité, de positivisme leur permettant de prétendre à
| |
| | |
| l’appellation de « sciences ». C’est aussi le chiffre qui a permis
| |
| | |
| l’institutionnalisation de ces disciplines au sein des universités.
| |
| | |
| <nowiki>###</nowiki> Un passé commun aux conséquences importantes
| |
| | |
| <nowiki>**</nowiki>« Ancrage des sciences sociales dans les sciences »**
| |
| | |
| - Sciences sociales à l’image des sciences physiques
| |
| | |
| - Arithmétique/Mathématique sociale : « Physique du social »
| |
| | |
| - Philosophie positiviste (A. Comte) : Connaissance de phénomènes et
| |
| | |
| de faits (≠science morale)
| |
| | |
| - Moyenne, régularités, lois, probabilités
| |
| | |
| <nowiki>**</nowiki>Logique de la démarche**
| |
| | |
| - Observation systématique
| |
| | |
| - Objectiver des faits et phénomènes sociaux
| |
| | |
| - Observation sur le grand nombre
| |
| | |
| - Méthodes quantitatives : rôle particulier pour ancrer les sciences
| |
| | |
| sociales dans le bastion des sciences
| |
| | |
| <nowiki>##</nowiki> Développement des recherches empiriques
| |
| | |
| <nowiki>###</nowiki> Développement sur sol étasunien et Ecole de Chicago (1920-1940)
| |
| | |
| Ce qu’il considère comme « données » sont les données chiffrées que l’on
| |
| | |
| nomme « hard date » en opposition aux données issues des méthodes
| |
| | |
| qualitatives, nommées « soft data ». ***Alors que les premiers débats
| |
| | |
| sur les statistiques et ses premières avancées méthodologiques se
| |
| | |
| développent en Europe, la guerre, entrainant la migration de nombreux
| |
| | |
| penseurs, fera que la suite du développement des méthodes quantitatives
| |
| | |
| se déroulera sur le sol étasunien***. C’est le cas de Lazarsfeld, qui
| |
| | |
| sera le détenteur de la première chair universitaire en méthodes
| |
| | |
| quantitatives à l’université de Columbia. Premièrement, c’est l’Ecole de
| |
| | |
| Chicago qui développe de grandes enquêtes sociales basées sur l’usage
| |
| | |
| des méthodes qualitatives. Puis de nombreux chercheurs combinent les
| |
| | |
| méthodes qualitatives et quantitatives pour mieux appréhender les
| |
| | |
| phénomènes sociaux avant qu’une séparation nette n’intervienne. ***Paul
| |
| | |
| Lazarsfled*** importera les statistiques dans les sciences sociales. En
| |
| | |
| publiant son ouvrage majeur, « The people Choice », il illustrera
| |
| | |
| l’importance de l’usage de ces méthodes en sociologie. C’est aussi à
| |
| | |
| ce moment-là où le béhaviorisme se développe aux USA, théorie postulant
| |
| | |
| que seuls les faits observables peuvent expliquer le monde sensible.
| |
| | |
| <nowiki>###</nowiki> Demande forte de recherche en sciences sociales
| |
| | |
| Cet essor des méthodes quantitatives est dû à l’histoire. ***Après la
| |
| | |
| seconde guerre mondiale, la demande pour comprendre ce qui s’est passé
| |
| | |
| est énorme***. Comment expliquer que l’Allemagne, pays de la culture, de
| |
| | |
| la musique... est pu basculer dans cette horreur ? C’est également après
| |
| | |
| la guerre que la ***psychologie expérimentée*** émerge, avec notamment
| |
| | |
| Milgram et son expérience sur la soumission à l’autorité. En effet, les
| |
| | |
| méthodes en sciences sociales doivent beaucoup à la psychologie. C’est
| |
| | |
| aussi le moment où nait le sondage aux Etats-Unis, développant une
| |
| | |
| méthodologie de constitution d’échantillonnage très fine avec pour but
| |
| | |
| premier de prédire les résultats électoraux.
| |
| | |
| Enfin, ***le développement de l’informatique a joué un rôle
| |
| | |
| important***. Ce nouvel outil a fortement facilité le travail de
| |
| | |
| dépouillement des sondages, en travaillant notamment sur de grandes
| |
| | |
| bases de données. La démocratisation de l’informatique dans les années
| |
| | |
| 1965, notamment avec des logiciels comme SPSS, a beaucoup aidé les
| |
| | |
| méthodes quantitatives à se développer. On trouve alors ***les premiers
| |
| | |
| ouvrages méthodologiques***, notamment celui de Lazarslfed ou encore de
| |
| | |
| Blacklock. Mais ***ce qui a le plus fait évoluer à la fois les méthodes
| |
| | |
| qualitatives que les méthodes quantitatives, c’est la séparation nette
| |
| | |
| qui avait été faites entre elles, devant perpétuellement surpasser sa
| |
| | |
| rivale pour gagner en légitimité***.
| |
| | |
| - Toutefois, la colère gronde chez les sociologues pour qui l’usage
| |
| | |
| exclusif des méthodes quantitatives dans les recherches était
| |
| | |
| réducteur, voire catastrophique. Aujourd’hui, les méthodes
| |
| | |
| quantitatives sont toujours prédominantes, surtout en politique et
| |
| | |
| psychologie, bien que ***depuis les années 2000, la tendance est à
| |
| | |
| une combinaison toujours plus équitable des deux approches***.
| |
| | |
| <nowiki>##</nowiki> Résumé
| |
| | |
| - Les méthodes quantitatives ont été utilisées en sociologie dans le
| |
| | |
| but d’en faire une science à l’image des sciences naturelles d’où
| |
| | |
| les termes parfois utilisés (corps social).
| |
| | |
| - Pour se faire, les chercheurs ont tenté de dégager des lois sociales
| |
| | |
| absolues, comme la loi de la gravité de Newton.
| |
| | |
| - Cette crédulité totale sur le chiffre est toujours présente bien
| |
| | |
| qu’il faille s’en méfier.
| |
| | |
| - Alors que de nombreux chercheurs des années 1950 étaient formés à la
| |
| | |
| fois en statistiques et en sciences sociales, cette double formation
| |
| | |
| est aujourd’hui très rare. C’est pourquoi un important travail
| |
| | |
| d’importation des savoirs doit être fait de manière rigoureuse
| |
| | |
| pour les adaptées à la discipline d’accueil.
| |
| | |
| - Les méthodes quantitatives sont omniprésentes dans notre société,
| |
| | |
| d’où l’importance de connaître ces méthodes pour développer un
| |
| | |
| regard critique et échapper à l’illusion du chiffre.
| |
| | |
| - Les méthodes quantitatives et qualitatives ont un passé commun.
| |
| | |
| <nowiki>#</nowiki> Méthodes quantitatives et qualitatives : des épistémologies distinctes ?
| |
| | |
| <nowiki>**</nowiki>Résumé précédent**
| |
| | |
| 1. La statistique et les sciences sociales ont un passé commun avec
| |
| | |
| l’idée d’une arithmétique politique qui a permis à l’Etat de
| |
| | |
| connaître ses effectifs et ses ressources. C’était surtout
| |
| | |
| descriptif en comptant les phénomènes et non les expliquer. Viser à
| |
| | |
| un statut de science comme la physique ou l’astronomie.
| |
| | |
| 2. Différenciation de ces deux branches avec l’intrusion des
| |
| | |
| mathématiques. On ne parle plus d’arithmétique politique mais on
| |
| | |
| l’appelle la mathématique sociale. La différence est l’idée de la
| |
| | |
| probabilité et l’incertitude tout comme pleins d’outils techniques
| |
| | |
| qui se complexifient.
| |
| | |
| 3. Sciences sociales s’émancipent en établissant leur propre démarche,
| |
| | |
| à savoir la déduction et puis appropriation des méthodes
| |
| | |
| quantitatives au travers de la psychologie notamment.
| |
| | |
| <nowiki>##</nowiki> Les méthodes vont au-delà de la simple récolte de données
| |
| | |
| L’épistémologie, à savoir la théorie de la connaissance s’intéresse à
| |
| | |
| savoir de comment produire des connaissances scientifiques.
| |
| | |
| « Lorsque nous parlons de méthodologies « quantitatives » ou
| |
| | |
| « qualitatives », nous sommes en train de parler d’un ensemble de
| |
| | |
| postulats sur le monde social qui sont à la fois philosophiques,
| |
| | |
| idéologiques et épistémologiques. Elles vont donc au-delà des simples
| |
| | |
| techniques de récolte des donnée ». Cette citation de Rist explique que
| |
| | |
| les méthodes quantitatives sont plus qu’une simple production
| |
| | |
| d’informations qualitatives et qu’elles sont plus que des chiffres.
| |
| | |
| Certes, il y a une production de données chiffres mais ce n’est que la
| |
| | |
| pointe de l’iceberg. Avant tout, on construit des données et cela repose
| |
| | |
| sur une conception particulière des sciences sociales et du monde et qui
| |
| | |
| tente seulement de se rapprocher à la réalité. Avec n’importe quelle
| |
| | |
| approche, les données récoltées montrent qu’un extrait de la réalité. Le
| |
| | |
| plus souvent, les méthodes quantitatives prennent la démarche déductive
| |
| | |
| en validant les données. Cette approche a une manière distincte de
| |
| | |
| concevoir la réalité sociologique et de la reproduire.
| |
| | |
| <nowiki>##</nowiki> Les méthodes reposent sur des postulats philosophiques spécifiques
| |
| | |
| Pour illustrer que les postulats et que les méthodes influencent notre
| |
| | |
| regard, on prend comme exemple ces images. Les postulats des méthodes
| |
| | |
| influencent notre regard, nos résultats et notre compréhension du monde
| |
| | |
| social. Une description reste abstraite et on va l’illustrer par le
| |
| | |
| biais d’un exemple. Pour sa thèse, le professeur a récolté des données
| |
| | |
| de sondage et d’entretiens. Par la récolte de données quantitatives, les
| |
| | |
| militants avaient la même vision du monde tandis qu’avec l’analyse
| |
| | |
| qualitative des entretiens, chaque militant était singulier. Il y a donc
| |
| | |
| des résultats distincts voire contradictoires entre ces deux types de
| |
| | |
| données. Ainsi, les deux méthodes posent des questions distinctes et des
| |
| | |
| buts différents pour dépasser cette frustration initiale.
| |
| | |
| <nowiki>###</nowiki> Pilier structurant : quête des faits – positivisme
| |
| | |
| - Quelles sont les jumelles particulières des types de méthode ?
| |
| | |
| Pour la démarche **quantitative**, le positivisme est un des piliers
| |
| | |
| structurant. Le positivisme repose sur l’idée que la science peut
| |
| | |
| atteindre des vérités et donc progresser dans la connaissance en
| |
| | |
| observant des choses observables et en qualifiant ces choses comme
| |
| | |
| réelles. Saint Simon ou Comte sont des représentants importants de
| |
| | |
| cette démarche. A cette époque, les sciences sociales essaient de se
| |
| | |
| rapprocher des sciences naturelles pour obtenir le statut de vraie
| |
| | |
| science. Le positivisme qualifie ce qui est fondé sur l’expérience et
| |
| | |
| sur l’observation comme des faits réels. Il s’oppose à la théologie et
| |
| | |
| ce sont l’objectivité et la visibilité qui priment ; on veut se
| |
| | |
| rapprocher d’une réalité objective et concrète. La théorie qui en
| |
| | |
| découle se base uniquement sur la connaissance des faits et de
| |
| | |
| l’expérience scientifique. A cette idée s’associe aussi que le
| |
| | |
| chercheur reste neutre par rapport à son objet.
| |
| | |
| <nowiki>###</nowiki> Le positivisme
| |
| | |
| Au 19<nowiki><sup>ème</sup></nowiki>, le positivisme est le standard de connaissance,
| |
| | |
| c’est-à-dire que c’est le seul chemin « juste » de la science. C’est
| |
| | |
| le cas pour les sciences naturelles sauf qu’à l’époque où Comte voulait
| |
| | |
| élever les sciences sociales au rang de sciences, c’était la seule voie
| |
| | |
| possible pour les sciences sociales. On voulait décrire les phénomènes
| |
| | |
| sociaux comme des phénomènes naturels avec une description objective des
| |
| | |
| faits (neutralité) et cet objectivisme est la voie unique des
| |
| | |
| connaissances en passant par la régularité de phénomènes aléatoires (par
| |
| | |
| exemple avec la criminalité pour voir si ce taux change dans le temps et
| |
| | |
| pour prendre des mesures politiques par la suite). Pour l’arithmétique
| |
| | |
| politique, on avait pour but de trouver des lois sociales au même titre
| |
| | |
| que les sciences naturelles.
| |
| | |
| Pour Comte, « maintenant que l’esprit humain a fondé la physique
| |
| | |
| céleste, la physique terrestre, soit mécanique, soit chimique ; la
| |
| | |
| physique organique, soit végétale ou animale, il lui rester à terminer
| |
| | |
| le système des sciences et d’observation en fondant la physique sociale.
| |
| | |
| Tel est aujourd’hui le plus pressent besoin de notre intelligence. » Il
| |
| | |
| a établi des caractéristiques dont les traces sont encore visibles. Les
| |
| | |
| sciences sociales adoptent le langage des sciences naturelles, on
| |
| | |
| commence à parler de variables, d’indices, de mesures, de
| |
| | |
| l’expérimentation ou encore de systèmes causaux et bien d’autres
| |
| | |
| concepts. Ce langage mais aussi la manière à conduire des recherches
| |
| | |
| imitent le modèle des sciences naturelles.
| |
| | |
| Avec une démarche hypothético-déductive, on est dans une approche où la
| |
| | |
| théorie prime, c’est-à-dire en construisant un modèle théorique puis en
| |
| | |
| allant par la suite le confronter à la réalité. Par ce biais, on
| |
| | |
| construit des outils de récolte de données qui sont informés par la
| |
| | |
| théorie appliquée et qui laisse peu de place pour poser d’autres
| |
| | |
| questions qui pourraient être importantes. Ce n’est qu’avec ce modèle
| |
| | |
| que des connaissances peuvent être fiables et robustes, selon cette
| |
| | |
| pensée.
| |
| | |
| - A la base de cette démarche, on souhaite découvrir des vérités et
| |
| | |
| atteindre l’objectivité. On voulait concurrencer le poids lourd des
| |
| | |
| Eglises.
| |
| | |
| <nowiki>##</nowiki> Problèmes généraux
| |
| | |
| Fortement inspiré par les sciences naturelles et cela génère des
| |
| | |
| problèmes. Une des conséquences c’est que c’est un **monisme
| |
| | |
| méthodologique**. Une seule approche est permise pour servir le monde
| |
| | |
| social avec des méthodes et procédures de recherches des sciences
| |
| | |
| naturelles qui sont importées dans les sciences sociales. Cette approche
| |
| | |
| est problématique car l’objet d’études en sciences sociales n’est pas
| |
| | |
| seulement abordable par des observations objectives puisqu’on regarde
| |
| | |
| des individus et des groupes sociaux qui interagissent. Ceci est une
| |
| | |
| particularité des sciences sociales qui nécessitent une autre démarche
| |
| | |
| philosophique et méthodologique pour les appréhender. D’autres approches
| |
| | |
| existent comme la démarche interprétative qui sont plus fiables.
| |
| | |
| Problème de **l’empirisme** ou le **phénoménalisme **: Le béhaviourisme
| |
| | |
| veut analyser les comportements politiques des individus. Ceci est
| |
| | |
| difficile en ne se basant que sur des phénomènes observables. La
| |
| | |
| démarche positiviste exclut l’incorporation des notions métaphysiques
| |
| | |
| comme l’expérience subjective par exemple. La construction du sens ou de
| |
| | |
| structures invisibles sont exclues de la démarche scientifique. Mais
| |
| | |
| comment expliquer l’abstention politique sans s’intéresser à la
| |
| | |
| perception politique du citoyen ? De telles questions sont importantes
| |
| | |
| actuellement où on voit des structures supranationales de plus en plus
| |
| | |
| menacées comme l’UE.
| |
| | |
| Focus sur les **régularités** et la quête après les **lois sociales**.
| |
| | |
| Si on se concentre uniquement sur les régularités, on néglige les
| |
| | |
| variations. Si on dédit des lois sociales à partir de l’homme moyen
| |
| | |
| comme Quételet, on écarte toutes connaissances sur des individus qui ne
| |
| | |
| sont pas des hommes moyens. Par exemple, les salaires entre hommes et
| |
| | |
| femmes ne sont souvent pas les mêmes. Donc on arrive à des conclusions
| |
| | |
| qui ne sont pas vraies pour les uns et les autres. Si on ne prend en
| |
| | |
| compte les variations, les lois sociales qui en découlent sont forcément
| |
| | |
| erronées.
| |
| | |
| <nowiki>**</nowiki>Déductivisme **: Cette quête suite aux régularités et lois sociales
| |
| | |
| est inscrite dans une démarche déductive pour trouver des relations
| |
| | |
| causales. On développe des hypothèses en amont à partir de cadres
| |
| | |
| généraux et théoriques qui sont ensuite testés empiriquement.
| |
| | |
| L’approche déductive est la seule démarche scientifique à cette
| |
| | |
| époque. C’était le chemin unique pour construire la connaissance et ça
| |
| | |
| ressemble beaucoup à la démarche de Popper qui disait que les sciences
| |
| | |
| ne pouvaient avancer que par validation/invalidation des paradigmes
| |
| | |
| (*Falsification des théories*). Le problème de la démarche déductive,
| |
| | |
| c’est que la recherche ne procède pas d’une manière linéaire mais
| |
| | |
| plutôt circulaire. Ainsi, il y a des dimensions difficilement
| |
| | |
| incluables dans la recherche. Dans la réalité, les théories s’élaborent
| |
| | |
| aussi à l’aide de la démarche déductive.
| |
| | |
| <nowiki>**</nowiki>Posture du chercheur **: penser que la recherche et le chercheur sont
| |
| | |
| neutres et objectives. Weber ou Popper pensaient que la recherche doit
| |
| | |
| se distancier des valeurs et avoir une position neutre. Ils pensaient
| |
| | |
| que la démarche scientifique est une démarche objective pouvant se
| |
| | |
| distancier des jugements et de valeurs et que la recherche ne doit pas
| |
| | |
| être contaminée par le profil personnel du chercheur. Sauf qu’une
| |
| | |
| observation n’est jamais neutre car les chercheurs sont historiquement
| |
| | |
| et socialement situés d’autant plus qu’ils appliquent des lunettes
| |
| | |
| conceptuelles.
| |
| | |
| - Le positivisme nous amène à une idée particulière de la science qui
| |
| | |
| est fortement critiquée dès les années 1960.
| |
| | |
| <nowiki>###</nowiki> Résumé des critiques
| |
| | |
| - Idée qu’il y a une seule et vraie méthode (monisme)
| |
| | |
| - Idée qu’on observe uniquement des choses visibles
| |
| | |
| - Phénomènes sociaux se comportement selon des régularités et que les
| |
| | |
| lois sont identifiables
| |
| | |
| - La démarche déductive est la seule voie scientifique
| |
| | |
| <nowiki>##</nowiki> Déductivisme
| |
| | |
| A partir du modèle type du déductivisme, on récolte des données pouvant
| |
| | |
| tester les hypothèses. Puis, l’analyse de ces données génère des
| |
| | |
| résultats de recherche qui permettent de valider ou de réfuter des
| |
| | |
| théories. Cependant, la réalité est nettement plus complexe et c’est le
| |
| | |
| cas pour les processus de recherche qui sont moins linéaires que ce
| |
| | |
| modèle. On est donc plutôt face à une circularité entre toutes ces
| |
| | |
| cases.
| |
| | |
| <nowiki>###</nowiki> Problèmes spécifiques
| |
| | |
| Dans une questionnaire ou entretien, on ne peut pas demander la classe
| |
| | |
| sociale des citoyens. Ce qu’on demande c’est la profession, le fait
| |
| | |
| d’avoir des responsabilités dans le travail ou sa propre perception de
| |
| | |
| son appartenance de classe ou encore d’autres indicateurs. Par ce
| |
| | |
| travail **d’opérationnalisation**, on peut avoir des résultats
| |
| | |
| différents.
| |
| | |
| Autre problème de cette démarche est la volonté de mettre les concepts
| |
| | |
| en relation, ceci avec l’idée des sciences naturelles. Or, hormis
| |
| | |
| l’expérimentation, il est difficile d’évaluer empiriquement des
| |
| | |
| relations causales pour des raisons évidentes : **l’expérimentation** en
| |
| | |
| science sociale n’est souvent **pas possible**. En sciences sociales, on
| |
| | |
| est souvent forcé d’argumenter théoriquement la direction de la
| |
| | |
| causalité. Par exemple, est-ce que c’est l’intérêt pour la politique
| |
| | |
| qui augmente la votation ? On ne sait pas exactement quel facteur
| |
| | |
| influence l’autre. Heureusement, il existe des techniques pour arriver
| |
| | |
| empiriquement à s’approcher d’une relation causale comme les panels
| |
| | |
| d’une part ou les expérimentations d’une autre. Sauf que ces choses
| |
| | |
| sont difficiles à mettre en place en raison de coûts ou de questions
| |
| | |
| éthiques. Avec certains, on peut faire des corrélations.
| |
| | |
| <nowiki>***</nowiki>La causalité est centrale dans la démarche quantitative***, puisqu’il
| |
| | |
| s’agit d’illustrer et d’expliquer un phénomène social. Cette volonté
| |
| | |
| découle de la vision durkheimienne du monde social, selon laquelle les
| |
| | |
| phénomènes sociaux doivent être traités comme des choses. Toutefois, il
| |
| | |
| est impossible d’atteindre une causalité véritable, corrélation n’étant
| |
| | |
| pas égal à causalité. Si on postule un lien de causalité entre X et Y,
| |
| | |
| ce qui est réellement important, c’est la flèche \! Et donc ***le lien
| |
| | |
| social*** qui relie deux éléments.
| |
| | |
| Un des points forts des méthodes quantitatives est la **généralisation**
| |
| | |
| et donc l’idée qu’à partir des échantillons représentatifs, on peut
| |
| | |
| tirer des informations sur l’ensemble de la population. Cette idée est
| |
| | |
| importée des sciences naturelles sauf que cette force est surestimée.
| |
| | |
| Dans la réalité, on est face à des échantillons spécifiques qui ont des
| |
| | |
| biais influencés par le tirage d’échantillon mais surtout la manière
| |
| | |
| dont les répondants participent. En science sociale, on utilise souvent
| |
| | |
| l’étude de cas à la base de laquelle il est difficile de généraliser
| |
| | |
| même avec une démarche quantitative. Une solution pour diminuer ce
| |
| | |
| problème est de multiplier les ancrages empiriques et comparer les
| |
| | |
| résultats similaires mais distants dans le temps et l’espace.
| |
| | |
| Multiplier les ancrages empiriques veut dire **réplication**. C’est un
| |
| | |
| autre concept importer des sciences naturelles où la même expérience
| |
| | |
| peut être facilement appliquée dans les laboratoires. Dans la
| |
| | |
| perspective de la recherche quantitative, cette dimension est impliquée.
| |
| | |
| La réplication permet d’être plus proche de la réalité sauf qu’une
| |
| | |
| réplication parfaite n’est pas possible puisqu’on n’est pas dans des
| |
| | |
| laboratoires en sciences sociales. La réplication est utile pour l’étude
| |
| | |
| des variations et de regarder si on retrouve les mêmes processus sociaux
| |
| | |
| dans des contextes étant différents.
| |
| | |
| Enfin, un dernier problème à prendre en compte lors de l’usage des
| |
| | |
| méthodes quantitatives, c’est le fait que ***l’individu représente le
| |
| | |
| point focal, l’unité d’analyse par excellence***. Les faits sociaux sont
| |
| | |
| donc déduits par le biais de l’agrégation de tous les individus. Mais
| |
| | |
| selon Durkheim, cette approche est problématique puisque ***le tout est
| |
| | |
| distinct de la somme de ses parties***. En négligeant le contexte, les
| |
| | |
| normes sociales en vigueur mais aussi les interactions, les résultats
| |
| | |
| peuvent en être gravement affectés. Pour résoudre ce dernier problème,
| |
| | |
| les chercheurs tentent actuellement de trouver un modèle
| |
| | |
| d’opérationnalisation pertinent.
| |
| | |
| <nowiki>###</nowiki> Que conclure ?
| |
| | |
| Les méthodes sont basées sur des présupposés qui orientent notre regard
| |
| | |
| social et la manière dont la démarche est faite aujourd’hui est toujours
| |
| | |
| influencée par cette approche. Cela permet d’avoir un regard réflexif.
| |
| | |
| Tous ces points critiques touchent de loin tous ces chercheurs. La
| |
| | |
| recherche quantitative connaît ses difficultés. Les problèmes de la
| |
| | |
| généralisation, de la réplication et de l’individualisme sont
| |
| | |
| aujourd’hui acceptés et fortement discutés. Il existe des réflexions
| |
| | |
| et des mesures sur les processus de recherche.
| |
| | |
| <nowiki>**</nowiki>En résumé :**
| |
| | |
| - Il représente toutefois le pilier des méthodes quantitatives, ayant
| |
| | |
| permis leur émergence.
| |
| | |
| - Le positivisme a grandement influencé la pratique des méthodes
| |
| | |
| quantitatives en sciences sociales, bien que cette influence diminue
| |
| | |
| avec le temps. On essaie actuellement de prendre en compte les
| |
| | |
| interactions, les relations, les normes... pour complexifier les
| |
| | |
| modèles et s’approcher toujours plus près de la réalité sociale.
| |
| | |
| - Bien que l’ambition première du positivisme fut la neutralité dans
| |
| | |
| les méthodes, cela n’existe pas empiriquement. C’est pourquoi le
| |
| | |
| chercheur doit prendre conscience de ses présupposés pour ne pas
| |
| | |
| tomber dans une analyse de type « loi sociale ».
| |
| | |
| - Le positivisme appliqué à la pratique de la recherche en sciences
| |
| | |
| sociales entraine de nombreux problèmes à résoudre.
| |
| | |
| - L’opérationnalisation est au centre de méthodes quantitatives. Il
| |
| | |
| s’agit de créer des catégories au sein du monde social, de mesurer
| |
| | |
| les phénomènes sociaux et d’y apposer des chiffres ...
| |
| | |
| - La démarche hypothéticodéductive, bien qu’aujourd'hui dépassée, a
| |
| | |
| jouer un rôle prépondérant dans l’émergence de ces méthodes.
| |
| | |
| <!-- end list -->
| |
| | |
| - ***Il faut donc prendre en compte les forces et les limites de cette
| |
| | |
| approche***.
| |
| | |
| <nowiki>##</nowiki> Méthodes qualitatives
| |
| | |
| Observation participant développée par Malinowski, les interviews
| |
| | |
| non-structurées, les récits de vie ou des focus group ont introduit une
| |
| | |
| plus forte variété dans le type de collectes de données que la démarche
| |
| | |
| quantitative qui est plus uniforme (positivisme). Les méthodes
| |
| | |
| qualitatives reposent sur deux piliers ; la **quête du sens** et
| |
| | |
| <nowiki>**</nowiki>l’analyse de structures invisibles**. Le développement de cette
| |
| | |
| approche se nourrit de réflexions critiques pré-existantes chez Comte,
| |
| | |
| Sorokin etc. mais c’est dans les années 1960 qu’on retrouve une
| |
| | |
| dimension plus critique des méthodes quantitatives. Les méthodes
| |
| | |
| qualitatives reposent sur une autre conception de la réalité sociales
| |
| | |
| grâce à des épistémologues qui ont décortiqué la démarche de recherche.
| |
| | |
| On est face à un virage intellectuel important en défrichant les
| |
| | |
| structures invisibles du monde social en prenant le point de vue du
| |
| | |
| sujet. Il n’y a plus d’idée de la neutralité.
| |
| | |
| <nowiki>##</nowiki> Traditions sociologiques
| |
| | |
| <nowiki>###</nowiki> Interprétation des acteurs
| |
| | |
| Pour interpréter les acteurs, d’autres démarches que la démarche
| |
| | |
| positiviste et quantitative sont nécessaires. Pour Weber, la sociologie
| |
| | |
| est la science qui se propose de comprendre par l’interprétation
| |
| | |
| l’activité sociale et par là, d’expliquer causalement ses causes et
| |
| | |
| ses effets. Il voulait saisir le sens et la subjectivité de l’acteur et
| |
| | |
| il se demande comment l’acteur comprend la situation sociale. C’est dans
| |
| | |
| cette démarche que s’inscrivent d’autres auteurs comme Foucault ou
| |
| | |
| Derrida.
| |
| | |
| <nowiki>###</nowiki> Structures invisibles du monde social
| |
| | |
| La tradition wébérienne met l’accent sur l’interprétation tandis que la
| |
| | |
| <nowiki>**</nowiki>tradition phénoménologique** a ses sources en Allemagne avec Hegel ou
| |
| | |
| Husserl. Ce dernier propose un programme qui souhaite analyser les bases
| |
| | |
| du monde social. La phénoménologie signifie de saisir par description
| |
| | |
| l’expérience subjective du monde et des acteurs sociaux. L’étude des
| |
| | |
| structures de sens et de construction que les individus ou groupes
| |
| | |
| sociaux utilisent pur rendre le monde social intelligible est chargé de
| |
| | |
| sens. Ce sont ces constructions qui permettent de comprendre le monde
| |
| | |
| social, de se situer en tant qu’individus ou groupes puis d’agir en
| |
| | |
| fonction de cette interprétation. C’est le contraire du béhaviorisme qui
| |
| | |
| cherche des stimuli externes aux groupes et aux individus ainsi qu’aux
| |
| | |
| observations visibles pour comprendre l’observation.
| |
| | |
| <nowiki>###</nowiki> Interactionnisme symbolique
| |
| | |
| C’est une approche d’origine des sciences sociales et elle est fortement
| |
| | |
| associées à George Herbert Mead. C’est une approche proche de la
| |
| | |
| démarche wébérienne et de la phénoménologie. Pour Mead, il faut saisir
| |
| | |
| la définition de la situation avant l’acte et ainsi comprendre
| |
| | |
| l’interprétation que les individus s’en font. Il faut également
| |
| | |
| saisir la définition comme acteur social en comprenant la définition et
| |
| | |
| l’interaction. Ces interprétations changent en fonction des interactions
| |
| | |
| sociales et en fonction des interactions entre les individus eux-mêmes.
| |
| | |
| Goffman montre comment la présentation de soi peut varier selon le
| |
| | |
| cadre. Cela change en fonction des situations d’interactions. Les
| |
| | |
| interactions transforment le sens.
| |
| | |
| <nowiki>###</nowiki> Opposés au positivisme
| |
| | |
| Beaucoup de chose oppose les méthodes qualitatives des méthodes
| |
| | |
| quantitatives. Les méthodes qualitatives...
| |
| | |
| - Postule que ***l’individu est pensant, et c’est cette subjectivité
| |
| | |
| mais aussi l’intersubjectivité qui en découle qu’il faut saisir***.
| |
| | |
| - En effet, l’individu est en interaction constante avec lui-même et
| |
| | |
| les autres, et ***c’est de l’intersubjectivité produite que découle
| |
| | |
| l’action***. Le but de la démarche est de comprendre les structures
| |
| | |
| mentales subjectives des individus.
| |
| | |
| - ***Le contexte joue un rôle important puisqu’il façonne
| |
| | |
| l’interaction***.
| |
| | |
| Ainsi, les méthodes qualitatives travaillent principalement sur ***le
| |
| | |
| monde subjectif*** vécu par les acteurs sociaux. C’est pourquoi on
| |
| | |
| adopte davantage une ***démarche compréhensive et interprétative***.
| |
| | |
| Toutefois, les méthodes qualitatives se sont distancées des postulats de
| |
| | |
| Weber, selon qui il fallait réussir à appréhender le monde au travers
| |
| | |
| des yeux des individus étudiés. La neutralité axiologique n’existante
| |
| | |
| pas, la ***description des faits sociaux*** (à la Geertz) joue alors un
| |
| | |
| rôle fondamental, tout comme les efforts de ***contextualisation***,
| |
| | |
| permettant de comprendre les acteurs sociaux dans leur milieu. Alors que
| |
| | |
| les méthodes quantitatives sont à la traine sur ce point, les méthodes
| |
| | |
| qualitatives permettent d’élaborer des concepts au fur et à mesure et
| |
| | |
| donc permettent une meilleure compréhension des phénomènes dans le
| |
| | |
| temps. En effet, la flexibilité théorique est au cœur des méthodes
| |
| | |
| qualitatives (exemple : La Grounded Theory).
| |
| | |
| <nowiki>##</nowiki>
| |
| | |
| <nowiki>##</nowiki> Logique de la démarche qualitative
| |
| | |
| Examiner les structures de sens, examiner ce qu’il y a derrière la
| |
| | |
| réalité sociale. L’idée est également à l’opposition du regard neutre
| |
| | |
| de **regarder avec les yeux de celui qui est étudié**, c’est-à-dire
| |
| | |
| étudier les actions et les normes en partant de la perspective des gens
| |
| | |
| qu’on étudie. Il n’y a pas de processus de distanciation entre le
| |
| | |
| chercheur et son objet d’étude mais il doit s’immerger dans la réalité
| |
| | |
| de son objet de recherche. Pour faire émerger les **structures de
| |
| | |
| sens**, il nous faut une **description détaillée du phénomène social**
| |
| | |
| qu’on veut étudier. On veut déterminer les structures de sens. On
| |
| | |
| définit les **contextes** pour des systèmes d’interprétations et
| |
| | |
| d’actions. C’est une **démarche holistique** qui veut expliquer la
| |
| | |
| situation en la situant dans son contexte social, culturel et
| |
| | |
| historique.
| |
| | |
| Elle est moins guidée par la théorie. Au contraire, on refuse d’élaborer
| |
| | |
| un cadre théorique strict mais on le voit comme un guide se structurant
| |
| | |
| tout au long de la recherche. On ne veut pas guider une vision du monde
| |
| | |
| au départ mais on la laisse émerger. C’est une structure théorique
| |
| | |
| plutôt ouverte et visible. Cela permet une certaine liberté dans la
| |
| | |
| façon d’observer les phénomènes sociaux. Ceci est également le cas pour
| |
| | |
| les concepts qui ne sont que rarement définis au début de la recherche
| |
| | |
| mais sont établis dans le cours de la recherche.
| |
| | |
| <nowiki>###</nowiki> Problèmes et limites
| |
| | |
| <nowiki>**</nowiki>Analyse et l’interprétation** montent le cadre donc des théories
| |
| | |
| pouvant nous amener vers un but précis. Il y a un risque d’éparpillement
| |
| | |
| et on risque de refaire la même chose et de se noyer dans un vague
| |
| | |
| terrain d’information. Idée de décrire de manière détaille la complexité
| |
| | |
| sociale, cela nous amène à exagérer et à se perdre dans un
| |
| | |
| descriptivisme social où on oublie le but de chercheur, à savoir
| |
| | |
| d’expliquer et de comprendre. De plus, le fait que le chercheur n’est
| |
| | |
| pas guidé par des théories est un mythe. Tout chercheur est guidée par
| |
| | |
| des théories. L’idée d’absence théorique est ainsi un mythe.
| |
| | |
| <nowiki>**</nowiki>Reproduction de la complexité **: descriptivisme / excès d’empirisme
| |
| | |
| on peut mieux décrire les choses. En analysant les attitudes d’une
| |
| | |
| personne, on pose des indicateurs. Ou lorsqu’on fait des entretiens, on
| |
| | |
| a plus d’informations. Donc c’est plus détaillé. Sauf qu’on a trop
| |
| | |
| d’informations et on reste dans le descriptif.
| |
| | |
| <nowiki>**</nowiki>Explication :** on peut mieux expliquer le processus sauf qu’on se
| |
| | |
| perd dans l’explication.
| |
| | |
| <nowiki>**</nowiki>Mythe du « chercheur enfant » :** le chercheur est aveugle, sans
| |
| | |
| théorie préalable. Il y a l’idée qu’on peut venir libéré de quelconque
| |
| | |
| théorie préalable sauf que cela n’est pas possible en tant que tel parce
| |
| | |
| qu’on est toujours guidé d’une manière ou d’une autre.
| |
| | |
| <nowiki>**</nowiki>Généralisation : *La généralisation représente la préoccupation
| |
| | |
| centrale des méthodes quantitatives, bien qu’elle soit limitée***. En
| |
| | |
| effet, il serait abusif de généraliser des conclusions à une population
| |
| | |
| entière sur la base d’un échantillon régional par exemple. Pour éviter
| |
| | |
| ce type d’abus, les chercheurs ***multiplient les ancrages
| |
| | |
| empiriques***, permettant d’identifier de possibles variations entre les
| |
| | |
| différentes mesures sur des territoires différents, permettant dès lors
| |
| | |
| de mieux appréhender les phénomènes sociaux.
| |
| | |
| <nowiki>##</nowiki> Que conclure ?
| |
| | |
| Les méthodes qualitatives et quantitatives reposent chacune sur des
| |
| | |
| piliers différents. Etant très différentes et permettant d’appréhender
| |
| | |
| le monde social au travers de lunettes épistémologiques différentes, le
| |
| | |
| terrain n’est pas du tout appréhendé de la même manière par ces
| |
| | |
| approches. Toutefois, on ne peut conclure à une réelle opposition entre
| |
| | |
| elles. Pour de nombreux chercheurs, ***ces deux méthodes doivent se
| |
| | |
| compléter*** pour offrir à voir une réalité plus complexe en se posant
| |
| | |
| des questions différentes, caractéristiques de chacune de ces approches.
| |
| | |
| 
| |
| | |
| <nowiki>#</nowiki> Pratiques de la recherche et causalité : théorie et empirie sous tension
| |
| | |
| <nowiki>##</nowiki> Pratiques de la recherche
| |
| | |
| Ces pôles nous aident à prendre une distance critique avec notre objet.
| |
| | |
| Ces pôles ne sont pas forcément dans la tête de tout chercheur ou tout
| |
| | |
| étudiant. Ces pôles sont des espaces de recherche posant des questions
| |
| | |
| spécifiques pour avoir un projet de recherche cohérent. Il demande au
| |
| | |
| chercheur à se questionner différemment. Les mêmes pôles existent pour
| |
| | |
| la méthode quantitative ou qualtive puisque les deux sont soumises aux
| |
| | |
| mêmes types de questions sauf que les pôles sont plus au moins
| |
| | |
| importants dans l’une ou l’autre démarche.
| |
| | |
| <nowiki>##</nowiki> Quatre pôles structurent la recherche
| |
| | |
| 1. Pôle **épistémologique** -\> pertinence de l’objet et de la question
| |
| | |
| de recherche. On se pose des questions comme « pourquoi faut-il
| |
| | |
| répondre à cette question ? Qu’est-ce que ça nous apporte comme
| |
| | |
| pertinence ? Pourquoi c’est un problème social ?
| |
| | |
| 2. Pôle **théorique** -\> Explication/compréhension. Permet de
| |
| | |
| conceptualiser les concepts et les mettre en relation. Il permet de
| |
| | |
| délimiter l’objet de l’étude lui-même et les causes explicatives en
| |
| | |
| plus de mettre en amont un ensemble de facteurs pour expliquer le
| |
| | |
| phénomène à expliquer. Ceci se fait par la formulation de
| |
| | |
| l’hypothèse.
| |
| | |
| 3. Pôle **méthodologique** -\> Cohérence : définir le dessin de
| |
| | |
| recherche et le cadre d’analyse. Il assure cohérence entre le pôle
| |
| | |
| théorique et technique. Il peut être enrichi par notre propre
| |
| | |
| lecture. Il permet par la suite de tester nos relations causales.
| |
| | |
| 4. Pôle **technique** -\> Faisabilité : Il demande comment on va faire
| |
| | |
| notre collecte de données ?
| |
| | |
| <!-- end list -->
| |
| | |
| - Chaque pôle se réfère à une étape distincte de la recherche et ce
| |
| | |
| sont des moments analytiquement séparés mais en réalité inséparable.
| |
| | |
| Il y a un va-et-vient constant entre eux puisque leur existence et
| |
| | |
| conditionnée par celles des autres.
| |
| | |
| <nowiki>###</nowiki> Implication de l’interdépendance des pôles
| |
| | |
| Les choix méthodologiques découlent du problème posé antérieurement et
| |
| | |
| notamment du cadre théorique élaboré. De plus, les choix techniques
| |
| | |
| découlent du cadre méthodologique élaboré ainsi que du problème et du
| |
| | |
| cadre théorique. Ainsi, les choix méthodologiques sont sous contraintes
| |
| | |
| des pôles antérieures et des connaissances préalables du chercheur.
| |
| | |
| <nowiki>##</nowiki> Pensée causale : au cœur de la démarche quantitative
| |
| | |
| La causalité se pose d’une manière transversale pendant tout le
| |
| | |
| processus de recherche. On a déjà vu apparaître cette question à
| |
| | |
| plusieurs endroits dans les pôles de la recherche. La causalité est au
| |
| | |
| centre des recherches quantitatives. On essaie donc de développer un
| |
| | |
| outil statistique qui nous permet de mettre en évidence des structures
| |
| | |
| sociales. On est dans une logique positiviste importé des sciences
| |
| | |
| naturelles voulant expliquer des phénomènes visibles comme la
| |
| | |
| criminalité. On veut donc mettre en évidence des causes sociales.
| |
| | |
| Tandis que dans les méthodes qualitatives, on veut générer un ensemble
| |
| | |
| d’explications probables ou potentielles. On délimite des causes dans
| |
| | |
| le pôle théorique. En d’autres termes, on a la recherche d’un effet
| |
| | |
| d’une variable indépendante sur la variable dépendante (du X au Y). A
| |
| | |
| cette logique se pose plusieurs problèmes étant liés à cette logique. Il
| |
| | |
| y a des problèmes philosophiques qui questionnent la possibilité de
| |
| | |
| pouvoir trouver des causes universelles par exemple. Un modèle causal
| |
| | |
| exige de contrôler la causalité et de mettre en évidence la structure
| |
| | |
| sociale. Ceci n’est pas toujours facile et parfois même, ce n’est pas
| |
| | |
| faisable. Finalement, il y a des problèmes techniques parce qu’on ne
| |
| | |
| peut pas contrôler toutes les causes concurrentes possibles.
| |
| | |
| <nowiki>###</nowiki> Où est le problème ? Tension entre théorie et empirie
| |
| | |
| On est face à une tension entre le langage théorique et celui de la
| |
| | |
| recherche. Ceci est bien résumé par la citation de Blalock : « Si X est
| |
| | |
| la cause de Y, nous avons en tête que X produit un changement de Y et
| |
| | |
| non simplement qu’un changement de X est suivi, ou associé, à un
| |
| | |
| changement de Y ». La logique de la pensée causale veut qu’on évalue
| |
| | |
| l’effet de X d’une variable ou de plusieurs variables indépendantes
| |
| | |
| sur Y, à savoir une variable dépendante. Par exemple l’effet du niveau
| |
| | |
| d’éducation sur la participation politique. Dans le langage de la
| |
| | |
| théorie, on va utiliser des termes comme causes, poids ou rôle d’une
| |
| | |
| variable sur l’autre. Dans la recherche empirique, si on veut tester ces
| |
| | |
| relations, on parle de **co-variation** ou de **corrélation**. Si on
| |
| | |
| parle de co-variation, on parle d’une variation d’un changement en même
| |
| | |
| temps ou si corrélation, on parle d’une association d’une variable à une
| |
| | |
| autre mais on ne parle pas de sens. Du coup, ni la corrélation ni la
| |
| | |
| co-variation sont des causes. On pourrait admettre que la pensée causale
| |
| | |
| se situe uniquement au niveau théorique et qu’on ne peut pas le tester
| |
| | |
| au niveau de la recherche empirique. Sauf qu’Einstein n’est pas d’accord
| |
| | |
| avec cette affirmation puisque « correlations does not prove
| |
| | |
| causality ». Pourquoi est-il difficile d’identifier les causes ? Il y
| |
| | |
| a 2 raisons majeures à cela :
| |
| | |
| - **Asymétrie temporelle entre la cause et l’effet**. Forcément, la
| |
| | |
| cause doit venir avant les faits. Si on veut évaluer la présence des
| |
| | |
| immigrés sur la xénophobie, il faut trouver un endroit où il y a une
| |
| | |
| présence immigrée antérieure à un renforcement d’attitude xénophobe
| |
| | |
| sinon on ne peut pas dire qu’il y a causalité. Pour résoudre ce
| |
| | |
| problème de temporalité au niveau empirique, le dessin de recherche
| |
| | |
| doit incorporer cette notion du temps. Idéalement en mesure de 2
| |
| | |
| temps minimum sauf que cela est difficilement atteint. Par exemple
| |
| | |
| les sondages se font souvent en un seul moment et les s sont
| |
| | |
| relativement rares car très couteux. On peut encore se rapprocher à
| |
| | |
| cette idée du temps avec certaines astuces telle que le fait de
| |
| | |
| poser des questions sur le passé. L’autre astuce est de se sauver
| |
| | |
| avec la réflexion théorique, en expliquant théoriquement ce qui
| |
| | |
| vient avant ou après.
| |
| | |
| - **Contrôle de toutes les causes concurrentes **: pour prouver qu’une
| |
| | |
| cause génère un effet, il faut contrôler toutes les autres causes
| |
| | |
| possibles en éliminant celles qui peuvent établir une relation entre
| |
| | |
| une variable indépendante et une variable dépendante. Il faut en
| |
| | |
| plus maîtriser totalement l’environnement et travailler avec système
| |
| | |
| clos qui est libéré de toutes les causes concurrentes.
| |
| | |
| Exemples : Si on veut examiner l’effet des campagnes sur la
| |
| | |
| participation électorale, on est face à un postulat causal au niveau
| |
| | |
| théorique sauf qu’on ne va jamais trouver toutes les causes
| |
| | |
| structurelles.
| |
| | |
| Par conséquent, on peut prouver une causalité seulement dans un système
| |
| | |
| fermé selon Russel ou Heisenberg. Un système isolé nous permet de
| |
| | |
| contrôler toute autre cause concurrente et de varier seulement la cause
| |
| | |
| qui nous intéresse. Sauf que c’est très difficile en sciences sociales.
| |
| | |
| - L’asymétrie temporelle est un problème soluble soit par
| |
| | |
| l’introduction de la notion du temps comme dans les études de
| |
| | |
| panel ou par le choix de dessin expérimental. Sauf que ce type
| |
| | |
| d’étude n’est pas toujours faisable puisque c’est très cher. Il
| |
| | |
| reste alors l’appui théorique en argumentant logiquement la
| |
| | |
| causalité.
| |
| | |
| <nowiki>###</nowiki> Solution : reconceptualisation de la cause
| |
| | |
| Le contrôle de toutes les causes concurrentes et l’aspect le plus
| |
| | |
| difficile à réaliser parce qu’on ne peut pas isoler complètement un
| |
| | |
| système et de déterminer toutes les causes concurrentielles. Donc la
| |
| | |
| causalité au sens strict du terme ne s’applique pas à la recherche. Sauf
| |
| | |
| qu’on est face à un problème insoluble. Comme on ne peut pas cerner la
| |
| | |
| causalité au sens philosophique du terme et donc on ne peut pas tester
| |
| | |
| empiriquement des lois sociales on est censé reconceptualiser la
| |
| | |
| causalité au sens étroit du terme et on parle d’une causalité limitée.
| |
| | |
| Selon Simon, on doit conserver le modèle de cause en modèle simplifié.
| |
| | |
| La meilleure solution est de partir avec un nombre fini de causes qui
| |
| | |
| sont en opposition avec la philosophie. Sauf que ce modèle ne peut
| |
| | |
| jamais être complètement faux au sens philosophique du terme. Cette
| |
| | |
| causalité limitée peut être visible à différents endroits de la
| |
| | |
| recherche ; sur le niveau théorique avec les hypothèses, en
| |
| | |
| statistiques, avec les termes d’erreur et en méthodologique, avec
| |
| | |
| l’expérimentation.
| |
| | |
| Comme au niveau théorique, une relation entre deux variables ne peut pas
| |
| | |
| être analysée empiriquement et on doit donc émettre des hypothèses
| |
| | |
| simplifiées sur la relation entre deux variables. Donc l’énoncé causal
| |
| | |
| est purement hypothétique. Les phrases sont formulées : « si toutes les
| |
| | |
| causes connues sont égales, alors il y a un effet de campagne sur la
| |
| | |
| participation électorale ». C’est la solution
| |
| | |
| <nowiki><span class="underline">théorique</span></nowiki>. Au niveau
| |
| | |
| <nowiki><span class="underline">empirique</span></nowiki>, on peut construire une
| |
| | |
| causalité limitée avec l’introduction des termes d’erreur. Cela se fait
| |
| | |
| avec les analyses multiples comme la régression : « Quand un facteur X
| |
| | |
| prédit Y, il peut toujours y avoir d’autres causes qui prédit … ». Cela
| |
| | |
| prend en compte la variation de la variable dépendante qui n’est pas
| |
| | |
| causée par la /les variables indépendantes.
| |
| | |
| Finalement, la logique d’expérimentation nous permet d’établir une
| |
| | |
| causalité limitée. L’idée derrière est la création d’un système isolé ce
| |
| | |
| qui n’est pas forcément possible en sciences sociales parce qu’on est
| |
| | |
| tout simplement rarement dans un laboratoire. Toutefois, on peut voir
| |
| | |
| dans la recherche qu’il y a des expérimentations qui essaient de se
| |
| | |
| rapprocher de cet idéal. Par exemple, si on veut évaluer l’effet de la
| |
| | |
| lecture d’un journal dans la formation des opinions pendant une campagne
| |
| | |
| électorale, on peut s’approcher d’une situation d’expérimentation en
| |
| | |
| créant un groupe A et un groupe de contrôle B. Sauf que les personnes
| |
| | |
| peuvent être impactés par d’autres causes externes. Ainsi,
| |
| | |
| l’expérimentation reste difficilement applicable et on doit rester
| |
| | |
| dans un modèle hypothétique.
| |
| | |
| - Un modèle (causal) restera toujours une représentation simplifiée de
| |
| | |
| la réalité.
| |
| | |
| <nowiki>##</nowiki> Difficulté dans l’élaboration de modèles causaux
| |
| | |
| Il faut sélectionner les causes qu’on intègre dans notre modèle en
| |
| | |
| choisissant celles qui sont les plus déterminantes. Ainsi, on parle des
| |
| | |
| causes principales qui sont celles qui sont les plus fondamentales.
| |
| | |
| Puis, il faut identifier les causes concurrentes qui pourraient être
| |
| | |
| concurrentes à notre explication. On parle aussi de variable de contrôle
| |
| | |
| qui signifient la même chose. Ces causes, on les trouve souvent dans la
| |
| | |
| littérature. Avec toutes ces causes concurrentes, il faut faire un choix
| |
| | |
| qui va influencer notre résultat. Ce choix consiste à éliminer certaines
| |
| | |
| causes pour avoir un modèle théorique faisable. Le plus grand danger
| |
| | |
| dans ce processus de sélection, c’est la création de fausses relations.
| |
| | |
| Par exemple, on fait un modèle théorique où on prend le sexe et la
| |
| | |
| participation politique. On trouve que les hommes participent plus que
| |
| | |
| les femmes sauf qu’on a oublié de prendre en compte une variable
| |
| | |
| explicative. Elle va éliminer notre thèse principale ; la participation
| |
| | |
| politique est surtout influencée par le niveau d’éducation et la classe
| |
| | |
| sociale. Si on intègre ces deux variables dans une régression, on ne
| |
| | |
| trouve plus de relation entre sexe et participation politique.
| |
| | |
| <nowiki>##</nowiki> Difficulté de l’élaboration de modèles causaux
| |
| | |
| On peut expliquer un problème social en trouvant toutes les variables.
| |
| | |
| C’est le cas dans les méthodes qualitatives. La seconde approche est
| |
| | |
| d’essayer d’expliquer l’effet d’une cause sur un effet. La différence
| |
| | |
| entre les deux approches est que dans le deuxième exemple, on est dans
| |
| | |
| une logique de sélection de causes au sein d’un modèle théorique. On
| |
| | |
| prend un nombre limité de causes.
| |
| | |
| Il existe différents types de causes :
| |
| | |
| - ***La cause principale*** : C’est la cause que l’on postule
| |
| | |
| influencer le plus un phénomène donné.
| |
| | |
| - ***La cause concurrente*** : C’est la cause qui peut influencer
| |
| | |
| également le phénomène étudié mais dont on postule qu’elle est
| |
| | |
| moins prégnante que la cause principale.
| |
| | |
| - ***La cause fallacieuse*** : Alors que l’on pensant que X
| |
| | |
| influençait fortement Y, ayant identifié une co-variation, il
| |
| | |
| s’avère que c’est une variable cachée, Z, qui influence en
| |
| | |
| réalité Y. Il s’agit donc d’une cause fallacieuse.
Par exemple, on
| |
| | |
| a longtemps pensé que ce qui faisait que les femmes votaient moins
| |
| | |
| que les hommes, c’était leur genre. Toutefois, on a compris plus
| |
| | |
| tard qu’en vérité, ce qui influençait le plus, c’était le niveau
| |
| | |
| d’éducation, qui variait également selon le genre \!
| |
| | |
| <nowiki>###</nowiki> Cause et théorie
| |
| | |
| On dit que X a une influence sur Y sauf qu’il ne faut pas oublier de
| |
| | |
| comprendre et d’expliquer ce lien social. Il faut toujours essayer de
| |
| | |
| comprendre la flèche sinon on pourrait créer des artefacts ou de fausses
| |
| | |
| relations. Quand on parle du niveau d’éducation qui affecte la
| |
| | |
| participation des individus, parle-t-on des ressources intellectuelles ?
| |
| | |
| d’un sentiment de légitimité ? que cela peut-il dire ? Pour ne pas
| |
| | |
| tomber dans le positivisme sauvage (ce que je vois est parce que je le
| |
| | |
| vois), ***la théorie est cruciale pour comprendre ce lien et non pas
| |
| | |
| simplement le constater***.
| |
| | |
| <nowiki>##</nowiki> Conclusions et implications
| |
| | |
| Le monde réel est hors de notre portée. On ne peut pas tester des
| |
| | |
| relations causales au sens strict du terme. Ainsi, le chercheur doit
| |
| | |
| construire son objet de recherche. Il passe d’un objet perçu à un objet
| |
| | |
| de connaissance. On construit notre objet de recherche avec des lunettes
| |
| | |
| méthodologiques et théoriques. D’ailleurs, on travaille avec des objets
| |
| | |
| interactifs puisqu’ils peuvent se transformer. On doit prendre en compte
| |
| | |
| l’asymétrie temporelle, on doit contrôler les causes concurrentes.
| |
| | |
| Finalement, on a vu qu’on est plutôt dans des systèmes de co-variations
| |
| | |
| et non dans des systèmes de causes.
| |
| | |
| <nowiki>#</nowiki> Dessins de recherche ou comment maîtriser la causalité ?
| |
| | |
| Pour saisir l’idée des dessins de recherche, il faut comprendre deux
| |
| | |
| notions clés sur laquelle la démarche causale est basée ; l’idée de la
| |
| | |
| variation et celle de la comparaison. L’étude de la variation veut
| |
| | |
| saisir la question suivante : comment la variation de X est associée à
| |
| | |
| la variation Y ?
| |
| | |
| - Exemple : xénophobie : effet de la présence immigrée a un effet sur
| |
| | |
| la xénophobie. Donc l’idée c’est que la présence d’immigré fait
| |
| | |
| varier des facteurs de misanthropie. Sauf qu’il faut prendre
| |
| | |
| différents cas où il y a une variation du degré de présences
| |
| | |
| d’immigrés pour voir si la xénophobie change en fonction de ces
| |
| | |
| variations.
| |
| | |
| Selon Durkheim, la variation ne peut être faite sans comparaison. C’est
| |
| | |
| le cas pour la démarche quantitative et qualitative. Ce n’est qu’en
| |
| | |
| comparant des Etats-nations qu’on peut évaluer un modèle de citoyenneté
| |
| | |
| par rapport à la pression migratoire.
| |
| | |
| Le dessin de recherche est important pour maîtrise la causalité. Ce
| |
| | |
| n’est pas toujours évident de parler de dessins de recherche de
| |
| | |
| manière théorique. Comme pour chaque concept, il existe plusieurs
| |
| | |
| définitions. On peut distinguer entre une définition plus large et une
| |
| | |
| définition plus étroite :
| |
| | |
| - *Large *: elle englobe tous les enjeux impliqués dans la
| |
| | |
| planification et l’exécution de la recherche. Ça part de la
| |
| | |
| construction de la problématique (pôle épistémologique) jusqu’à la
| |
| | |
| présentation des résultats de recherche (englobe tous les pôles de
| |
| | |
| recherche).
| |
| | |
| - *Etroite *: manière dont le chercheur va écarter ou maîtriser les
| |
| | |
| hypothèses concurrentes. C’est le cœur du pôle méthodologique. Il
| |
| | |
| s’agit d’établir un plan d’exécution de la recherche pour exécuter
| |
| | |
| le plan de recherche. Le dessin de recherche doit répondre à la
| |
| | |
| manière dont on va contrôler.
| |
| | |
| Les dessins de recherche sont cruciaux car ils permettent de situer le
| |
| | |
| chercheur dans le volet empirique de sa recherche. Il permet une
| |
| | |
| articulation entre la théorie et l’empirie ainsi qu’une articulation
| |
| | |
| entre le pôle épistémologique et théorique. Les dessins d’une recherche
| |
| | |
| sont centraux du pôle méthodologiques : comment on procède pour tester
| |
| | |
| nos hypothèses ? Comment maîtriser notre système causal ? La notion de
| |
| | |
| contrôle signifie comment on va maintenir constantes les autres causes
| |
| | |
| afin de déterminer le poids de la cause déterminée.
| |
| | |
| <nowiki>##</nowiki> Exigences des dessins de recherche
| |
| | |
| Pour que les résultats obtenus soient le plus fiables possible, le
| |
| | |
| chercheur doit :
| |
| | |
| - Contrôler la causalité en s’assurant d’une asymétrie temporelle et
| |
| | |
| d’une clôture maximale du système. Il est nécessaire de maintenir
| |
| | |
| constantes les causes concurrentes et ce, en élaborant par la
| |
| | |
| connaissance un certain nombre de variables de contrôle.
| |
| | |
| - Choisir un dessin approprié en maîtrisant au mieux la causalité. De
| |
| | |
| plus, le dessin de recherche sert également à mettre à l’épreuve les
| |
| | |
| modèles théoriques construits par le chercheur et à assurer la
| |
| | |
| faisabilité de la démonstration empirique.
| |
| | |
| <nowiki>###</nowiki> Analyse de la co-variation
| |
| | |
| - Présuppose une logique de comparaison (Durkheim)
| |
| | |
| - Comparer entre groupes
| |
| | |
| - Comparer à l’intérieur des groupes
| |
| | |
| Deux logiques de contrôle : deux chemins possibles
| |
| | |
| - Contrôle externe : dessins **expérimentaux** avec une comparaison
| |
| | |
| entre groupes
| |
| | |
| - Contrôle interne : dessin **corrélationnel** avec une comparaison
| |
| | |
| dans un groupe
| |
| | |
| <nowiki>##</nowiki> Contrôle externe
| |
| | |
| Il applique un contrôle externe, c’est-à-dire qu’on veut maintenir
| |
| | |
| constantes les autres variables ou les causes concurrentes. On est dans
| |
| | |
| logique de comparaison entre groupes et cela nécessite que le groupe
| |
| | |
| soit identifiable en amont. Ici, c’est une logique de l’éprouvette comme
| |
| | |
| dans un laboratoire où il faut dessiner un groupe expérimental qui a ce
| |
| | |
| traitement et un groupe de contrôle qui n’a pas ce contrôle.
| |
| | |
| L’attribution d’un groupe reste toutefois aléatoire. L’idée ici est de
| |
| | |
| maîtriser la causalité ex-ante, c’est-à-dire avant l’analyse de données.
| |
| | |
| Les analyses vont être centrées sur les cas ou les groupes. Pour mener
| |
| | |
| une expérience, il faut que le groupe soit clairement identifiable en
| |
| | |
| amont. Par exemple avec l’immigration et les abus xénophobes, dans une
| |
| | |
| logique d’un dessin expérimental, on devrait comparer des cantons avec
| |
| | |
| une forte/faible population migrante.
| |
| | |
| Exemple
| |
| | |
| - Connaissance des religions et des philosophies conduit-elle à une
| |
| | |
| plus grande tolérance à l’égard de l’altérité ?
| |
| | |
| On peut prendre deux groupes distincts identifiables (groupe de contrôle
| |
| | |
| et groupe expérimental). Donc on peut comparer les groupes entre eux
| |
| | |
| dans la logique du dessin de recherche. On identifie deux groupes
| |
| | |
| distincts sauf qu’on peut en même temps maintenir constants d’autres
| |
| | |
| facteurs (la même école, la même classe, le même âge…). Au contraire, si
| |
| | |
| on veut saisir les influences de l’usage du vote par internet ou par
| |
| | |
| correspondance, sur la pratique du vote, on ne peut pas identifier en
| |
| | |
| amont les utilisateurs d’un ou de l’autre usage donc on doit appliquer
| |
| | |
| une autre logique.
| |
| | |
| <nowiki>##</nowiki> Contrôle interne
| |
| | |
| Cette autre logique est appliquée par le dessin corrélationnel. Au lieu
| |
| | |
| de comparer entre groupe, on fait un contrôle **dans** le groupe,
| |
| | |
| c’est-à-dire le contrôle interne en faisant varier aléatoirement les
| |
| | |
| variables. Dans le dessin expérimental, on essaie de contrôler un
| |
| | |
| maximum de paramètres tandis que dans le dessin corrélationnel, on veut
| |
| | |
| libérer les paramètres. Les groupes ne sont pas identifiables en amont
| |
| | |
| donc pour construire notre échantillon, on tire au sort des
| |
| | |
| observations. On garde l’aspect aléatoire pour garder l’effet spécifique
| |
| | |
| de chaque variable indépendante. Au lieu de comparer des groupes, on
| |
| | |
| prend dans l’analyse toute la population et on introduit toutes les
| |
| | |
| variables indépendantes. Donc on ne regarde pas seulement l’effet d’une
| |
| | |
| variable indépendante sur une variable dépendante mais on introduit
| |
| | |
| toutes les variables.
| |
| | |
| Dans la logique du dessin corrélationnel, on maîtrise la causalité
| |
| | |
| ex-post, c’est-à-dire au niveau des analyses. Les analyses ne sont pas
| |
| | |
| centrées sur les cas mais sur les variables.
| |
| | |
| Exemple :
| |
| | |
| - Est-ce que le soutien électoral au parti d’extrême droite, est-il
| |
| | |
| lié au statut économique de la personne, à son rejet des élites
| |
| | |
| politiques ou à ses attitudes à l’égard des autorités ?
| |
| | |
| Ce qu’on va faire, c’est qu’on va prendre toute la population (ensemble
| |
| | |
| des votants) et faire varier cette variable dans l’ensemble de la
| |
| | |
| population. Cela va nous permettre ensuite de voir si le statut
| |
| | |
| économique est lié par exemple. On va appliquer une logique de
| |
| | |
| comparaison à l’intérieur du groupe en évaluation la relation entre les
| |
| | |
| variables.
| |
| | |
| <nowiki>##</nowiki> Deux chemins : contrôle vs aléatoire
| |
| | |
| Il y a donc deux chemins pour maîtriser les variations et maîtriser les
| |
| | |
| systèmes de causalité. On peut soi maîtriser la causalité avant les
| |
| | |
| analyses et la comparaison dans le groupe. Ou bien, on ne peut pas
| |
| | |
| identifier les groupes en amont donc on mise sur des relations entre
| |
| | |
| variables en s’approchant des causalités au niveau des variables. Ce
| |
| | |
| sont des chemins opposés :
| |
| | |
| « L’aléatoire est dans un sens le processus opposé du contrôle. Tandis
| |
| | |
| que contrôler veut dire maintenir la valeur de certaines variables
| |
| | |
| constantes, l’aléatoire veut dire libérer la valeur » (Spector)
| |
| | |
| Sauf que cette distinction n’est pas toujours décisive. Dans la réalité
| |
| | |
| de la recherche, on peut retrouver ces deux chemins dans un dessin de
| |
| | |
| recherche.
| |
| | |
| <nowiki>###</nowiki> Contrôle externe
| |
| | |
| Ces groupes peuvent comprendre différentes choses telles que des
| |
| | |
| individus, des Etats etc. Le dessin expérimental est le contrôle de base
| |
| | |
| de la causalité. C’est rare que ce soit possible d’avoir un tel dessin
| |
| | |
| en science sociale. Néanmoins, on voit de plus en plus l‘utilisation de
| |
| | |
| dessins expérimentaux. Le chercheur va manipuler artificiellement
| |
| | |
| une/plusieurs variables dans un groupe. Puis, il évalue l’effet de cette
| |
| | |
| variable entre les deux groupes. La différence que le chercheur peut
| |
| | |
| trouver entre ces deux groupes, lui permet de tirer une conclusion sur
| |
| | |
| l’effet de la variable indépendante sur la variable dépendante et donc
| |
| | |
| il ne doit pas contrôler les variables concurrentes. C’est l’idée qu’on
| |
| | |
| a deux éprouvettes contenant la même solution liquide, puis on les
| |
| | |
| compare et on étudie leurs effets. Les principes ou les conditions de
| |
| | |
| base d’un dessin expérimental sont :
| |
| | |
| - Les groupes soient composés de la même manière. Le groupe
| |
| | |
| expérimental et le groupe de contrôle doivent avoir la même
| |
| | |
| composition. Il ne doit pas y avoir de variations entre eux. Pour
| |
| | |
| évaluer une variation sur une variable, il faut obtenir les autres
| |
| | |
| variables constantes sinon on ne peut pas évaluer les effets de la
| |
| | |
| manipulation et donc de la causalité. Ainsi, l’effet qu’on observe
| |
| | |
| pourrait être dû par d’autres variables.
| |
| | |
| - Pour avoir des groupes identiques, il faut procéder à un tirage
| |
| | |
| aléatoire. L’idée derrière est qu’une allocation aléatoire est le
| |
| | |
| seul moyen d’avoir un groupe identique parce qu’on ne connaît par
| |
| | |
| les caractéristiques de chaque cas.
| |
| | |
| - Puis, on peut procéder à la manipulation d’une/plusieurs variables
| |
| | |
| indépendantes. Cela permet d’asseoir cette variable sur le groupe
| |
| | |
| expérimental. C’est pour cela que l’expérimentation est privilégiée
| |
| | |
| par rapport à d’autres dessins de recherches. Ainsi, on a une base
| |
| | |
| solide.
| |
| | |
| <nowiki>###</nowiki> La logique
| |
| | |
| Exemple : Si un chercheur souhaite évaluer l’influence de l’information
| |
| | |
| quant à l’écologie sur le vote vert des individus, il sépare des
| |
| | |
| individus en deux groupes, auxquels il a préalablement demandé
| |
| | |
| quelles
étaient leurs inclinaisons à voter écologiste.
| |
| | |
| Ensuite, le chercheur donne des informations à l’un des groupes, alors
| |
| | |
| que l’autre reste neutre. Le chercheur finit l’expérience en demandant,
| |
| | |
| suite à cette manipulation, quelle est l’inclinaison des individus de
| |
| | |
| chaque groupe à voter écologiste. Sur le tableau (fictif), on voit que
| |
| | |
| le lien est vérifié puisque les individus ayant obtenu de l’information
| |
| | |
| se déclare prêts à voter écologiste bien davantage que le groupe n’ayant
| |
| | |
| pas reçu d’information. Toutefois, on ne sait pas si cette inclinaison
| |
| | |
| durera dans le temps. Il est aussi possible de tester l’influence de
| |
| | |
| plusieurs variables, comme l’information « papier » et l’information
| |
| | |
| directe (des individus nous expliquent, parlent...).
| |
| | |
| Un autre exemple de ce qu’est un dessin de recherche expérimental
| |
| | |
| (contrôle externe) est l’expérience de Milgram portant sur la
| |
| | |
| soumission à l’autorité.
| |
| | |
| <nowiki>###</nowiki> Dessin expérimental : ses forces
| |
| | |
| On arrive presque à fermer un système et c’est le dessin de recherche
| |
| | |
| privilégié en termes de causalité. Il a une très forte validité interne
| |
| | |
| au sein de la recherche parce qu’on a un contrôle sur l’intervention et
| |
| | |
| ils ne sont pas coûteux parce qu’on a besoin d’un petit échantillon.
| |
| | |
| <nowiki>###</nowiki> Ses problèmes
| |
| | |
| Il a des faiblesses :
| |
| | |
| - La faisabilité : pas toujours facile de manipuler une variable
| |
| | |
| indépendante.
| |
| | |
| - La même composition du groupe n’est pas évidente.
| |
| | |
| - Possibilité de généralisation : beaucoup de recherche expérimentale
| |
| | |
| ont une faible validité interne. Si on veut l’appliquer à la
| |
| | |
| validité externe, c’est plus difficile. Souvent, les échantillons
| |
| | |
| utilisés ne sont pas représentatifs. Les individus réagissent
| |
| | |
| différemment dans un contexte de laboratoire que dans un cadre
| |
| | |
| naturel.
| |
| | |
| - On doit faire face aux problèmes éthiques : les règles de base sont
| |
| | |
| que la participation doit être volontaire, les participants doivent
| |
| | |
| être informés, on ne doit pas faire du tort aux participations et
| |
| | |
| on doit respecter les participants. Sauf que souvent les
| |
| | |
| expérimentés ne connaissent pas le but de la recherche ou ils ne
| |
| | |
| sont que vaguement informés pour ne pas biaiser leurs comportements.
| |
| | |
| <nowiki>##</nowiki> Dessin quasi-expérimental
| |
| | |
| Le principe de comparaison entre groupes est maintenu sauf que ce dessin
| |
| | |
| se déroule en dehors du laboratoire. Le rôle du chercheur est aussi
| |
| | |
| différent car il n’y a pas de manipulation du chercheur puisque le
| |
| | |
| changement intervient naturellement. Il doit avoir la caractéristique de
| |
| | |
| séparer clairement deux groupes d’individus. On retrouve la logique du
| |
| | |
| groupe expérimental et la logique du groupe de contrôle.
| |
| | |
| On ne peut pas manipuler des variables sont leurs modalités dans la
| |
| | |
| nature. La notion de la temporalité est centrale ici. Ce type de dessin
| |
| | |
| est particulièrement adapté pour les changements tel que des changements
| |
| | |
| de valeur entre les générations ou les changements liés au parcours de
| |
| | |
| vie (un enfant, changement d’études etc). Ce dessin peut également
| |
| | |
| prévoir un changement dans l’espace tel que l’étude d’Ingelhart qui a
| |
| | |
| montré qu’on a trouvé des fonctions distinctes en fonction de la santé
| |
| | |
| de l’Etat.
| |
| | |
| <nowiki>###</nowiki> Expériences naturelles
| |
| | |
| On doit prendre la situation existante. Ici, le contrôle est moindre que
| |
| | |
| dans la situation expérimentale précédente. Ces écoles peuvent être
| |
| | |
| situées dans des quartiers ayant des niveaux économiques différents ou
| |
| | |
| les enseignements peuvent varier donc on n’a pas l’entièreté du
| |
| | |
| contrôle.
| |
| | |
| En prenant un exemple réel d’une expérience naturelle, on voulait
| |
| | |
| vérifier l’accès à la citoyenneté sur la mobilisation de l’extrême
| |
| | |
| droite. Ils ont fait une comparaison entre pays (comparaison dans
| |
| | |
| l’espace), ils ont catégorisé les différentes conceptions de la
| |
| | |
| citoyenneté et ils ont étudié les pays en Europe pouvant être classés
| |
| | |
| dans ces différentes cases. Puis, ils ont tiré des exemples sélectionnés
| |
| | |
| pour l’analyse et donc ils les ont comparés. C’est un exemple de
| |
| | |
| comparaison dans l’espace. Ils ont récolté des données pendant 10 ans et
| |
| | |
| ils voulaient être sûrs que cette classification soit sûre sauf que ce
| |
| | |
| n’était pas en lien avec la question de recherche. Il faut toujours
| |
| | |
| refaire le lien avec la question de recherche. La logique ici est
| |
| | |
| simplement la comparaison dans l’espace.
| |
| | |
| Nécessité d’avoir des données temporales et spatiales :
| |
| | |
| Temps longs : un siècle
| |
| | |
| Espace : pays européens
| |
| | |
| Unité d’analyse : vote des individus
| |
| | |
| <nowiki>###</nowiki> Dessin comparatif
| |
| | |
| Quais comme un dessin expérimental. La comparaison est ici centrale dans
| |
| | |
| sa logique ; elle peut se faire dans l’espace ou dans le temps. Sa place
| |
| | |
| parmi les autres stratégies de recherche, dans une recherche
| |
| | |
| qualitative, on a beaucoup de variables avec peu de cas et avec la
| |
| | |
| méthode quantitative, c’est l’inverse. Tandis que la recherche
| |
| | |
| comparative est située théoriquement au milieu.
| |
| | |
| <nowiki>###</nowiki> Dessins longitudinaux
| |
| | |
| Un cas spécifique de la comparaison dans le temps. On est toujours dans
| |
| | |
| des dessins quasi-expérimentaux. Ils sont de plus en plus en vogue dans
| |
| | |
| les sciences sociales. Il y a 3 types dessins longitudinaux :
| |
| | |
| - **Panel **: la spécificité est la comparaison du même groupe dans le
| |
| | |
| temps. On compare le même groupe à des moments différents. Les
| |
| | |
| principes de base sont qu’on utilise les mêmes échantillons
| |
| | |
| d’individus. L’intervention entre la première et la deuxième fois
| |
| | |
| est naturelle et il n’y a pas d’intervention du chercheur. Un
| |
| | |
| exemple classique est le panel suisse des Ménages donc toutes les
| |
| | |
| personnes qui vivent dans un ménage. Ce sont des études d’opinions,
| |
| | |
| de comportements ou de valeurs et ces personnes sont sondées chaque
| |
| | |
| année. Son avantage : très bonne traçabilité de la cause ; on peut
| |
| | |
| tracer les changements dans les comportements politiques parce qu’on
| |
| | |
| a toujours les mêmes individus. Sauf qu’il y a des problèmes : comme
| |
| | |
| c’est toujours le même groupe, il faut lutter contre « la mortalité
| |
| | |
| d’un panel », c’est-à-dire que les gens arrêtent de participer. La
| |
| | |
| moralité d’un panel, c’est que la durée de vie d’un échantillon est
| |
| | |
| limitée. Très vite, on peut se retrouver avec un problème important
| |
| | |
| de représentativité. La solution pour y remédier est de réintroduire
| |
| | |
| de nouvelles personnes ou de nouveaux échantillons complets. Un
| |
| | |
| autre problème se situe au niveau que le chercheur doit attendre
| |
| | |
| longtemps pour pouvoir analyser ces données. Finalement, c’est un
| |
| | |
| dessin coûteux en ressources parce qu’on utilise des incitations
| |
| | |
| importantes, le mode de récolte des données est coûteux et de grands
| |
| | |
| groupes travaillent.
| |
| | |
| - **Semi-panel** : il applique la même démarche que dans le panel
| |
| | |
| classique. La différence principale est que le groupe change à
| |
| | |
| chaque fois. On utilise cette technique quand les chercheurs ont la
| |
| | |
| difficulté de reprendre le même échantillon que dans la première
| |
| | |
| vague donc on a des difficultés à suivre les personnes dans le
| |
| | |
| temps. L’avantage clé par rapport au panel est que ce dessin
| |
| | |
| augmente clairement la faisabilité de cette recherche. On garde en
| |
| | |
| plus la comparaison dans le temps et l’évaluation de la causalité
| |
| | |
| reste assez fiable. Il permet de regarder des individus au niveau
| |
| | |
| agrégé.
| |
| | |
| - **Panel rétrospectif** qui essaie de combler une autre faiblesse de
| |
| | |
| l’étude panel classique. Un panel commence toujours dans une année
| |
| | |
| spécifique et il n’est pas possible de remonter dans le temps. Pour
| |
| | |
| ce faire, on peut soit utiliser des données secondaires récoltées
| |
| | |
| par d’autres ou utiliser des données rétrospectives. L’avantage de
| |
| | |
| ce dessin est la faisabilité de l’étude. Par exemple, pour
| |
| | |
| l’engagement dans des organisations sociales, il est difficile
| |
| | |
| d’identifier des personnes quand elles ne sont pas encore
| |
| | |
| engagées. Donc on peut tracer la causalité dans une certaine
| |
| | |
| mesure. Sa première difficulté est inscrite dans son nom puisque la
| |
| | |
| rétrospective des problèmes est problématique car la mémoire est
| |
| | |
| sélective. La sélectivité de la mémoire ne se fait pas au hasard et
| |
| | |
| on est face à des biais sélectifs. De plus, on est face à une
| |
| | |
| réinterprétation ou une reconstruction de la part des individus. Il
| |
| | |
| y a aussi un problème de différence entre individus. Une solution
| |
| | |
| pour y remédier est d’utiliser des moments épiphaniques (moments
| |
| | |
| centraux) et on a tendance à mieux s’en souvenir. Sauf qu’il n’est
| |
| | |
| plus vraiment un dessin quasi-expérimental car on ne peut plus
| |
| | |
| identifier des groupes en amont. On bascule sur des dessins
| |
| | |
| corrélationnels ayant une logique différente.
| |
| | |
| <nowiki>##</nowiki> Contrôle externe de la causalité : synthèse
| |
| | |
| Dessins **expérimentaux **: avec intervention du chercheur
| |
| | |
| Dessins **quasi** **expérimentaux **: sans intervention du chercheur /
| |
| | |
| expérimentation naturelle / dessin comparatif (coût faible) / panel,
| |
| | |
| semi-panel dessin rétrospectif.
| |
| | |
| <nowiki>###</nowiki> Contrôle interne : Dessin corrélationnel
| |
| | |
| On choisit ce dessin quand une comparaison entre deux groupes en amont
| |
| | |
| est impossible. On étudie la société telle qu’elle est. Le dessin
| |
| | |
| corrélationnel ou *cross-sectional* est une étude des variations à
| |
| | |
| l’intérieur d’un groupe et non entre les groupes. Il y a toujours une
| |
| | |
| logique de comparaison et de variation. Pour choisir un échantillon de
| |
| | |
| la population, on utilise une logique aléatoire en procédant à un tirage
| |
| | |
| au sort au sein d’une population. Avec ce procédé, toutes les
| |
| | |
| caractéristiques sont censées être représentées permettant une analyse
| |
| | |
| entre les variables.
| |
| | |
| <nowiki>###</nowiki> Contrôle de la causalité : synthèse
| |
| | |
| Les dessins **expérimentaux** et **quasi-expérimentaux **: logique de
| |
| | |
| contrôle externe, maîtriser sources de variation et groupes
| |
| | |
| identifiables en amont, procède à un contrôle ex-ante de la causalité,
| |
| | |
| logique du contrôle avec des paramètres constants.
| |
| | |
| Dessins **corrélationnels **: logique de contrôle interne (à l’intérieur
| |
| | |
| de groupe), maîtrise la causalité au moment de l’analyse avec
| |
| | |
| régressions, logique derrière est de défricher la causalité en
| |
| | |
| contrôlant la relation entre les variables (variable indépendantes et
| |
| | |
| variables dépendantes).
| |
| | |
| <nowiki>###</nowiki> Bilan
| |
| | |
| Dessins expérimentaux peuvent contrôler la causalité en amont de la
| |
| | |
| collecte des données car on maîtrise les effets des autres facteurs. On
| |
| | |
| peut contrôler les variables concurrentes.
| |
| | |
| Contrôle faible dans les dessins corrélationnels ; logique du tirage au
| |
| | |
| sort et on veut libérer au maximum les paramètres et assurer une
| |
| | |
| distribution aléatoire de ces paramètres au sein de la population
| |
| | |
| étudiée. Le contrôle se fait après par le biais de l’analyse qui prend
| |
| | |
| plein de causes concurrentes. La maîtrise des variables se fait soit
| |
| | |
| avant entre les groupes soit après entre les variables. Il s’agit de la
| |
| | |
| maîtrise de la variable indépendante sur la variable à expliquer. Il
| |
| | |
| s’agit d’un continuum de contrôle par le chercheur. La force du
| |
| | |
| contrôle peut se faire sur deux choses :
| |
| | |
| - Manipulation : chercheur intervient et amène un changement ; il a un
| |
| | |
| contrôle sur la variable dépendante. C’est le cas dans
| |
| | |
| l’expérimentation et grâce à une telle constellation, le
| |
| | |
| chercheur peut comparer le groupe expérimental et le groupe de
| |
| | |
| contrôle.
| |
| | |
| - Corrélationnel : chercheur ne contrôle pas ces paramètres donc
| |
| | |
| libère au maximum la variation, on est face à une situation
| |
| | |
| similaire pour la variable dépendante. Dans l’expérimentation, on a
| |
| | |
| faible contrôle.
| |
| | |
| <nowiki>**</nowiki>Comment choisir son dessin de recherche ?**
| |
| | |
| Toujours en lien avec le pôle théorique de la recherche ; quelle cause à
| |
| | |
| contrôler ? Plusieurs dessins de recherche peuvent être pertinents et il
| |
| | |
| faut penser aux apports et aux limites de chaque dessin. Souvent, il est
| |
| | |
| conseiller de combiner des dessins de recherche (SELECTS).
| |
| | |
| Les dessins de recherche doivent être guidés par des théories sauf qu’on
| |
| | |
| est soumis à des contraintes temporelles, soumis à des contraintes
| |
| | |
| financières, soumis à nos propres compétences.
| |
| | |
| <nowiki>#</nowiki> Construction d’une recherche quantitative : des concepts aux mesures, un travail d’opérationnalisation
| |
| | |
| <nowiki>##</nowiki> Opérationnalisation : qu’est-ce que c’est ?
| |
| | |
| <nowiki>***</nowiki>L’opérationnalisation consiste à rendre les concepts mesurables***.
| |
| | |
| Il s’agit de passer d’un très haut niveau d’abstraction conceptuelle à
| |
| | |
| des indicateurs concrets adaptés à la recherche empirique. Par exemple,
| |
| | |
| comment mesurer la participation protestataire ? Ce concept abstrait
| |
| | |
| doit être, en plus ***de toutes les variables*** indépendantes
| |
| | |
| permettant de mesurer notre variable dépendante, opérationnalisés.
| |
| | |
| <nowiki>***</nowiki>Cette étape est très importante car elle constitue le point de relais
| |
| | |
| entre la théorie et l’empirie***.
| |
| | |
| A la base de chaque recherche sont des questions théoriques. Mais le but
| |
| | |
| de la recherche est de tester les hypothèses formulées ainsi que le
| |
| | |
| modèle théorique plébiscité. Pour se faire, le chercheur agit sur deux
| |
| | |
| axes distincts :
| |
| | |
| - Il construit un ***dessin de recherche*** adapté et pertinent pour
| |
| | |
| sa recherche.
| |
| | |
| - Il ***opérationnalise*** tous les concepts afin de pouvoir les
| |
| | |
| mesurer.
| |
| | |
| <!-- end list -->
| |
| | |
| - ***Ces deux composantes centrales de toutes recherche font donc le
| |
| | |
| pont entre la partie théorique et pratique***.
| |
| | |
| Dans toutes méthodes quantitatives, il faut toujours ***faire passer des
| |
| | |
| concepts au statut d’indicateur***, les mots au statut de chiffres.
| |
| | |
| Durant cette phase cruciale, il s’agit de concrétiser les concepts
| |
| | |
| théoriques imaginés en amont puisque ***les concepts théoriques
| |
| | |
| n’existent pas dans la réalité sociale \!*** Pour mesurer un concept
| |
| | |
| abstrait comme le racisme, le chercheur pose des questions préalablement
| |
| | |
| élaborées avec soin à des individus. En effet, demander directement aux
| |
| | |
| individus s’ils sont racistes ne produira, premièrement, pas de résultat
| |
| | |
| fiable à cause du biais de désirabilité sociale, mais surtout cette
| |
| | |
| question ne mesure pas le racisme, mais la possibilité d’exprimer le
| |
| | |
| racisme pour les individus. Ce travail de réflexion se fait en amont de
| |
| | |
| la recherche empirique afin qu’aucune maladresse ne puisse mettre en
| |
| | |
| péril la validité de la recherche.
| |
| | |
| <nowiki>##</nowiki> L’enjeux de l’opérationnalisation
| |
| | |
| L’opérationnalisation doit pouvoir permettre de tester ses hypothèses en
| |
| | |
| descendant dans l’échelle de l’abstraction. Les ***divers choix
| |
| | |
| effectués par le chercheur*** tout au long de sa recherche ont pour but
| |
| | |
| de conférer à la recherche un validité interne. Toutefois, aucun
| |
| | |
| résultat n’est accepté unanimement, justement à cause de ces choix
| |
| | |
| potentiellement discutables. De plus, il faut faire attention aux
| |
| | |
| erreurs de mesure pouvant remettre en question la validité de toute la
| |
| | |
| recherche. En effet, le chercheur doit réussir à ***combler de manière
| |
| | |
| adéquate le fossé existant entre théorie et empirie*** tout en prenant
| |
| | |
| en compte les ***différents niveaux d’abstraction*** de ses concepts.
| |
| | |
| Enfin, les données secondaires doivent être utilisées avec précaution,
| |
| | |
| l’indicateur devant parfaitement convenir à l’item étudié. En tant que
| |
| | |
| lecteurs, il faut toujours faire attention à la manière dont les
| |
| | |
| indicateurs sont sélectionnés.
| |
| | |
| « Les sociologues utilisent souvent des concepts qui sont formulés à un
| |
| | |
| niveau plutôt haut d’abstraction. Ils sont assez différents des
| |
| | |
| variables élaborées au niveau empirique. Le problème lié au fossé entre
| |
| | |
| la théorie et la recherche est celui de l’erreur de mesure ». (Blalock)
| |
| | |
| <nowiki>##</nowiki> Deux erreurs de mesure
| |
| | |
| Il existe ***deux types d’erreurs de mesure***, elle intervient soit au
| |
| | |
| <nowiki>***</nowiki>niveau théorique***, soit au ***niveau empirique***. Pour ce qui est
| |
| | |
| de la partie théorique, le chercheur doit faire attention à la validité
| |
| | |
| de sa mesure. Par exemple, conclure à une différence entre le pays X et
| |
| | |
| le pays Y sans prendre en compte les diverses techniques de contact
| |
| | |
| serait une erreur de mesure. De plus, le chercheur doit opérationnaliser
| |
| | |
| avec soin pour ne pas induire d’erreur au moment des mesures. Au niveau
| |
| | |
| empirique, la formulation des questions, la fiabilité des mesures ainsi
| |
| | |
| que la reproductibilité de la mesure doivent être considérés avec
| |
| | |
| attention pour ne pas induire d’erreur.
| |
| | |
| <nowiki>##</nowiki> Validité d’une mesure
| |
| | |
| <nowiki>***</nowiki>Pour qu’une mesure soit valide, elle doit utiliser des indicateurs
| |
| | |
| fiables permettant de mesure le concept étudié***.
| |
| | |
| - Exemple d’une mesure valide : Utiliser la fréquence de participation
| |
| | |
| aux votations et aux élections pour mesurer la participation
| |
| | |
| conventionnelle.
| |
| | |
| - Exemple d’une mesure non valide : Utiliser comme indicateur du
| |
| | |
| bien-être individuel le salaire de l’individu \!
| |
| | |
| Mais comment faire en sorte de ne produire des mesures valides ? Cela
| |
| | |
| tient grandement à la rigueur de la démarche mais aussi à la créativité
| |
| | |
| du chercheur. ***Lazarsfeld a standardisé un processus de déconstruction
| |
| | |
| conceptuelle en quatre temps*** à cet effet :
| |
| | |
| 1. La première étape est conceptuelle : le chercheur part de concept
| |
| | |
| abstrait, non directement mesurables. Souvent polysémique, ***le
| |
| | |
| concept doit être défini précisément et de manière univoque***.
| |
| | |
| Cette étape est cruciale car pour obtenir des mesures fiables, il
| |
| | |
| faut être au clair avec le concept que l’on cherche à mesurer. Pour
| |
| | |
| se faire, le chercheur doit s’aider de la littérature pour combler
| |
| | |
| ses potentielles lacunes théoriques, mais aussi pour ne pas refaire
| |
| | |
| un travail qui aurait déjà été préalablement effectué. Par exemple,
| |
| | |
| le concept de compétence politique est défini de manière très variée
| |
| | |
| selon les chercheurs \! Pour Dahl, il s’agit de l’autonomie du
| |
| | |
| citoyen se structurant autour de la connaissance du champ politique
| |
| | |
| et de la verbalisation de préférences claires, pour Kriesi, il
| |
| | |
| s’agit de l’intérêt subjectif et objectif porté à la politique,
| |
| | |
| pour Gaxie, la capacité à se situer dans l’univers politique...
| |
| | |
| Ainsi, on voit que la définition du concept de base est cruciale.
| |
| | |
| 2. La deuxième étape implique de ***spécifier les dimensions et les
| |
| | |
| sous-dimensions du concept étudié***. En effet, un concept est
| |
| | |
| toujours multidimensionnel. Ainsi, il s’agit d’identifier chaque
| |
| | |
| facette du concept étudié et d’en extraire le sens de chacune. Pour
| |
| | |
| les concepts simples, le chercheur décomposera son objet en
| |
| | |
| dimensions telles que l’âge, le sexe, le lieu de
| |
| | |
| résidence...
Toutefois, les concepts complexes seront eux
| |
| | |
| décomposés en dimensions mais aussi en sous-dimensions pour rendre
| |
| | |
| compte
de l’entier du phénomène. Mais
attention, tout comme pour le
| |
| | |
| concept, chaque composante doit
être définie précisément et
| |
| | |
| de
manière univoque. Cette étape est
très importante
| |
| | |
| puisqu’elle
permet de ***descendre sur l’échelle de
| |
| | |
| l’abstraction***. Sur ce schéma, on voit comment Gaxie a décomposé
| |
| | |
| le concept de la participation politique, préalablement défini comme
| |
| | |
| la capacité de se situer dans l’univers politique.
| |
| | |
| 3. La troisième et ultime étape de la partie de l’opérationnalisation
| |
| | |
| est celle de la ***sélection des indicateurs pertinents*** pour la
| |
| | |
| recherche. Chaque dimension du concept peut être représentée par un
| |
| | |
| ou plusieurs indicateurs. Un indicateur est une variable qui
| |
| | |
| elle-même correspond à une mesure qui provient elle-même d’une
| |
| | |
| question (Indicateur à Variable à Mesure à Question). Mais encore
| |
| | |
| une fois, pour ce faire, le chercheur doit préalablement avoir
| |
| | |
| parfaitement défini la (sous-)dimension en question. ***Un
| |
| | |
| indicateur est créé par le chercheur afin de lui permettre de
| |
| | |
| mesurer directement une dimension ou sous-dimension issue d’un
| |
| | |
| concept abstrait***. C’est pourquoi il est toujours bien de mesurer
| |
| | |
| un concept à l’aide de plusieurs indicateurs pour minimiser les
| |
| | |
| risques d’erreur. Mais ***l’agencement des différents indicateurs
| |
| | |
| sélectionnés par le chercheur doivent ensemble reconstituer le
| |
| | |
| concept \! Ainsi, le nombre d’indicateurs ne doit pas être trop
| |
| | |
| petit pour éviter tout effet discriminant***. Le chercheur doit donc
| |
| | |
| sélectionner les bons indicateurs conférant à sa recherche une
| |
| | |
| validité et une cohérence interne. Les deux questions ci-jointes
| |
| | |
| sont issues d’un sondage ayant pour but de mesurer l’islamophobie.
| |
| | |
| Toutefois, on remarque qu’elles consistent en de très mauvais
| |
| | |
| indicateurs \! Premièrement car le concept très complexe de
| |
| | |
| l’islamophobie est ici saisi au travers de seulement deux
| |
| | |
| indicateurs, mais aussi parce que la seconde question a grandement
| |
| | |
| influencé la réponse des femmes, voulant défendre leurs droits.
| |
| | |
| Ainsi, ***cette étape pose la question du nombre d’indicateurs
| |
| | |
| nécessaires pour rendre compte au mieux de la réalité mais aussi de la
| |
| | |
| manière de poser les questions pour que celles-ci suscitent les réponses
| |
| | |
| attendues***.
| |
| | |
| Ces trois étapes représentent l’opérationnalisation, pouvant être
| |
| | |
| définie comme une toujours plus grande descente dans l’échelle de
| |
| | |
| l’abstraction. Alors qu’elles interviennent en amont de la recherche,
| |
| | |
| avant la partie empirique, la quatrième étape du processus mis en place
| |
| | |
| par Lazarsfeld s’effectue en aval de la recherche, après la récolte des
| |
| | |
| données.
| |
| | |
| 4. Enfin, c’est lors de la quatrième étape que le chercheur ***forme
| |
| | |
| ses indices***. Il s’agit pour le chercheur de reconstruire les
| |
| | |
| dimensions de ses concepts après la récolte des données. C’est
| |
| | |
| lors
de cette étape que le chercheur crée des échelles d’indices,
| |
| | |
| lui permettant d’effectuer une analyse factorielle. Cette étape fait
| |
| | |
| le chemin inverse des trois précédentes puisqu’il s’agit de remonter
| |
| | |
| l’échelle de l’abstraction et ce, pour s’assurer que les indicateurs
| |
| | |
| pris rendent bien compte du concept premier.
| |
| | |
| <nowiki>##</nowiki> Sélection des indicateurs
| |
| | |
| <nowiki>###</nowiki> Ultime étape de l’opérationnalisation
| |
| | |
| Il faut se demander si on prend un ou plusieurs indicateurs pour une
| |
| | |
| dimension. Il faut identifier des indicateurs pour chacune de nos
| |
| | |
| dimensions puisque chaque dimension est mesurée par des indicateurs
| |
| | |
| précis. Pour faire un bon travail, on dépend du travail en amont (étape
| |
| | |
| 1 et 2). Il faut être bien au clair sur le sens de la dimension et si le
| |
| | |
| sens reste ambigu, cela veut dire qu’il y a encore d’autres dimensions
| |
| | |
| qui se cachent derrière donc il faut revenir à l’étape 2. Ce n’est pas
| |
| | |
| un processus linéaire mais bien circulaire qui englobe des
| |
| | |
| allers-retours \!
| |
| | |
| Si la dimension est clair, il faut 2 clés :
| |
| | |
| - Notre inventivité et la tester
| |
| | |
| - Reprendre des mesures élaborées par d’autres chercheurs
| |
| | |
| Pour arriver à une validité interne, il faut plusieurs indicateurs. Il
| |
| | |
| faut des concepts latents. Toutefois, la relation entre indicateurs et
| |
| | |
| concepts reste probabiliste, c’est-à-dire qu’il ne couvre jamais
| |
| | |
| entièrement le concept. Un indicateur indique et ce n’est pas une
| |
| | |
| reproduction parfaite. Chaque indicateur doit avoir la même relation à
| |
| | |
| la dimension. Dans l’idéal, ils pourraient devenir interchangeables. En
| |
| | |
| théorie c’est facile mais pas en réalité. Un indicateur indique toujours
| |
| | |
| un aspect d’une dimension c’est pour cela qu’il en faut plusieurs. Si on
| |
| | |
| met ensemble tous les items d’une dimension, on peut reconstruire
| |
| | |
| empiriquement un concept.
| |
| | |
| La règle de base pour le choix des indicateurs : plus d’indicateurs
| |
| | |
| mieux c’est mais pas trop. Moins il y a d’indicateurs, plus on a d’effet
| |
| | |
| discriminant.
| |
| | |
| Exemple avec l’islamophobie : les chercheurs ont pris deux indicateurs
| |
| | |
| pour indiquer l’islamophobie ; autoriser les pratiques religieuses en
| |
| | |
| Suisse et le port du voile. Le problème avec le second indicateur est
| |
| | |
| que les femmes soient plus islamophobes. Mais au final, le sont-elles
| |
| | |
| vraiment ou est-ce un effet de mesure ? Dans ce cas, la multiplication
| |
| | |
| des indicateurs aurait été souhaitable surtout qu’ici, on est face à un
| |
| | |
| concept complexe.
| |
| | |
| Un 2<nowiki><sup>ème</sup></nowiki> effet discriminant est quand 2 indicateurs produisent
| |
| | |
| deux résultats différents. On est face à une discrimination voulue parce
| |
| | |
| qu’on veut créer de la variation entre individus.
| |
| | |
| <nowiki>**</nowiki>Comment éviter ou produire ces effets discriminants ?**
| |
| | |
| Avec des données primaires, on peut faire des pré-test tandis que pour
| |
| | |
| les données secondaires, il faut passer impérativement par l’analyse
| |
| | |
| descriptive avant de les mettre en relation. On va voir ainsi comment
| |
| | |
| notre variable est distribuée selon les réponses et cela va juger la
| |
| | |
| qualité de notre indicateur.
| |
| | |
| <nowiki>**</nowiki>En résumé**
| |
| | |
| Pour les concepts simples ou périphériques, un indicateur suffit. Par
| |
| | |
| exemple : l’âge, si ce n’est pas un concept clé dans notre recherche, un
| |
| | |
| indicateur suffit.
| |
| | |
| Pour les concepts complexes et centraux, il faut plusieurs indicateurs
| |
| | |
| comme la compétence politique. Attention à la variable dépendante \! Il
| |
| | |
| faut faire attention à l’opérationnalisation et on prend rarement le
| |
| | |
| risque d’avoir qu’un indicateur pour la variable dépendante. Pour les
| |
| | |
| causes principales, on prend rarement qu’un seul indicateur.
| |
| | |
| - Ainsi, l’opérationnalisation, c’est une descente dans l’échelle
| |
| | |
| d’abstraction \!
| |
| | |
| <nowiki>##</nowiki> Formation des indices
| |
| | |
| Elle se fait après la récolte des données au moment de l’analyse. La
| |
| | |
| formation d’indices et la reconstruction du concept à partir des
| |
| | |
| indicateurs. On va faire la synthèse des indicateurs pour chaque concept
| |
| | |
| et c’est une étape qui se déroule après la récolte des données au moment
| |
| | |
| de l’analyse. Concrètement, on construit une mesure unique à partir de
| |
| | |
| ces informations numériques car au moment de l’analyse, on veut
| |
| | |
| travailler avec nos concepts et tester nos relations causales. On
| |
| | |
| construit nos concepts à la base de plusieurs indicateurs et on peut
| |
| | |
| apprendre différentes techniques (additionner). Attention \! cette étape
| |
| | |
| de la formation des indices n’est pas toujours nécessaire. Si nos
| |
| | |
| indicateurs mesurent la même chose, on peut en prendre qu’un seul \!
| |
| | |
| Pour la formation des indices, on prend les résultats et on monte en
| |
| | |
| abstraction pour mettre nos concepts en relation.
| |
| | |
| Opérationnalisation a un intérêt vital pour la théorie car elle permet
| |
| | |
| d’avoir une implication de la théorie et de l’empirie en spécifiant
| |
| | |
| les cadres théoriques. Cela permet d’éviter les deux mesures majeures ;
| |
| | |
| la **fiabilité** et la **validité**. La validité de la fiabilité permet
| |
| | |
| de juger de la qualité de nos mesures. La validité est la manière dont
| |
| | |
| on juge l’opérationnalisation d’un point de vue théorique. Une mesure
| |
| | |
| non-valide est celle qui ne mesure pas le concept qu’on a voulu mesure.
| |
| | |
| L’idée de la validité est simple mais difficile à réaliser ; elle dépend
| |
| | |
| directement du travail d’opérationnalisation. S’il n’est pas fait de
| |
| | |
| manière rigoureuse, on a de fortes chances d’avoir des mesures
| |
| | |
| non-valides.
| |
| | |
| Exemple : mesurer la participation politique en suisse avec un
| |
| | |
| indicateur de participation, il manque le pan de votation ou le pan de
| |
| | |
| la participation protestataire.
| |
| | |
| <nowiki>##</nowiki> Deux erreurs de mesure
| |
| | |
| La fiabilité est liée à la formulation et l’élaboration des questions.
| |
| | |
| Double stimuli (inputs)
| |
| | |
| Imprécision (jamais de question avec un « ou »)
| |
| | |
| Jamais bien de supposer les pratiques mais directement les demandées
| |
| | |
| parce que si on le suppose, les gens pensent qu’ils sont censés le faire
| |
| | |
| et ne répondent pas comment c’est effectivement.
| |
| | |
| On voit que la validité se situe au niveau de l’opérationnalisation même
| |
| | |
| donc au processus qui lie les concepts aux indicateurs pendant que la
| |
| | |
| fiabilité regarde le lien entre les indicateurs et la question.
| |
| | |
| Conséquence de ces erreurs : introduisent des biais qui peuvent être
| |
| | |
| systématiques (confronté à un problème de validité), les biais
| |
| | |
| systématiques sont des erreurs qui ont une structure et ne sont pas
| |
| | |
| distribuées au hasard. Elles ne sont pas intégrées dans les analyses en
| |
| | |
| termes d’erreur. Le biais systématique implique souvent un problème de
| |
| | |
| validité même s’il y a des problèmes de fiabilité qui sont de cette
| |
| | |
| nature mais ils sont plus rares.
| |
| | |
| Lien entre fiabilité et visibilité : pour avoir une mesure valide, elle
| |
| | |
| doit être fiable mais le contraire n’est pas forcément le cas. La
| |
| | |
| fiabilité est une condition nécessaire mais pas suffisante pour juger de
| |
| | |
| la robustesse de la mesure.
| |
| | |
| Pour faire un bon travail d’opérationnalisation et maximiser la
| |
| | |
| validité, il faut des concepts clairs, une déconstruction maximale des
| |
| | |
| concepts on multiple les indicateurs pour éviter les effets
| |
| | |
| discriminants. Ce travail d’opérationnalisation est très important car
| |
| | |
| il nous permet de nous approche de la réalité.
| |
| | |
| <nowiki>#</nowiki> Méthode statistique : introduction
| |
| | |
| L’analyse de données est souvent décrite comme étant formée de deux
| |
| | |
| pôles :
| |
| | |
| - Statistiques *descriptives *: résumer ensemble de données, trouver
| |
| | |
| des astuces pour montrer des éléments importants sans regarder les
| |
| | |
| données unes à unes (résumé, graphique). Lorsqu’on va aller plus
| |
| | |
| loin, on s’appuie sur la partie descriptive, souvent visuel, pour
| |
| | |
| pouvoir émettre des questions. Puis, on pourrait peut-être faire des
| |
| | |
| liens entre les données et si tel est le cas, on va généraliser et
| |
| | |
| on va parler *d’ingérence statistique.*
| |
| | |
| <nowiki>##</nowiki> La statistique exploratoire (descriptive)
| |
| | |
| - Simples à comprendre
| |
| | |
| - S’appliquent à beaucoup de données (flexibles)
| |
| | |
| - Se basent sur des représentations graphiques
| |
| | |
| Elle étudie la « structure » de groupe de données, détecte les
| |
| | |
| tendances, les formes, les observations atypiques… Elle suggère des
| |
| | |
| <nowiki>*</nowiki>hypothèses de travail* et des modèles qui peuvent être formalisées et
| |
| | |
| vérifiées dans le deuxième pôle.
| |
| | |
| <nowiki>##</nowiki> L’inférence statistique
| |
| | |
| Elle conduit à des conclusions statistiques à partir de données en
| |
| | |
| utilisant des notions de la théorie des probabilités. Cette partie
| |
| | |
| s’occupe des méthodes de test et d’estimation.
| |
| | |
| Nous en tant qu’étudions, on est un échantillon de la population qui est
| |
| | |
| l’ensemble de la population de l’université de Lausanne. La statistique
| |
| | |
| référentiel part de l’échantillon puis on se demande si on peut
| |
| | |
| l’extrapoler à tous les étudiants mais dans une certaine mesure. Il
| |
| | |
| faut faire attention en indiquant la marge d’erreur (fiabilité de passer
| |
| | |
| à un sous-ensemble (échantillon) à une population complète). L’inférence
| |
| | |
| statistique, on va donner des notions de fiabilités, une mesure de
| |
| | |
| confiance, quelle est la confiance qu’on apporte dans l’extrapolation.
| |
| | |
| <nowiki>##</nowiki> Vocabulaire
| |
| | |
| | **Unité statistique** | Le plus petit sur lequel on porte l’analyse statistique |
| |
| | |
| | ------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| |
| | |
| | **Variable statistique** | Caractéristique d’une unité statistique |
| |
| | |
| | **Modalités** | Valeurs distinctes que prend une variable statistique ; différentes valeurs possibles prises par une variable statistiques. Par exemple la variable statistique cheveu et unité étudiant, on peut avoir plusieurs couleurs pas en fonction de la couleur de cheveux de notre échantillon. |
| |
| | |
| | **Population** | Ensemble sur lequel on porte une étude statistique ; ce sur quoi porte l’étude |
| |
| | |
| | **Echantillon** | Sous-ensemble de la population |
| |
| | |
| | **Paramètre** | Une mesure calculée sur la population entière |
| |
| | |
| | **Statistique** | Une mesure calculée sur un échantillon (tiré d’une population) |
| |
| | |
| <nowiki>#</nowiki> Niveaux d’analyse et graphiques : Analyse des données et interprétation
| |
| | |
| <nowiki>##</nowiki> Informations
| |
| | |
| L’analyse quantitative offre une multitude d’outils mais il faut
| |
| | |
| sélectionner les outils en fonction de notre recherche. D’autant plus,
| |
| | |
| on peut avoir beaucoup de données à disposition donc il faut à nouveau
| |
| | |
| les sélectionner. Le sujet de recherche qui nous intéresse peut être
| |
| | |
| relativement complexe et par conséquent, il faut passer par différents
| |
| | |
| schémas et trouver un résumé à cela. Ainsi, il y a beaucoup
| |
| | |
| d’informations, d’outils et d’hypothèses. On s’en sort en travaillant
| |
| | |
| méthodiquement et en allant du plus simple au plus complexe.
| |
| | |
| Exemple : les données EMS / Article ADL
| |
| | |
| Il s’agit d’une étude sur des personnes âgées dans les EMS et on
| |
| | |
| s’intéressait à connaître leur activité journalière (question
| |
| | |
| genrée). Question : qu’est-ce qui impacte les activités journalières de
| |
| | |
| ces personnes âgées ? Est-ce que c’est l’âge, une forte corrélation avec
| |
| | |
| le genre ? Comment l’analyser ?
| |
| | |
| <nowiki>##</nowiki>
| |
| | |
| <nowiki>##</nowiki> Niveaux d’analyse
| |
| | |
| Une analyse de données doit toujours aller du plus simple au plus
| |
| | |
| compliqué :
| |
| | |
| - Analyse **univariée **: on ne regarde qu’une variable et on
| |
| | |
| l’explique
| |
| | |
| - Analyse **bivariée **: on regarde deux variables (qui peuvent être
| |
| | |
| en relation) ; est-ce que le genre est associé au niveau d’activité
| |
| | |
| des personnes ?
| |
| | |
| - Analyse **multivariée** **(modèle final) **: On teste les relations
| |
| | |
| entre plusieurs variables pour obtenir un modèle qui va essayer
| |
| | |
| d’intégrer les autres variables nous paraissant pertinent. Le
| |
| | |
| modèle final ne signifie pas qu’on prend toutes les variables mais
| |
| | |
| on va sélectionner les meilleurs apports pour expliquer.
| |
| | |
| <!-- end list -->
| |
| | |
| - Chaque étape est liée dans le sens où elle apporte des informations
| |
| | |
| pour continuer à l’étape suivante.
| |
| | |
| Exemple : article ADL
| |
| | |
| - Analyse univariée : table 1, colonné « Overall % »
| |
| | |
| - Analyse bivariée : Table 1, colonne « Male % », « Females % » et
| |
| | |
| « p » : mise en relation de chaque variable avec le genre afin de
| |
| | |
| déterminer si la distribution de la variable est associée au genre
| |
| | |
| ou non.
| |
| | |
| - Analyse multivariée : Table 6.
| |
| | |
| <nowiki>##</nowiki> Variables et modalités
| |
| | |
| Une *variable* est une caractéristique d’une unité statistique. Elle est
| |
| | |
| créée par la réponse donnée à une question. La variable « nationalité »
| |
| | |
| est créée en réponse à la question « quelle est votre nationalité ? ».
| |
| | |
| Les différentes « valeurs » possibles d’une variable, qu’elles soient
| |
| | |
| numériques ou non, constituent ses *modalités*.
| |
| | |
| <nowiki>###</nowiki> Types de variables
| |
| | |
| Il existe différents types de variables. Une classification habituelle
| |
| | |
| utilise les 4 catégories suivantes :
| |
| | |
| 1. **Variables qualitatives – catégorielles** :
| |
| | |
|
| |
| | |
| 1. <nowiki><span class="underline">Nominales </span></nowiki>: couleur des cheveux
| |
| | |
| (pas un nombre \!)
| |
| | |
|
| |
| | |
| 2. <nowiki><span class="underline">Ordinales </span></nowiki>: il n’y a pas d’ordre
| |
| | |
| parce que la couleur brune ne peut être supérieur à la couleur
| |
| | |
| blonde. Lorsque je peux introduire un ordre (mauvais, moyen,
| |
| | |
| bon, très bon), je vais les appeler les variables catégorielles
| |
| | |
| ordinales.
| |
| | |
| 2. **Variables quantitatives – numériques **:
| |
| | |
|
| |
| | |
| 1. <nowiki><span class="underline">Discrètes </span></nowiki>: on peut les compter
| |
| | |
| (décimal)
| |
| | |
|
| |
| | |
| 2. <nowiki><span class="underline">Continues </span></nowiki>: on peut avoir toutes
| |
| | |
| les valeurs possibles sur un certain intervalle. Ce sont des
| |
| | |
| variables comme le poids, la taille, la distance (toutes valeurs
| |
| | |
| possibles mêmes avec virgule).
| |
| | |
| <!-- end list -->
| |
| | |
| - Outils à disposition dépend du type de variable \! Certains outils
| |
| | |
| sont polyvalents mais la plupart du temps, on fait attention.
| |
| | |
| Exemple : article ADL
| |
| | |
| - Genre : variable qualitative nominale (dichotomique) ; il n’y a pas
| |
| | |
| une notion d’ordre
| |
| | |
| - Vision (taux de vision) : valeur ordinale parce que ce sont des
| |
| | |
| modalités entre mauvais, moyen, bien, très bien.
| |
| | |
| - Années d’entrées en EMS : variables discrète (peu d’années d’entrée)
| |
| | |
| - MSD- ADL, long term scale : peut être considérée comme une variable
| |
| | |
| continue
| |
| | |
| <nowiki>###</nowiki> Echelles d’intervalle et de rapport
| |
| | |
| Les variables numériques sont parfois aussi catégorisées comme échelles
| |
| | |
| d’intervalle et échelles de rapport. Comme dans la définition
| |
| | |
| précédente, les écarts séparant les valeurs successives d’une échelle
| |
| | |
| sont tous égaux. La différence entre intervalle et rapport réside dans
| |
| | |
| le rôle du zéro :
| |
| | |
| - **Echelle intervalle **: Il n’y a pas de zéro absolu : son choix est
| |
| | |
| une convention arbitraire.
| |
| | |
| Exemple : température en degré Celsius.
| |
| | |
| - **Echelle de rapport **: Il y a un zéro absolu, non-arbitraire.
| |
| | |
| Exemple : Température en degrés Kelvin. Evaluation d’un trait
| |
| | |
| psychologique sur une échelle de 0 à 10. Temps de réaction.
| |
| | |
| <nowiki>###</nowiki> Distributions et fréquence
| |
| | |
| - La **distribution d’une variable** est la liste de toutes les
| |
| | |
| modalités (ou catégories de modalités) d’une variable avec leurs
| |
| | |
| fréquences respectives.
| |
| | |
| - La **fréquence d’une modalité** (ou effectif) est le nombre de
| |
| | |
| personnes prenant cette modalité dans l’échantillon ou dans la
| |
| | |
| population.
| |
| | |
| - La **fréquence relative d’une modalité** est la proportion des
| |
| | |
| données prenant cette modalité. Elle est exprimée soit sur une base
| |
| | |
| de 100 (pourcentage) soit sur une base de 1.
| |
| | |
| <nowiki>###</nowiki> Analyse univariée
| |
| | |
| L’analyse univariée cherche avant tout à déterminer deux
| |
| | |
| caractéristiques de la distribution d’une variable :
| |
| | |
| - Le centre (tendance centrale)
| |
| | |
| - La dispersion (variabilité)
| |
| | |
| Pour cela, deux catégories d’outils sont mobilisées :
| |
| | |
| - Les graphiques
| |
| | |
| - Les résumés numériques
| |
| | |
| <nowiki>##</nowiki> Graphiques
| |
| | |
| <nowiki>###</nowiki> Généralités
| |
| | |
| Un graphique statistique doit représenter le plus fidèlement possible la
| |
| | |
| distribution d’une variable. **Principe de proportionnalité** : chaque
| |
| | |
| modalité est représentée par une surface proportionnelle à la fréquence
| |
| | |
| (relative) de cette modalité (si on augmente la taille, il faut prendre
| |
| | |
| garde à mettre en rapport la proportionnalité). Pour qu’un graphique
| |
| | |
| soit de bonne qualité, les points suivants doivent être considérées :
| |
| | |
| - Clarté
| |
| | |
| - Précision
| |
| | |
| - Bien documenté (titre, légende)
| |
| | |
| - Respect du principe de proportionnalité
| |
| | |
| <nowiki>##</nowiki> Principaux types de graphiques
| |
| | |
| Graphiques pour données catégorielles :
| |
| | |
| - Graphique en barres
| |
| | |
| - Graphique circulaire
| |
| | |
| Graphiques pour données numériques :
| |
| | |
| - Histogramme
| |
| | |
| - Diagramme en ligne (pour série temporelle)
| |
| | |
| - Box-plot (basé sur des résumés numérisés)
| |
| | |
| Graphiques pour la relation entre deux variables :
| |
| | |
| - Carré unitaire (variables catégorielles)
| |
| | |
| - Diagramme de dispersion (variables numériques)
| |
| | |
| <nowiki>###</nowiki> Graphique en barres
| |
| | |
| Chaque modalité est représentée par une barre dont la hauteur est
| |
| | |
| proportionnelle à la fréquence (relative) de la modalité. Chaque barre a
| |
| | |
| la même largeur et est souvent séparée des autres barres par un espace.
| |
| | |
| Dans le cas d’une variable ordinale, les modalités doivent être placés
| |
| | |
| dans l’ordre sur le graphique. C’est le graphique à tout faire de la
| |
| | |
| statistique. Il peut s’adapter pratiquement à n’importe quelle variable
| |
| | |
| (salaire médian, taux de chômage, violence domestique…)
| |
| | |
| <nowiki>###</nowiki> Graphique circulaire
| |
| | |
| Un cercle ou un demi-cercle est découpé en autant de secteurs qu’il y a
| |
| | |
| de modalités à représenter. La surface de chaque secteur est
| |
| | |
| proportionnelle à la fréquence (relative) de la modalité qu’il
| |
| | |
| représente. Ce type de graphique est particulièrement adapté à la
| |
| | |
| représentation de distributions de pourcentages (répartition des
| |
| | |
| travailleurs étrangers en Suisse…).
| |
| | |
| <nowiki>###</nowiki> Histogramme
| |
| | |
| L’histogramme est le graphique type pour les variables numériques. Les
| |
| | |
| modalités de la variable sont au préalable réparties en nombre fini de
| |
| | |
| classes. Il n’y pas d’écart entre les classes : la valeur finale d’une
| |
| | |
| classe est la même que la valeur initiale de la classe suivant. La
| |
| | |
| classe à laquelle appartiennent réellement ces valeurs limites est
| |
| | |
| choisie arbitrairement. Les différentes classes sont placés sur l’axe
| |
| | |
| horizontal du graphique et un rectangle dont la surface est
| |
| | |
| proportionnelle à la fréquence (relative) de la classe est construit
| |
| | |
| au-dessus de chaque classe.
| |
| | |
| <nowiki>###</nowiki> Classes de l’histogramme
| |
| | |
| De manière générale, le nombre de classe ne devrait pas être plus grand
| |
| | |
| que \(\sqrt{n}\) où *n* est le nombre d’observations. Il y a 2 grandes
| |
| | |
| principes pour déterminer les classes :
| |
| | |
| 1. Toutes les classes ont la même amplitude (largeur).
| |
| | |
| <!-- end list -->
| |
| | |
| - On divise l’étendue des données par le nombre de classe désiré.
| |
| | |
| <!-- end list -->
| |
| | |
| 2. Toutes les classes ont la même fréquence.
| |
| | |
| <!-- end list -->
| |
| | |
| - On ajuste les limites des classes pour que le nombre d’observations
| |
| | |
| soit assez similaire d’une classe à l’autre.
| |
| | |
| - **Un histogramme s’interprète en termes de surfaces et non de
| |
| | |
| hauteurs \!**
| |
| | |
| <nowiki>###</nowiki> Diagramme en ligne
| |
| | |
| Le diagramme en ligne permet de représenter l’évolution au fil du temps
| |
| | |
| d’une variable numérique. La référence temporelle est placée sur un axe
| |
| | |
| (généralement l’axe horizontal) et les valeurs observées sont placées
| |
| | |
| sur l’autre axe. Les points représentants chaque observation sont reliés
| |
| | |
| de manière à mettre en évidence l’évolution dans le temps.
| |
| | |
| <nowiki>#</nowiki> Analyse univariée : Analyse des données et interprétation
| |
| | |
| <nowiki>##</nowiki> Introduction
| |
| | |
| <nowiki>###</nowiki> Caractéristiques d’une distribution
| |
| | |
| - Les deux caractéristiques essentielles d’une distribution univariée
| |
| | |
| sont :
| |
| | |
|
| |
| | |
| - La tendance centrale
| |
| | |
|
| |
| | |
| - La dispersion
| |
| | |
| D’autres caractéristiques peuvent se révéler importantes :
| |
| | |
| - La symétrie
| |
| | |
| - L’aplatissement
| |
| | |
| Les résumés numériques sont l’outil le plus utilisé pour analyser ces
| |
| | |
| caractéristiques (minimum, maximum, milieu). Comment jouer là-dessus
| |
| | |
| pour mieux décrire la distribution ?
| |
| | |
| <nowiki>###</nowiki> Relation entre centre et dispersion
| |
| | |
| Les notions de tendance centrale et de dispersion sont indissociables,
| |
| | |
| car la connaissance de l’une sans l’autre peut amener à des confusions
| |
| | |
| et des erreurs d’interprétation.
| |
| | |
| <nowiki>###</nowiki> Résumés numériques
| |
| | |
| Un résumé numérique (ou chiffre clé) est une statistique résumant par
| |
| | |
| une seule valeur une notion complexe. Un bon résumé numérique devrait
| |
| | |
| avoir les caractéristiques suivantes (conditions de Yule) :
| |
| | |
| - Etre objectif
| |
| | |
| - Tenir compte de toutes les observations
| |
| | |
| - Avoir une signification concrète, être simple à interpréter.
| |
| | |
| - Etre simple à calculer
| |
| | |
| - Etre peu sensible aux fluctuations de l’échantillonnage : si on
| |
| | |
| prend deux échantillons différents, on aura des valeurs différentes.
| |
| | |
| Comment faire pour qu’elles soient moins différentes ?
| |
| | |
| - Se prêter à des calculs algébriques ultérieures : on aime bien
| |
| | |
| travailler avec la variance mais en termes d’interprétation, on
| |
| | |
| préfère travailler avec l’écart-type.
| |
| | |
| <nowiki>##</nowiki> Tendance centrale
| |
| | |
| <nowiki>###</nowiki> Mode d’une distribution
| |
| | |
| Le mode d’une distribution est la modalité la plus fréquente de
| |
| | |
| celle-ci. Le mode peut se calculer sur n’importe quel type de variable.
| |
| | |
| Il n’est pas intéressant pour des variables prenant un grand nombre de
| |
| | |
| modalités différentes.
| |
| | |
| <nowiki>**</nowiki>Le mode n’est pas forcément unique et il ne représente pas forcément
| |
| | |
| le centre \!**
| |
| | |
| Exemple : échantillon de 30 personnes (4, 4, 8, 12, 15, 32, 40 etc). Le
| |
| | |
| mode de la distribution est la valeur de 40 heures, c’est-à-dire la plus
| |
| | |
| grande valeur observée \!
| |
| | |
| <nowiki>###</nowiki> Médiane
| |
| | |
| Dans le cas des salaires, une moyenne a l’habitude d’être sensible aux
| |
| | |
| données extrêmes et donc elle aurait la tendance d’aller vers les
| |
| | |
| salaires élevés.
| |
| | |
| La médiane d’une distribution est la valeur telle que 50% des données
| |
| | |
| sont plus petites qu’elle et 50% des données sont plus grande qu’elle.
| |
| | |
| Elle ne se calcule que sur des variables dont les modalités ont un ordre
| |
| | |
| (ordinales ou numérique).
| |
| | |
| Trois étapes pour le calcul :
| |
| | |
| 1. Classer les observations par ordre croissant
| |
| | |
| 2. Calculer le rang (position) de la médiane :
| |
| | |
| > rang (med(x)) = **<nowiki><span class="underline">n + 1</span></nowiki>**
| |
| | |
| >
| |
| | |
| > **2**
| |
| | |
| 3. Trouver la médiane
| |
| | |
| <nowiki>**</nowiki>Si le rang n’est pas entier, la médiane est la moyenne de deux
| |
| | |
| observations entourant le rang de la médiane \!**
| |
| | |
| Exemple : nombre d’heures hebdomadaires de travail
| |
| | |
| <nowiki>**</nowiki>Rang de la médiane **: 
| |
| | |
| La médiane est la moyenne entre les 15<nowiki><sup>ème</sup></nowiki> et 16<nowiki><sup>ème</sup></nowiki>
| |
| | |
| <nowiki>observations par ordre croissant : </nowiki>
| |
| | |
| <nowiki>###</nowiki> Moyenne arithmétique
| |
| | |
| La moyenne arithmétique se calcule comme :
| |
| | |
| 
| |
| | |
| - La moyenne ne se calcule que sur de vraies variables numériques. Une
| |
| | |
| variable catégorielle recodée sous forme numérique n’est une vraie
| |
| | |
| variable numérique \!
| |
| | |
| Exemple : nombre d’heures hebdomadaires de travail
| |
| | |
| <nowiki>###</nowiki> Médiane VS moyenne
| |
| | |
| 
| |
| | |
| La médiane est une notion de centre par rapport au nombre de données,
| |
| | |
| alors que la moyenne est une notion d’équilibre.
| |
| | |
| Par ailleurs, la médiane est robuste (insensible aux données extrêmes =
| |
| | |
| ne change pas), alors que la moyenne est non-robuste (facilement
| |
| | |
| influencée par les données extrêmes).
| |
| | |
| Exemple : salaire mensuel en France
| |
| | |
| Données du 4<nowiki><sup>ème</sup></nowiki> trimestre 2013 en France dans le secteur
| |
| | |
| privée. Typiquement, il y a quelques salaires qui sont excessivement
| |
| | |
| élevés faisant en sorte d’élever la moyenne des salaires tandis que la
| |
| | |
| médiane n’est pas influencée par des éléments externes.
| |
| | |
| <nowiki>##</nowiki> Dispersion
| |
| | |
| <nowiki>###</nowiki> Qu’est-ce que la dispersion ?
| |
| | |
| La dispersion est une notion de répartition des observations les unes
| |
| | |
| par rapport aux autres. Plus la dispersion est grande, plus observations
| |
| | |
| différentes les unes des autres. Telle que vue dans ce cours, la
| |
| | |
| dispersion s’applique avant tout aux variables numériques, mais il
| |
| | |
| existe une mesure de dispersion adaptée aux données catégorielles :
| |
| | |
| l’entropie. C’est un terme venant de la théorie de l’information.
| |
| | |
| <nowiki>###</nowiki> L’étendue d’une dispersion
| |
| | |
| Le minimum et le maximum représentent les valeurs limites d’une
| |
| | |
| variable. Ils n’existent pas lorsqu’une variable peut prendre des
| |
| | |
| valeurs allant jusqu’à plus au moins l’infini. On peut distinguer entre
| |
| | |
| le minimum et le maximum théoriques d’une variable et les valeurs
| |
| | |
| minimales et maximales réellement observées.
| |
| | |
| Exemple : nombre d’heures hebdomadaires de travail
| |
| | |
| Sur l’échantillon considéré, le minimum vaut 4 heures et le maximum 40
| |
| | |
| heures. Sur un plan théorique, le minimum possible pour cette variable
| |
| | |
| est de 0 heure et le maximum est de 168 (nombres d’heures possibles par
| |
| | |
| semaine), même si cette dernière valeur ne sera que difficilement
| |
| | |
| atteinte. Dans cet exemple, la valeur maximale théorique peut aussi
| |
| | |
| dépendre des lois en vigueur dans le pays considéré.
| |
| | |
| <nowiki>###</nowiki> Quartiles
| |
| | |
| Les quartiles complètent la médiane en divisant le nombre de données en
| |
| | |
| 4 groupes plutôt que 2. Le premier quartile noté q1 et tel que 25% des
| |
| | |
| données sont plus petites que lui. Le troisième quartile noté q3 est tel
| |
| | |
| que 75% des données sont plus petites que lui. Le calcul des quartiles
| |
| | |
| se fait comme celui de la médiane, mais les rangs (positions) se
| |
| | |
| calculent comme suit :
| |
| | |
| 
| |
| | |
| Si les rangs ne sont pas des nombres entiers, on approxime la valeur des
| |
| | |
| quartiles par interpolation linéaire.
| |
| | |
| <nowiki>###</nowiki> Définitions
| |
| | |
| Pour l’interpolation linéaire, il faut introduire de nouvelles
| |
| | |
| définitions :
| |
| | |
| Considérons une seule variable mesurée sur *n* observations
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Définition **: La statistique d’ordre d’un échantillon est donnée par
| |
| | |
| les valeurs de l’échantillon ordonnées de la plus petite à la plus
| |
| | |
| <nowiki>grande. Elle est notée : </nowiki>
| |
| | |
| <nowiki>**</nowiki>Définition **: Le quantile d’ordre est une
| |
| | |
| valeur telle que % des données sont inférieures
| |
| | |
| et (100 - )% des données sont supérieures.
| |
| | |
| <nowiki>**</nowiki>Les quartiles sont donc les quantiles d’ordre 25 (1<nowiki><sup>er</sup></nowiki>
| |
| | |
| quartile), 50 (médiane) et 75 (3<nowiki><sup>ème</sup></nowiki> quartile)**
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>**</nowiki>Calcul d’un quantile**
| |
| | |
| 1) Ranger les données par ordre croissant (=statistiques d’ordre)
| |
| | |
| 2) Calculer le rang *r* = 
| |
| | |
| 3) Trouver la valeur correspondante au rang :
| |
| | |
|
| |
| | |
| 1. Si *r* est entier, il s’agit de la r-ième valeur (des
| |
| | |
| statistiques d’ordre)
| |
| | |
|
| |
| | |
| 2. Si *r* n’est pas entier, la valeur est :
| |
| | |
| 
| |
| | |
| <nowiki>Notation : Si \[r\] et \[r\] désignent respectivement la partie entière</nowiki>
| |
| | |
| inférieure et supérieure de *r*.
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> Boxplot
| |
| | |
| Le boxplot, ou résumé à 5 valeurs, est un graphique simplifié de la
| |
| | |
| distribution d’une variable.
| |
| | |
| 
| |
| | |
| Entendue : différence entre maximum et minimum (sur quelle plage nos
| |
| | |
| données sont distribuées)
| |
| | |
| Ecart interquartile : différence entre le 1<nowiki><sup>er</sup></nowiki> et le
| |
| | |
| 3<nowiki><sup>ème</sup></nowiki> quartile : lorsque j’ai éliminé de mes données les 25%
| |
| | |
| des plus petites et grandes, j’ai toutes les données comprises entre le
| |
| | |
| 1<nowiki><sup>er</sup></nowiki> et le 3<nowiki><sup>ème</sup></nowiki> quartile.
| |
| | |
| <nowiki>###</nowiki> Schematic plot
| |
| | |
| C’est une variante du boxplot dans laquelle les données extrêmes
| |
| | |
| (petites et grandes) ne sont pas intégrées dans le graphique, mais sont
| |
| | |
| représentées séparément. Dans certains cas, les données extrêmes sont
| |
| | |
| même totalement absentes du graphique.
| |
| | |
| <nowiki>###</nowiki> Variance
| |
| | |
| La variance est la moyenne de la somme des carrées des écarts à la
| |
| | |
| moyenne.
| |
| | |
| La variance est calculée comme :
| |
| | |
| | **Population** | **Echantillon** |
| |
| | |
| | ------------------------ | ------------------------ |
| |
| | |
| |  |  |
| |
| | |
| La variance prend des valeurs allant de 0 à l’infini. La valeur 0
| |
| | |
| indique une totale absence de variation : toutes les valeurs observées
| |
| | |
| sont identiques. Plus la variance est grande, plus les valeurs sont
| |
| | |
| dispersées, c’est-à-dire différentes les unes des autres. La variance ne
| |
| | |
| s’exprime pas dans la même unité que les données observées.
| |
| | |
| - Elle est difficilement à interpréter / trouver mathématiquement mais
| |
| | |
| difficile à interpréter empiriquement.
| |
| | |
| <nowiki>###</nowiki> Ecart-type
| |
| | |
| L’écart type est défini comme la racine carrée de la variance :
| |
| | |
| | **Population** | **Echantillon** |
| |
| | |
| | ------------------------ | ------------------------ |
| |
| | |
| |  |  |
| |
| | |
| Il s’interprète de manière similaire à la variance mais avec l’avantage
| |
| | |
| de s’exprimer dans la même unité que les données observées. L’écart-type
| |
| | |
| représente la distance typique que l’on s’attend à observer entre
| |
| | |
| n’importe quelle donné de l’échantillon et la moyenne de celui-ci.
| |
| | |
| <nowiki>###</nowiki> Coefficient de variation
| |
| | |
| Le coefficient de variation est une mesure de dispersion relative,
| |
| | |
| utilisée pour décrire la précision d’une valeur estimative.
| |
| | |
| - La valeur et l’écart-type ont le désavantage d’être influencés par
| |
| | |
| l’ordre de grandeur des données observées.
| |
| | |
| - Le coefficient de variation est une mesure de **dispersion
| |
| | |
| relative**, indépendant de l’unité de mesure :
| |
| | |
| 
| |
| | |
| - Il permet de comparer la dispersion de variables mesurées dans des
| |
| | |
| unités totalement différents les unes des autres.
| |
| | |
| Exemple : nombre d’heures hebdomadaires de travail
| |
| | |
| <nowiki><table></nowiki>
| |
| | |
| <thead>
| |
| | |
| <nowiki><tr class="header"></nowiki>
| |
| | |
| <nowiki><th>Vu comme</th></nowiki>
| |
| | |
| <nowiki><th>Une <strong>population</strong></nowiki><nowiki></th></nowiki>
| |
| | |
| <nowiki><th>Un <strong>échantillon</strong></nowiki><nowiki></th></nowiki>
| |
| | |
| <nowiki></tr></nowiki>
| |
| | |
| </thead>
| |
| | |
| <tbody>
| |
| | |
| <nowiki><tr class="odd"></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><strong>Moyenne</strong></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><img src="./media/image19.emf" style="width:0.69068in;height:0.26111in" /></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><img src="./media/image20.emf" style="width:0.66597in;height:0.24447in" /></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki></tr></nowiki>
| |
| | |
| <nowiki><tr class="even"></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><strong>Variance</strong></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><p><img src="./media/image21.emf" style="width:2.75625in;height:0.27022in" /></nowiki><nowiki><img src="./media/image22.emf" style="width:0.86042in;height:0.24583in" /></nowiki><nowiki></p></nowiki>
| |
| | |
| <nowiki><p><img src="./media/image23.emf" style="width:0.94375in;height:0.16154in" /></nowiki><nowiki></p></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><img src="./media/image24.emf" style="width:0.86736in;height:0.17347in" /></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki></tr></nowiki>
| |
| | |
| <nowiki><tr class="odd"></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><strong>Ecart-type</strong></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><img src="./media/image25.emf" style="width:1.9125in;height:0.27945in" /></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><img src="./media/image26.emf" style="width:0.74236in;height:0.19987in" /></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki></tr></nowiki>
| |
| | |
| <nowiki><tr class="even"></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><strong>Coefficient variation</strong></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki><td></nowiki><nowiki><img src="./media/image27.emf" style="width:0.88958in;height:0.35583in" /></nowiki><nowiki></td></nowiki>
| |
| | |
| <nowiki></tr></nowiki>
| |
| | |
| </tbody>
| |
| | |
| <nowiki></table></nowiki>
| |
| | |
| <nowiki>#</nowiki> Collecte des données : Introduction Enjeux de la collecte et types de données
| |
| | |
| On laisse derrière nous le pôle méthodologique où on a établi un dessin
| |
| | |
| de recherche adéquat et on a opérationnalisé nos concepts afin de le
| |
| | |
| rendre réalisable. On va porter notre attention sur la récolte de
| |
| | |
| données individuelless en passant par le sondage qui sera l’outil
| |
| | |
| principal.
| |
| | |
| 
| |
| | |
| L’enjeu principal dans la récolte de données est d’arriver à être
| |
| | |
| systématique. Les données sont des éléments d’information qui sont
| |
| | |
| récoltés de façon systématique que ce soit sous forme quantitative ou
| |
| | |
| qualitative. Ceci est également exprimé dans la citation de King et
| |
| | |
| all. :
| |
| | |
| « Data are systematically collected elements of information about the
| |
| | |
| world ». (1994)
| |
| | |
| <nowiki>##</nowiki> Enjeux de la collecte de données
| |
| | |
| <nowiki>###</nowiki> Récolte systématisée
| |
| | |
| Il est nécessaire de trouver des supports qui permettent une telle
| |
| | |
| systématicité et d’éviter des biais potentiels. Par exemple, si on veut
| |
| | |
| connaître le volume de participants aux manifestations de rue, on se
| |
| | |
| rend compte que les chiffres varient selon la source (police,
| |
| | |
| organisateurs de la manifestation, médias). Il existe toujours
| |
| | |
| différentes stratégies possibles pour en rendre compte sauf qu’il est
| |
| | |
| important de justifier notre choix de source de données.
| |
| | |
| Une stratégie pour faire une collecte systématique est de prendre
| |
| | |
| systématiquement la même source d’information. Une autre serait de
| |
| | |
| faire une moyenne des sources disponibles. Le point essentiel est
| |
| | |
| d’avoir toujours le même indicateur dans l’espace et dans le temps
| |
| | |
| sinon la collecte n’est pas systématique. Ceci est facile en théorie
| |
| | |
| mais en pratique, ce n’est pas toujours possible. Dans la pratique, il
| |
| | |
| faut essayer de minimiser deux types de biais :
| |
| | |
| - Biais aléatoires ou structurels
| |
| | |
| - Biais systématiques : variations structurelles
| |
| | |
| Exemple : nombres de participants dans une manifestation
| |
| | |
| Si on prend comme source les chiffres de la police, on est confronté à
| |
| | |
| un biais systématique, c’est-à-dire une tendance à sous-estimer le
| |
| | |
| nombre de participants. Si on prend comme source les chiffres des
| |
| | |
| organisateurs d’une manifestation, on est aussi confronté à un **biais
| |
| | |
| systématique** et il y a une surestimation du nombre de participants.
| |
| | |
| Par contre, si on prend comme source les chiffres des médias, on risque
| |
| | |
| d’avoir un **biais aléatoire**, c’est-à-dire une fois une sous et
| |
| | |
| l’autre fois une surestimation. On est confronté à des variations
| |
| | |
| aléatoires qui ne sont pas systématiques et qui sont dues à un problème
| |
| | |
| de fiabilité de la mesure. Ainsi, il faut changer l’indicateur pour
| |
| | |
| éviter des résultats non fiables.
| |
| | |
| <nowiki>###</nowiki> Objectifs
| |
| | |
| Pour avoir des données de bonnes qualités, on doit se fixer comme
| |
| | |
| objectifs de récolter des données de manière systématique. Il faut
| |
| | |
| <nowiki>**</nowiki>éviter les biais aléatoires** puis **identifier les biais
| |
| | |
| systématiques** et les prendre en compte dans l’analyse des résultats.
| |
| | |
| Dans la recherche comparative, pour éviter les biais aléatoires, il faut
| |
| | |
| garder le même support ou le même indicateur. On parle notamment de
| |
| | |
| <nowiki>*</nowiki>critères* et *indicateurs* *invariants*, c’est-à-dire des indicateurs
| |
| | |
| qui ne changent pas dans le temps et l’espace.
| |
| | |
| Pour évaluer la classe sociale dans laquelle un ménage se trouve, on
| |
| | |
| peut utiliser plusieurs indicateurs. Certains indicateurs (possession
| |
| | |
| d’une télévision en couleur) ont été créés vers 1980 sauf est-ce qu’il
| |
| | |
| faut le garder, le supprimer ou le modifier ? Dans un panel, on veut
| |
| | |
| toujours garder les mêmes indicateurs pour éviter des biais aléatoires
| |
| | |
| mais ceci n’empêche pas l’introduction d’autres problèmes de mesure
| |
| | |
| comme dans cet exemple. Les biais aléatoires et systématiques sont un
| |
| | |
| enjeu dans le temps, comme dans le panel, mais d’autres exemples peuvent
| |
| | |
| être trouvés dans la comparaison entre pays comme le taux de chômage qui
| |
| | |
| peut être mesuré selon des critères différents dans l’espace.
| |
| | |
| Particulièrement dans la recherche comparative, on est dans le besoin
| |
| | |
| de combiner différentes bases de données pour comparer la population.
| |
| | |
| Exemple : la controverse autour du votant américain
| |
| | |
| Cette controverse se jouait par beaucoup de publications (1960-2000)
| |
| | |
| mais notamment autour de deux ouvrages, à savoir *The American Voter* et
| |
| | |
| <nowiki>*</nowiki>The Changing American Voter*. Le modèle de Michigan a été critiqué 16
| |
| | |
| ans après par le second ouvrage sauf que ce sont des différents
| |
| | |
| indicateurs qui ont été pris pour formuler la critique. Donc le second
| |
| | |
| ouvrage a lui-même été critiqué.
| |
| | |
| <nowiki>###</nowiki> Qualité des données
| |
| | |
| Pour obtenir une qualité des données, il faut trouver les biais. Il est
| |
| | |
| notamment nécessaire de **cerner les biais potentiels**. Il faut
| |
| | |
| toujours être l’affût de ce problème sinon on pourrait être confronté à
| |
| | |
| un *artefact statistique* qui est un faux résultat puisqu’on n’a pas
| |
| | |
| utilisé les bons indicateurs ou on a oublié de regarder les relations
| |
| | |
| avec des variables concurrentes.
| |
| | |
| La règle d’or est de **maximiser la validité** **des mesures** et de
| |
| | |
| <nowiki>**</nowiki>maximiser** **la** **fiabilité des mesures**. Au moment de
| |
| | |
| l’opérationnalisation, on peut maximiser la validité des mesures. Il
| |
| | |
| est impératif d’être scrupuleux dans l’opérationnalisation de nos
| |
| | |
| concepts et de prendre plusieurs indicateurs pour les concepts clés.
| |
| | |
| Par exemple : une mesure du chômage pour évaluer l’état de l’économie
| |
| | |
| Il faut être conscient et transparent sur les limites potentielles de
| |
| | |
| nos mesures. Le taux de chômage peut être corrélé à l’état de l’économie
| |
| | |
| sauf qu’ils ne sont pas synonymes.
| |
| | |
| Une fois que la validité est assurée, il faut également s’assurer que
| |
| | |
| nos mesures sont fiables. Ce contrôle se fait au moment de la sélection
| |
| | |
| des indicateurs et on évalue si la mesure produit le même résultat dans
| |
| | |
| l’espace et dans le temps. Une technique pour s’en assurer est de
| |
| | |
| reprendre des mesures existantes qui ont déjà été testées. On va
| |
| | |
| également essayer de collecter un maximum de données, notamment pour
| |
| | |
| les variables dépendantes et indépendantes centrales. Dans la réalité,
| |
| | |
| ceci se fait toujours sous contrainte de temps et il faut trouver un
| |
| | |
| équilibre dans l’idée de maximiser des informations sur les choses qui
| |
| | |
| nous intéressent.
| |
| | |
| Dans une recherche sur l’opinion publique, 4 indicateurs sur
| |
| | |
| l’environnement ont été choisis. Dans cet exemple, on peut s’imaginer
| |
| | |
| que chaque indicateur mesure quelque chose de légèrement différent et
| |
| | |
| cela pourrait générer des résultats différents. Pour augmenter la
| |
| | |
| robustesse des analyses, il faut analyser chaque indicateur avant de
| |
| | |
| développer des résultats. Généralement, plusieurs indicateurs nous
| |
| | |
| permettent de renforcer la consistance de la recherche car plus
| |
| | |
| d’indicateurs vont dans la même sens, plus notre résultat est robuste
| |
| | |
| et le teste de notre analyse n’est pas due au hasard.
| |
| | |
| <nowiki>###</nowiki> Anticiper les problèmes
| |
| | |
| Si on est systématique et qu’on veille à une bonne qualité de données,
| |
| | |
| on devrait être capable d’anticiper les problèmes avant la collecte des
| |
| | |
| données et donc **de les déjoués en amont**. Ces problèmes sont propres
| |
| | |
| à chaque recherche.
| |
| | |
| Par exemple : il faut être conscient qu’on aurait pour chaque recherche
| |
| | |
| des populations sous-représentées tel que les jeunes.
| |
| | |
| Un autre problème dont il faut être conscient est la
| |
| | |
| <nowiki><span class="underline">fiabilité des codeurs</span></nowiki>, c’est-à-dire que
| |
| | |
| si on analyse les articles dans la presse, on utilise plusieurs codeurs
| |
| | |
| pour déterminer la chose dont ils parlent. Il faut s’assurer et mettre
| |
| | |
| des stratégies en place pour que chaque personne identifiée les sujets
| |
| | |
| de la même manière.
| |
| | |
| Il faut toujours voir s’il y a des <nowiki><span class="underline">différences</nowiki>
| |
| | |
| linguistiques<nowiki></span></nowiki> dans une variable (confidence – trust / pas de
| |
| | |
| distinction en français).
| |
| | |
| Si on regarde dans la temporalité, on pourrait avoir des
| |
| | |
| <nowiki><span class="underline">données manquantes</span></nowiki> comme c’est le cas
| |
| | |
| lors de la 2<nowiki><sup>ème</sup></nowiki> guerre mondiale. Faut-il écarter ce temps de
| |
| | |
| notre analyse ou en d’autres termes, comment le gérer ?
| |
| | |
| - Si on anticipe les problèmes avant la collecte, on peut trouver les
| |
| | |
| problèmes en amont.
| |
| | |
| <nowiki>###</nowiki> Réplicabilité
| |
| | |
| Répliquer des études quantitatives est difficile mais en répliquant le
| |
| | |
| processus de données, on diminue cette difficulté. C’est le cas avec
| |
| | |
| <nowiki>*</nowiki>The American Voter* où on reprend les données actuellement mais on ne
| |
| | |
| le réplique pas entièrement. Il est nécessaire de tenir un journal de
| |
| | |
| bord sur le processus de récolte de données puisqu’on aura une
| |
| | |
| transparence sur le processus de récolte. Cela va nous permettre
| |
| | |
| d’expliquer comment on a procédé dans les détails et les problèmes
| |
| | |
| qu’on a rencontré au fil de notre recherche. Cela nous permet aussi
| |
| | |
| d’identifier les biais qui se sont introduits. Si on prend compte de
| |
| | |
| ces biais au moment de l’analyse et de l’interprétation des résultats,
| |
| | |
| on peut augmenter la qualité de nos résultats. Un journal de bord est
| |
| | |
| aussi utile pour éviter les artefacts statistiques. Les métadonnées sont
| |
| | |
| des données sur nos données comme par exemple expliquer comment s’est
| |
| | |
| passé notre entretien. Le journal de bord et les métadonnées permettent
| |
| | |
| d’expliciter le processus de récolte de données.
| |
| | |
| - Pour avoir une bonne qualité de données, il faut :
| |
| | |
| <!-- end list -->
| |
| | |
| 1. Etre systématique et éviter les biais
| |
| | |
| 2. S’assurer de la validité et de la fiabilité de nos données
| |
| | |
| 3. Essayer d’anticiper des problèmes
| |
| | |
| 4. Permettre la réplicabilité le plus possible
| |
| | |
| <nowiki>##</nowiki> Différents types de supports
| |
| | |
| Beaucoup d’informations peuvent être trouvées sur des supports textuels
| |
| | |
| comme des interventions parlementaires. Un **support textuel** majeur
| |
| | |
| est la presse ou les médias plus généralement pour saisir les débats
| |
| | |
| publics comme la migration pour évaluer la structure des débats avant
| |
| | |
| des élections par exemple. Ces exemples devraient montrer qu’il existe
| |
| | |
| pleins de données textuelles qui peuvent être converties en données
| |
| | |
| chiffrées.
| |
| | |
| Ceci est également le cas pour des **données orales** pouvant venir de
| |
| | |
| la TV, de la radio, d’internet etc.
| |
| | |
| En plus des supports textuels et oraux, il y a la technique **d’enquêtes
| |
| | |
| par questionnaire** qui implique de récolter des données directement
| |
| | |
| auprès des acteurs. C’est une technique fortement standardisée
| |
| | |
| puisqu’elle est très utilisée en science sociale. Néanmoins, ce n’est
| |
| | |
| pas la seule technique pour collecter des données.
| |
| | |
| <nowiki>###</nowiki> Créativité et imagination
| |
| | |
| Il n’est pas facile de récolter des données en raison de la
| |
| | |
| non-disponibilité ou de la difficulté d’accès à des supports de
| |
| | |
| collecte. On nous apprend des outils de base dans ce cours mais il faut
| |
| | |
| compter sur notre créativité et notre imagination. La recherche de
| |
| | |
| Zuccato a proposé d’analyser les eaux usées pour déterminer le taux de
| |
| | |
| cocaïne que les gens prennent.
| |
| | |
| Il existe différents processus de récolte de donnée et donc différents
| |
| | |
| types de données qui ont par conséquent différentes types d’application.
| |
| | |
| <nowiki>##</nowiki> Différents types de données
| |
| | |
| <nowiki>###</nowiki> Primaires vs secondaires
| |
| | |
| Il faut toujours réfléchir si on veut récolter des données primaires ou
| |
| | |
| utiliser des données secondaires. Les **données** **primaires** sont les
| |
| | |
| données que le chercheur récolte lui-même et elles sont spécifiques à
| |
| | |
| une recherche. Ses <nowiki><span class="underline">avantages</span></nowiki> sont
| |
| | |
| nombreux et substantiels :
| |
| | |
| - Elles sont le fruit d’un dessin de recherche qui correspond à la
| |
| | |
| problématique de la recherche.
| |
| | |
| - Ce sont des données dont la chercheuse a besoin et elles sont
| |
| | |
| adaptées pour répondre à la question de recherche et pour tester
| |
| | |
| les hypothèses.
| |
| | |
| - On peut partir du postulat que la validité est bonne et que les
| |
| | |
| indicateurs sont adéquats.
| |
| | |
| La raison pour laquelle les chercheurs n’utilisent pas ce type de
| |
| | |
| données est qu’il y a des **désavantages** considérables. Ce type de
| |
| | |
| données est coûteux en temps en argent. De plus, on peut ne pas avoir la
| |
| | |
| formation requise pour bien récolter les données primaires.
| |
| | |
| A cause de ces désavantages, les chercheurs utilisent des **données
| |
| | |
| secondaires**, à savoir des données récoltées par d’autres chercheurs.
| |
| | |
| Leurs **avantages** sont qu’elles :
| |
| | |
| - Soient disponibles et il n’y a pas de coût ni en temps, ni en argent
| |
| | |
| ni en formation.
| |
| | |
| - Elles permettent de faire des comparaisons plus facilement.
| |
| | |
| Sauf que leur **désavantage** est que ce sont des données qui :
| |
| | |
| - Ne sont pas toujours adaptées à notre recherche.
| |
| | |
| - On n’a pas toujours les bons indicateurs
| |
| | |
| - On est plus confronté à des problèmes de validité.
| |
| | |
| - La récolte de données peut comporter des biais qu’on ne connaît pas
| |
| | |
| forcément.
| |
| | |
| - Question : Comment choisir entre ces deux types de données ?
| |
| | |
| Avant de se lancer dans une collecte de données, il faut s’assurer qu’il
| |
| | |
| n’existe pas des données secondaires utilisables. Et si c’est le cas, on
| |
| | |
| peut essayer d’améliorer certains indicateurs en combinant les indices.
| |
| | |
| On privilégie les données secondaires dans la mesure où elles sont
| |
| | |
| adaptées. Sauf qu’il faut être attentif aux problèmes de validité des
| |
| | |
| mesures. Il faut également bien regarder les métadonnées parce qu’elles
| |
| | |
| nous donnent beaucoup d’informations.
| |
| | |
| <nowiki>###</nowiki> Exhaustives vs échantillonnées
| |
| | |
| Les **données exhaustives** sont les données collectées par l’Etat. Ce
| |
| | |
| sont des données sur l’ensemble de la population qui suppose une
| |
| | |
| énumération complète comme pour les recensements de la population ou
| |
| | |
| pour saisir le flux de migrants. L’avantage principale de ces données
| |
| | |
| apparaît dans son nom puisque l’exhaustivité implique qu’il n’y a pas de
| |
| | |
| bais en termes de représentativité donc il n’y aurait pas d’erreur
| |
| | |
| d’échantillonnage. Toutefois, elles ne sont **pas forcément de bonne
| |
| | |
| qualité** :
| |
| | |
| - Par exemple, si c’est la police qui collecte des données sur la
| |
| | |
| violence, ce sont eux qui déterminent les indicateurs et ce n’est
| |
| | |
| pas forcément en cohérence par rapport à notre recherche. Donc
| |
| | |
| l’exhaustivité n’est pas assurée \!
| |
| | |
| - De plus, ces données contiennent très peu de variables différentes.
| |
| | |
| - Elles coûtent au niveau de l’argent et au niveau de la lourdeur de
| |
| | |
| la collecte
| |
| | |
| - Recensements sont en voie de disparition
| |
| | |
| Dans la plupart des cas, on travaille avec des **données
| |
| | |
| échantillonnées** qui sont des données tirées d’une portion de la
| |
| | |
| population appelée la « population mère ». Ce peut être la population
| |
| | |
| suisse, des éditions de journaux etc. L’idée d’utilisée un échantillon à
| |
| | |
| la place d’une population est une idée révolutionnaire. Cela consiste à
| |
| | |
| prendre un échantillon représentatif de l’ensemble de la population. A
| |
| | |
| partir de cet échantillon, on fait des inférences statistiques sur la
| |
| | |
| population qu’elle représente. C’est Kiaer qui a eu cette idée au
| |
| | |
| 19<nowiki><sup>ème.</sup></nowiki> Ce type de données ont des **avantages**
| |
| | |
| puisqu’elles :
| |
| | |
| - Augmentent les possibilités de collecte de données dans plusieurs
| |
| | |
| domaines.
| |
| | |
| - Augmentent la faisabilité des recherches
| |
| | |
| - Rendent le travail de recherche plus facile.
| |
| | |
| - En plus de cette flexibilité, elles nous donnent une plus grande
| |
| | |
| importance en tant que chercheur puisqu’on dépend moins de l’Etat.
| |
| | |
| Ceci ne veut pas dire qu’on est complètement indépendant puisque les
| |
| | |
| recherches coûtent cher.
| |
| | |
| - La majorité des outils techniques a été élaborés pour ce type de
| |
| | |
| données. Finalement, ce type de données permet une gestion plus
| |
| | |
| facile des données car on a un plus petit fichier de données.
| |
| | |
| Les **désavantages** sont que :
| |
| | |
| - Les chercheurs nécessitent une expertise puisque la sélection de
| |
| | |
| l’échantillon est un vrai enjeu car il faut assurer la qualité et
| |
| | |
| la représentativité des inférences.
| |
| | |
| - De plus, chaque échantillon est confronté à la question de la
| |
| | |
| représentativité. Cela signifie qu’il y a généralement une
| |
| | |
| structure dans les non-réponses qui rend l’échantillon non
| |
| | |
| représentatif.
| |
| | |
| - Question : comment choisir entre ces deux types de données ?
| |
| | |
| On privilégie les données échantillonnées à cause de leur flexibilité.
| |
| | |
| On opte pour l’exhaustivité pour de petites populations. Dans les deux
| |
| | |
| cas, il faut être attentif. Pour les données exhaustives, même si elles
| |
| | |
| sont appelées comme ça, il faut toujours faire attention au biais de
| |
| | |
| sélection. Ceci se fait par exemple sur les groupes qui sont sondées ;
| |
| | |
| les migrants, oui mais lesquels ? Pour les données échantillonnées, il
| |
| | |
| faut toujours analyser la qualité et le taux de non-réponse pour avoir
| |
| | |
| une bonne représentativité.
| |
| | |
| <nowiki>###</nowiki> Individuelles vs agrégées
| |
| | |
| La différence majeure est l’unité d’analyse sur laquelle on collecte des
| |
| | |
| informations. Les **données individuelles** collectent des données sur
| |
| | |
| les individus comme pour la participation politique, les valeurs ou les
| |
| | |
| aptitudes. L’unité d’analyse sont les individus avec leurs
| |
| | |
| caractéristiques. Cela permet d’analyser la variation, c’est-à-dire la
| |
| | |
| différence entre les individus.
| |
| | |
| Les **données agrégées** sont des données sur des agrégats tels que des
| |
| | |
| Etats, des villes, des quartiers, des organisations. Ces données sont
| |
| | |
| utilisées au niveau macro comme pour l’analyse spatiale du politique. Ce
| |
| | |
| sont les caractéristiques des régions par exemple et pas des individus
| |
| | |
| qui y habitent. Par contre, la logique analytique des données agrégées
| |
| | |
| est partagée avec celles des données individuelles ; la logique d’étude
| |
| | |
| des variations sauf que c’est entre les agrégats et pas les individus :
| |
| | |
| Est-ce que la taille des communes a une influence sur la participation
| |
| | |
| électorale ?
| |
| | |
| <nowiki>###</nowiki> Erreur écologique
| |
| | |
| Il est important de distinguer ces deux niveaux pour ne pas faire des
| |
| | |
| erreurs écologiques.
| |
| | |
| Au niveau individuel, on peut trouver empiriquement que les individus
| |
| | |
| avec des difficultés financières tendent à voter à gaucher mais cela ne
| |
| | |
| signifie pas qu’en période de crise, les partis de gauche ont les scores
| |
| | |
| les plus élevés. Si on confond le niveau macro et micro, on fait une
| |
| | |
| erreur écologique.
| |
| | |
| On peut distinguer entre hypothèses et données. Les deux peuvent être de
| |
| | |
| niveau <nowiki><span class="underline">individuel</span></nowiki> ou
| |
| | |
| <nowiki><span class="underline">agrégé</span></nowiki>. Tant qu’on teste les hypothèses
| |
| | |
| avec les données récoltés au même niveau, il n’y a pas de problème.
| |
| | |
| L’erreur écologique consiste à analyser les hypothèses avec les
| |
| | |
| données récoltes qui ne sont pas du même niveau (agrégé avec
| |
| | |
| individuel). En d’autres termes, c’est le fait de tester des hypothèses
| |
| | |
| au niveau individuel avec des données agrégées. Ou encore, le fait
| |
| | |
| d’analyser des propriétés individuelles inférées sur la base
| |
| | |
| d’observations faites au niveau agrégé.
| |
| | |
| Exemple : l’étude de Pisa a trouvé que la Suisse est forte en
| |
| | |
| mathématique mais cela ne signifie pas que tout écolier est fort en
| |
| | |
| mathématique. Il y a ainsi une forte variance et donc pas
| |
| | |
| d’homogénéité \!
| |
| | |
| A l’origine de cette erreur, il y a l’étude de W. Robinson qui
| |
| | |
| s’intéresse au lien entre le taux d’analphabétisme et le taux
| |
| | |
| d’immigré dans un Etat américain.
| |
| | |
| <nowiki>###</nowiki> Conclusion
| |
| | |
| Il faut faire attention à l’unité d’analyse de la recherche \! On peut
| |
| | |
| agréger des données individuelles mais l’inverse n’est pas possible \!
| |
| | |
| Une manière pour combiner les deux niveaux sont les analyses
| |
| | |
| multiniveaux qui est une analyse poussée mais même ici, on conserve
| |
| | |
| chaque niveau séparément. On analyse la relation à un niveau en étant
| |
| | |
| sous le contrôle de l’autre. Néanmoins, on analyse toujours les
| |
| | |
| interactions entre les différents niveaux.
| |
| | |
| <nowiki>#</nowiki> Elaboration d’un questionnaire standardisé : Principes généraux
| |
| | |
| <nowiki>##</nowiki> Construction d’un questionnaire
| |
| | |
| <nowiki>***</nowiki>L’enjeu principal autour de la construction d’un questionnaire est la
| |
| | |
| fiabilité des mesures***. En effet, Kalton et Moser explique bien «
| |
| | |
| qu’aucun sondage ne peut être meilleur que son questionnaire ».
| |
| | |
| <nowiki>***</nowiki>Chaque question correspond à une mesure devant être utilisable pour
| |
| | |
| répondre à nos hypothèses premières***. Pour la recherche, on dit
| |
| | |
| souvent que la qualité du questionnaire est primordiale. Ainsi, une
| |
| | |
| mauvaise question entrainera la récolte de mauvaises mesures.
| |
| | |
| <nowiki>##</nowiki> Deux types d’erreur
| |
| | |
| 1. Il peut y avoir une erreur au niveau théorique
| |
| | |
|
| |
| | |
| 1. Problème de la validité de la mesure : évaluation de la mesure
| |
| | |
| au niveau théorique
| |
| | |
|
| |
| | |
| 2. Opérationnalisation
| |
| | |
| 2. Erreur au niveau empirique
| |
| | |
|
| |
| | |
| 1. Problème de fiabilité de la mesure : évaluation de la mesure au
| |
| | |
| niveau empirique (idée de la consistance de la mesure)
| |
| | |
|
| |
| | |
| 2. Fidélité, robustesse, reproductibilité
| |
| | |
|
| |
| | |
| 3. Formulation des questions
| |
| | |
| <nowiki>###</nowiki> Fiabilité des mesures
| |
| | |
| L’idée de la fiabilité est simple en théorie mais difficile à mettre en
| |
| | |
| œuvre. Il y a des questions qui peuvent être comprises de manière
| |
| | |
| différente que ce qu’on le croit. La reproductibilité correspond au
| |
| | |
| fait ***qu’un même output sera produit si un même input est appliqué***.
| |
| | |
| C’est en lien avec la reproductibilité qu’il n’est pas toujours possible
| |
| | |
| de comparer entre elles des données, devant pour ce faire avoir été
| |
| | |
| produites de la même manière. C’est pourquoi les questionnaires doivent
| |
| | |
| être construits de sorte à ce que les ***réponses données proviennent
| |
| | |
| toutes d’un même input***. C’est pourquoi les questions doivent être
| |
| | |
| précises, simples... Afin que tous les répondants les comprennent de la
| |
| | |
| même manière et se positionnent par rapport à des inputs précis. Cet
| |
| | |
| exercice est d’autant plus difficile si le questionnaire doit être passé
| |
| | |
| auprès d’une population hétérogène (langue, culture, religion...)
| |
| | |
| différentes, les mots pouvant être socialement situés. ***En plus des
| |
| | |
| questions devant être intelligemment conçues pour être comprises de
| |
| | |
| manière uniforme au sein de la population cible, le questionnaire doit
| |
| | |
| également être uniformément transmis \!*** En effet, les intervieweurs
| |
| | |
| ne doivent pas inclure dans la question posée leur interprétation
| |
| | |
| propre.
| |
| | |
| Il existe plusieurs sources de non-fiabilité des mesures. Comme nous
| |
| | |
| l’avons dit, les ***questions peuvent être comprises différemment***
| |
| | |
| selon l’enquêté. Il faut encore noter que les mots peuvent changer de
| |
| | |
| sens au fil du temps mais aussi dans l’espace. Cette dimension est
| |
| | |
| importante à prendre en compte notamment lorsqu’il s’agit de répliquer
| |
| | |
| une étude ancienne. Il faudra alors se demander si les questions doivent
| |
| | |
| être traduites dans un vocabulaire plus actuel pour obtenir le même type
| |
| | |
| de réponses que jadis ou ces mots avaient des connotations différentes.
| |
| | |
| De plus, si ***la question contient deux inputs***, c’est à dire si la
| |
| | |
| question demande aux répondant de se positionner sur deux éléments de
| |
| | |
| question à la fois, le chercheur ne pourra savoir à quel stimuli
| |
| | |
| l’enquêté a répondu. Il faut également être vigilant au fait que
| |
| | |
| <nowiki>***</nowiki>la désirabilité sociale joue un rôle important lors de la passation
| |
| | |
| de questionnaire***. La désirabilité sociale est une sorte d’autocensure
| |
| | |
| lorsque l’enquêté craint d’être jugé négativement s’il donne une réponse
| |
| | |
| particulière à une question. Elle évolue dans le temps si bien qu’il est
| |
| | |
| aujourd’hui tout à fait commun de dire être divorcer, contrairement à
| |
| | |
| avant. Par contre, dire aujourd’hui que l’on est raciste est très
| |
| | |
| difficile, terme fortement déprécié. Enfin, il faut s’assurer que
| |
| | |
| <nowiki>***</nowiki>tous les enquêteurs posent les questions de la même manière*** lors
| |
| | |
| de la passation du questionnaire et ce, pour n’induire aucun biais de
| |
| | |
| compréhension.
| |
| | |
| <nowiki>###</nowiki> Source de non-fiabilité des mesures
| |
| | |
| Ce n’est pas seulement les questions en soi qui peuvent poser problèmes
| |
| | |
| mais également les répondants. En plus, ce sont souvent des groupes
| |
| | |
| différents qui répondent à nos questions. Ils ont des ancrages sociaux
| |
| | |
| différents et des différenciations générationnelles ce qui fait qu’ils
| |
| | |
| peuvent comprendre les questions différemment. De plus, il est
| |
| | |
| nécessaire de prendre les contextes en compte ; cela change en fonction
| |
| | |
| du temps et de l’espace. Par rapport, ce ne sont pas seulement les
| |
| | |
| personnes âgées qui posent des problèmes mais tout répondant confondu
| |
| | |
| lorsqu’il s’agit de questions délicates. Cela rend compte à la
| |
| | |
| désirabilité sociale où les gens répondent en fonction de ce qui est
| |
| | |
| perçu comme « bien » socialement ; personne n’est raciste et tout le
| |
| | |
| monde participe politiquement. Finalement, les enquêteurs peuvent poser
| |
| | |
| des questions différentes jusqu’au point où la compréhension de la
| |
| | |
| question varie.
| |
| | |
| - Toutes ces sources nous montrent que la fiabilité se travaille au
| |
| | |
| moment de l’élaboration du questionnaire. Cela ne signifie pas
| |
| | |
| seulement au moment d’écrire et de penser des questions mais qu’il
| |
| | |
| faut également faire des pré-tests pour identifier des biais
| |
| | |
| potentiels.
| |
| | |
| <nowiki>##</nowiki> Questionnaire standardisé : de quoi s’agit-il ?
| |
| | |
| On récolte des informations de manière systématique. L’idée est de
| |
| | |
| passer le même questionnaire à tout l’échantillon. L’approche de cette
| |
| | |
| démarche quantitative est de fermer au maximum l’espace d’expression
| |
| | |
| pour l’individu. Pour la grande majorité, le questionnaire utilise des
| |
| | |
| questions fermées, c’est-à-dire des questions avec des réponses déjà
| |
| | |
| pré-codées. On va donc maximiser la standardisation entre le répondant
| |
| | |
| avec un input et un même output. Le résultat de cette démarche est de
| |
| | |
| recevoir peu d’informations sur un grand nombre de personnes pour
| |
| | |
| pouvoir les analyser de manière systématique les statistiques et les
| |
| | |
| covariances. L’entretien qualitatif quant à lui veut ouvrir au maximum
| |
| | |
| l’espace d’expression de l’individu et on laisse simplement parler
| |
| | |
| l’interviewé. Avec une approche qualitative, la logique est
| |
| | |
| différente. Pour le questionnaire, il y a peu d’informations pour
| |
| | |
| beaucoup de personnes tandis qu’avec une approche qualitative, on reçoit
| |
| | |
| beaucoup d’informations sur peu de personnes. Puis on va analyser ces
| |
| | |
| informations par une démarche interprétative.
| |
| | |
| Les deux techniques sont complémentaires et il est possible de les
| |
| | |
| utiliser mais **<nowiki><span class="underline">pas</span></nowiki>** de les mélanger \!
| |
| | |
| Il faut d’abord en réaliser une puis l’autre en suivant
| |
| | |
| chronologiquement les procédures.
| |
| | |
| <nowiki>###</nowiki> Difficultés
| |
| | |
| Le fait que les personnes ne comprennent pas toujours de la même manière
| |
| | |
| les questions sauf qu’on peut minimiser ce problème. Un autre problème,
| |
| | |
| moins évitable, est qu’on force des réponses sur des enjeux sur lesquels
| |
| | |
| les personnes n’ont que peu de connaissance. La conséquence est que les
| |
| | |
| gens vont répondre « on the top of the head » ; ils ne vont pas
| |
| | |
| réfléchir de par eux-mêmes. Les politologues sont les experts pour
| |
| | |
| poser des questions trop difficiles. Cela peut être frustrant et c’est
| |
| | |
| pour cela que les sondages peuvent avoir mauvaise presse.
| |
| | |
| Il faut prendre pour ce faire les questions pour ce qu’elles sont,
| |
| | |
| c’est-à-dire des approximations. Cela permet d’éviter les plus gros
| |
| | |
| biais. Ce problème d’ailleurs n’est pas seulement valable pour les
| |
| | |
| questionnaires mais pour toute enquête de terrain. En dépit de ces
| |
| | |
| problèmes, le questionnaire reste un instrument intéressant pour les
| |
| | |
| connaissances sociologiques.
| |
| | |
| Une fois les questionnaires remplis, il y a une irréversibilité de la
| |
| | |
| mesure parce qu’in ne peut pas retourner auprès des répondants. Ces
| |
| | |
| réponses vont nous permettre de mettre en discussion nos hypothèses et
| |
| | |
| notre théorique. Avec une démarche qualitative, on peut toujours
| |
| | |
| compléter nos informations.
| |
| | |
| <nowiki>###</nowiki> Que mesure-t-on au moyen d’un QS ?
| |
| | |
| 1. Ce que les individus pensent avec leurs attitudes, leurs croyances
| |
| | |
| et leurs valeurs
| |
| | |
| 2. Ce que les individus font : leurs comportements et leurs expériences
| |
| | |
| passées
| |
| | |
| 3. Ce que les individus sont : leurs attributs personnels
| |
| | |
| Cette distinction est impérative car ces 3 catégories ne posent pas les
| |
| | |
| mêmes difficultés dans l’élaboration des questions :
| |
| | |
| 
| |
| | |
| Il est important de distinguer ces trois catégories puisqu’elles sont
| |
| | |
| toutes des sources potentielles de non fiabilité mais pour des raisons
| |
| | |
| différentes. En effet, tout ce qui provient directement de l’esprit des
| |
| | |
| individus n’est pas facile à saisir et source de non fiabilité. En
| |
| | |
| effet, le contexte de passation du questionnaire, la formulation des
| |
| | |
| questions... aura un grand impact sur les réponses données, bien plus
| |
| | |
| que lorsque les personnes parlent de faits plus objectifs comme leur
| |
| | |
| agissements (font) ou leur statut social (sont). De plus, il faut
| |
| | |
| prendre en compte les efforts de cohérence individuelle dont les
| |
| | |
| individus font preuve pour conter leur vie, mais aussi de problèmes de
| |
| | |
| mémoire pouvant biaiser les réponses. Pour ce qui est des questions
| |
| | |
| liées à « l’être» des individus, il est très fréquent de les placer en
| |
| | |
| fin de questionnaire puisque ces questions, potentiellement intrusives,
| |
| | |
| peuvent rebuter des répondants en début d’étude.
| |
| | |
| Voici maintenant un exemple montrant à quel point la formulation des
| |
| | |
| questions est important et influence les réponses données :
| |
| | |
| 
| |
| | |
| Exemple de Rugg et Cantril 1944 :
| |
| | |
| Q1 : Des gens disent que depuis que l’Allemagne est en train de battre
| |
| | |
| la Russie et bientôt l’Angleterre, il est nécessaire que les USA
| |
| | |
| viennent en aide à l’Angleterre, qu’en pensez-vous ?
| |
| | |
| Q2 : Des gens disent que depuis que l’Allemagne va probablement vaincre
| |
| | |
| la Russie dans quelques semaines et bientôt diriger toute sa force armée
| |
| | |
| contre l’Angleterre, il est plus important que jamais que les USA
| |
| | |
| viennent en aide à l’Angleterre, qu’en pensez-vous ?
| |
| | |
| La différence peut être dû au fait de l’influence de la question mais
| |
| | |
| aussi à l’hétérogénéité des groupes.
| |
| | |
| Exemple de Zaller 1992 :
| |
| | |
| Questions rétrospectives : Continuer à penser à la question à laquelle
| |
| | |
| vous de répondre, j’aimerais que vous me dites quelles sont les idées
| |
| | |
| qui vous viennent à l’esprit lorsque vous répondiez à cette question.
| |
| | |
| Questions Stop-and-think : Avant de répondre à la question, j’aimerai
| |
| | |
| que vous me dites ce que vous ressentez, ce qui vous viens à l’esprit
| |
| | |
| lorsque vous pensez à cette question.
| |
| | |
| 
| |
| | |
| - Il se trouve que lorsque les gens réfléchissent après avoir donné la
| |
| | |
| réponse, on trouve moins d’ambivalence dans la réflexion que s’ils
| |
| | |
| formulent la question avant.
| |
| | |
| <nowiki>##</nowiki> Elaboration d’un questionnaire
| |
| | |
| Trois axes :
| |
| | |
| 1. **Formulation des questions **: parfois un travail artisanal surtout
| |
| | |
| pour la construction de questions nouvelles. Dans ce processus,
| |
| | |
| l’inventivité et l’ingéniosité du chercheur est importante car on
| |
| | |
| n’a pas mal de liberté dans ce processus. Sauf qu’elle est limitée
| |
| | |
| dans un certain nombre de pièges à éviter. Puis, il faut acquérir
| |
| | |
| l’expérience qui nous permet d’éviter les mesures pour avoir une
| |
| | |
| bonne fiabilité et validité des mesures.
| |
| | |
|
| |
| | |
| - <nowiki><span class="underline">Peut-on y répondre</span></nowiki> (à ma
| |
| | |
| question) ? Pour chaque question, on doit se demander si mes
| |
| | |
| répondants ont les connaissances nécessaires pour répondre aux
| |
| | |
| questions. Sauf que les gens ne vont souvent pas admettre leur
| |
| | |
| ignorance. De plus, ils ne vont pas utiliser la coche « ne sait
| |
| | |
| pas ». Ainsi, toutes les personnes ne peuvent pas répondre aux
| |
| | |
| questions.
| |
| | |
|
| |
| | |
| - <nowiki><span class="underline">Veut-on y répondre ?</span></nowiki> Il faut être
| |
| | |
| sensible au fait que les gens ne veulent pas répondre à nos
| |
| | |
| questions. Cela a deux incidences ; au niveau de non-réponses ou
| |
| | |
| au niveau de qualité des réponses livrées. Il faut informer les
| |
| | |
| répondants de notre recherche et les assurer de leur anonymat.
| |
| | |
|
| |
| | |
| - <nowiki><span class="underline">Accroître la fiabilité :</span></nowiki> Pour
| |
| | |
| accroitre la fiabilité et la validité des questions présentées
| |
| | |
| dans un questionnaire, il est important de ***proscrire les
| |
| | |
| leading questions***, c’est à dire une question amenant un
| |
| | |
| élément extérieur pouvant influencer la réponse de l’enquêté.
| |
| | |
| Il s’agit, par exemple, de demander simplement : Etes-vous pour
| |
| | |
| une augmentation des impôts ? Et non pas : Etes-vous pour une
| |
| | |
| augmentation des impôts pour améliorer la protection sociale des
| |
| | |
| citoyen-e-s ?
| |
| | |
| > Un autre moyen d’accroitre la fiabilité d’une
| |
| | |
| > question est ***d’éviter les questions aprioristiques***. En effet, il
| |
| | |
| > s’agit de remettre dans le ***contexte*** la question pour éviter les
| |
| | |
| > biais ou encore d’appliquer un ***filtre***. Un exemple de questions
| |
| | |
| > aprioristiques serait : Qu’avez-vous voté lors des dernières élections
| |
| | |
| > ? Ainsi, pour éviter tout biais, il faudrait plutôt construire la
| |
| | |
| > question en utilisant un filtre comme suit :
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> Désirabilité sociale
| |
| | |
| Ainsi, cette deuxième question associée permet de vérifier que la
| |
| | |
| première réponse est correcte. Enfin, ***la désirabilité sociale peut
| |
| | |
| introduire de nombreux biais dans une recherche***. Il faut donc être
| |
| | |
| attentif que l’acceptabilité sociale de la réponse potentiellement
| |
| | |
| donnée à la question posée soit suffisamment grande pour que les
| |
| | |
| individus puissent se permettre de le dire. Ainsi, les questions de type
| |
| | |
| <nowiki>:</nowiki> Etes-vous raciste ? Sont évidemment à proscrire. Comme le montre cet
| |
| | |
| exemple, la désirabilité sociale affecte considérablement les résultats.
| |
| | |
| Pour rétablir cela, il est intéressant d’appliquer un filtre afin de
| |
| | |
| trier les personnes répondant sous la pression de la désirabilité
| |
| | |
| sociale.
| |
| | |
| 
| |
| | |
| Ainsi, on voit que sur les questions sensibles pour lesquelles les
| |
| | |
| répondants ont peur d’être jugés ou mal vus par l’enquêteur, les
| |
| | |
| réponses données peuvent être différentes de ce qu’il en est en
| |
| | |
| réalité. Pour ***contrer ce biais de désirabilité sociale***,
| |
| | |
| plusieurs options s’offre au chercheur. Premièrement, il peut s’agir de
| |
| | |
| <nowiki>***</nowiki>déculpabiliser le répondant***, notamment en incluant dans la
| |
| | |
| question un stimuli déculpabilisant. Par exemple, pour une question
| |
| | |
| portant sur le taux de participation, il s’agirait de demander non pas «
| |
| | |
| avez-vous voté » mais plutôt «lors des votations, environ la moitié des
| |
| | |
| personnes se rendent aux urnes. En ce qui vous concerne, avez-vous voté
| |
| | |
| ? ». Une autre solution réside dans le fait de ***libérer la parole***,
| |
| | |
| ce que l’on appelle communément l’effet pommade. Il s’agit par exemple
| |
| | |
| d’utiliser la sympathie pour que le répondant se sente plus à l’aise
| |
| | |
| de s’exprimer sincèrement. Voici un exemple tiré d’une enquête effectuée
| |
| | |
| par Mayer en 2002 qui illustre cette méthode de prévention du biais de
| |
| | |
| désirabilité sociale :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Désirabilité sociale – solutions
| |
| | |
| Bradburn propose ***trois solutions différentes pour annihiler le plus
| |
| | |
| possible les biais de désirabilité sociale***, en opposition à
| |
| | |
| l’approche habituelle qui consisterait à poser directement et sans
| |
| | |
| détour une question. En effet, l’approche usuelle consisterait à
| |
| | |
| demander au répondant : Avez-vous tué votre femme ? Mais cette question,
| |
| | |
| très sensible, risque de ne produire des résultats que peu concluants.
| |
| | |
| C’est pourquoi il propose trois approches plus fines, destinées à
| |
| | |
| libérer la parole de l’enquêté :
| |
| | |
| - ***L’approche des cartes*** : Plusieurs cartes sont présentées au
| |
| | |
| répondant qui doit rendre à l’enquêteur celle correspondant à sa
| |
| | |
| réponse. Ce procédé a pour particularité de ne pas demander au
| |
| | |
| sujet de verbaliser sa réponse, ce qui peut avoir être plus facile
| |
| | |
| lorsque des sujets difficiles sont abordés.
| |
| | |
| - ***L’approche « tout le monde »*** : Cette approche consiste à
| |
| | |
| déculpabiliser le répondant en lui faisant sentir qu’il n’est pas
| |
| | |
| le seul à penser/agir/être... ainsi. Cela permet au répondant de se
| |
| | |
| sentir moins seul et isolé dans sa situation et donc de libérer sa
| |
| | |
| parole.
| |
| | |
| - ***L’approche « les autres »*** : Cette approche consiste à
| |
| | |
| demander, en préambule, au répondant s’il connaît quelqu’un dans une
| |
| | |
| situation peut avouable avant de lui demander si lui-même s’y
| |
| | |
| trouve. Cela permet encore une fois de déculpabiliser le répondant
| |
| | |
| en lui montrant qu’il n’est pas le seul dans cette situation.
| |
| | |
| C’est toujours avec le même souci d’accroitre la fiabilité des mesures
| |
| | |
| que ***les questions rétrospectives doivent être considérées avec
| |
| | |
| attention***. En effet, il faut tenir compte que les individus peuvent
| |
| | |
| avoir oublié ou réinterprété des évènements passés si bien que la
| |
| | |
| fiabilité peut être mise à mal. De plus, la validité s’en voit aussi
| |
| | |
| menacé puisque le risque est de ne pas mesurer ce que le chercheur
| |
| | |
| souhaite. Voici un exemple de question rétrospective :
| |
| | |
| 
| |
| | |
| Comme on le voit sur cet exemple, un bon moyen de contrôler les biais
| |
| | |
| que peut induire ce type de questions est de ***poser des repères
| |
| | |
| temporels*** (cette année, durant le mois de...).
| |
| | |
| <nowiki>###</nowiki> Formulation des questions synthèse
| |
| | |
| En résumé, lorsque l’on construit les questions d’un sondage, il faut
| |
| | |
| penser :
| |
| | |
| - ***Si les répondants sont en mesure de répondre aux questions
| |
| | |
| posées***. C’est pourquoi il faut ***bannir les pratiques
| |
| | |
| aprioristes*** et ne jamais postuler que les répondants savent, la
| |
| | |
| connaissance n’étant pas socialement répartie de manière homogène.
| |
| | |
| - ***Si les répondants vont être d’accord de répondre aux questions
| |
| | |
| posées***. Pour
ce faire, il faut respecter les enquêtés et établir
| |
| | |
| un lien de coopération avec l’enquêteur. C’est pourquoi les
| |
| | |
| questions intrusives doivent être placées en toute fin du
| |
| | |
| questionnaire.
| |
| | |
| - A la ***fiabilité du questionnaire***, c’est à dire si le stimuli
| |
| | |
| présent dans chaque question produira le même type d’output, c’est
| |
| | |
| à dire ***si tous les enquêtés comprendront la question de la même
| |
| | |
| manière et répondront en fonction de cette compréhension commune***.
| |
| | |
| C’est pourquoi il faut poser des questions précises, claires,
| |
| | |
| accessibles et courtes, ne postulant jamais que les individus
| |
| | |
| savent.
| |
| | |
| - A la ***validité du questionnaire***, c’est à dire si le
| |
| | |
| questionnaire permet au chercheur de mesurer ce qu’il souhaite.
| |
| | |
| C’est pourquoi il faut faire très attention aux « leading
| |
| | |
| questions » qui peuvent influencer les réponses données.
| |
| | |
| - A prendre en compte ***les potentiels biais que peuvent induire
| |
| | |
| chaque question.*** Ainsi, il faut être attentif aux biais que ***la
| |
| | |
| désirabilité sociale*** peut induire dans chaque enquête en
| |
| | |
| formulant finement les questions, mais aussi ***se méfier des
| |
| | |
| questions rétrospectives*** faisant appel à la mémoire
| |
| | |
| potentiellement approximative des répondants.
| |
| | |
| <nowiki>##</nowiki> Format des questions
| |
| | |
| Comme nous l’avons préalablement expliqué, il est très rare que des
| |
| | |
| questionnaires de type quantitatifs n’intègrent de questions ouvertes.
| |
| | |
| C’est pourquoi il faut également ***réfléchir attentivement à la
| |
| | |
| formulation et au format de réponse proposés aux enquêtés***. Ainsi,
| |
| | |
| trois enjeux principaux sont à considérer lors de cette étape.
| |
| | |
| 5. Il faut se demander ***si les réponses proposées permettent aux
| |
| | |
| enquêtés de répondre à la question posée***.
| |
| | |
| 6. Il faut se questionner quant à ***la qualité statistique désirée par
| |
| | |
| le chercheur***. En effet, selon les formats de réponses, le
| |
| | |
| chercheur ne pourra pas effectuer les mêmes procédés statistiques
| |
| | |
| sur ces données ni même recueillir le même type d’informations.
| |
| | |
| 7. Il faut se demander si ***les réponses proposées sont
| |
| | |
| statistiquement discriminantes***. En effet, ce que l’on cherche
| |
| | |
| dans une recherche, ce ne sont pas des constantes mais bien des
| |
| | |
| variations permettant une réelle analyse statistique \!
| |
| | |
| <nowiki>###</nowiki> Peut-on y répondre ?
| |
| | |
| La formulation des réponses standardisées sont
| |
| | |
| primordiales puisqu’elles vont permettre au répondant de répondre à la
| |
| | |
| question posée d’une manière particulière. C’est un véritable enjeu pour
| |
| | |
| la fiabilité du questionnaire \! En effet, ***se pose alors la question
| |
| | |
| de proposer, ou non, aux répondants de ne pas se positionner***. Il faut
| |
| | |
| se demander que faire des ***sans-opinions ou des positions centrales***
| |
| | |
| qui sont des catégories particulières et problématiques. Certains
| |
| | |
| chercheurs décident de ne pas proposer de telles catégories de réponse
| |
| | |
| lors de leurs questionnaires, ce qui correspond à forcer les individus à
| |
| | |
| répondre \! Cette considération est directement reliée au fait qu’un
| |
| | |
| sondage impose une problématique aux répondants qui peuvent ne jamais
| |
| | |
| avoir préalablement pensé à cette thématique. Ainsi, ***les
| |
| | |
| sans-opinions (ou les positions centrales) sont parfois de vraies
| |
| | |
| réponses pleines de sens, signifiant que la personne n’a réellement pas
| |
| | |
| de préférences nettes quant au sujet traité \!*** Mais il faut aussi
| |
| | |
| considérer la tendance humaine à choisir la position centrale lui
| |
| | |
| permettant de s’économiser une réflexion couteuse en temps et en énergie
| |
| | |
| (rationnel). ***C’est pourquoi les sans-opinions et les positions
| |
| | |
| centrales posent problème lors de l’interprétation des réponses, ces
| |
| | |
| catégories étant constituées de personnes n’ayant réellement pas
| |
| | |
| d’opinion et d’autres ayant choisi cette modalité de réponse pour
| |
| | |
| s’économiser les couts d’une réflexion approfondie***. Certains
| |
| | |
| chercheurs choisissent donc de considérer ces catégories de réponses
| |
| | |
| comme des données manquantes, alors que d’autres attachent une grande
| |
| | |
| importance à l’analyse de ces modalités. Ce graphique montre que la
| |
| | |
| catégorie centrale est bien plus souvent choisie par les individus que
| |
| | |
| les autres modalités de réponse. Reste à savoir si les individus ont
| |
| | |
| répondu ainsi car ils se considèrent réellement au centre de
| |
| | |
| l’échiquier politique ou simplement car ils ne savaient pas ou se
| |
| | |
| positionner et ont choisi de s’économiser les couts de la réflexion.
| |
| | |
| 
| |
| | |
| Cet exemple permet d’atténuer l’effet de la catégorie centrale. En
| |
| | |
| effet, cette catégorie moyenne existe mais du fait qu’on lui ait
| |
| | |
| attribué un sens, elle devient plus évidente à interpréter.
| |
| | |
| De plus, ***la construction des modalités de
| |
| | |
| réponses implique de se questionner quant à la formulation des réponses
| |
| | |
| mais aussi quant à leur nombre***. En effet, le chercheur peut décider
| |
| | |
| d’offrir à ses répondants une modalité de réponse dichotomique (oui /
| |
| | |
| non, d’accord / pas d’accord...) ou plusieurs catégories de réponses.
| |
| | |
| Plus les catégories de réponses sont nombreuses, plus les informations
| |
| | |
| collectées seront riches. Toutefois, elles deviennent également plus
| |
| | |
| difficilement interprétables. Dans de très rare cas, le chercheur
| |
| | |
| choisit d’offrir aux répondants de s’exprimer librement quant à la
| |
| | |
| question posée (qualitatif). Cette modalité de réponse est choisie
| |
| | |
| lorsque le chercheur ne parvient pas à constituer lui-même des
| |
| | |
| catégories de réponse pertinentes
relatives à la question posée (si
| |
| | |
| le
sujet est mal connu par exemple).
***Généralement, aucune
| |
| | |
| question
ouverte n’est présente dans les
enquêtes
| |
| | |
| quantitatives.
***Toutefois, ce tableau montre que
ces deux types de
| |
| | |
| réponse
(ouverte ou fermée) ont chacune
des avantages et
| |
| | |
| des
désavantages. ***Il est toutefois
possible de mobiliser les deux
| |
| | |
| types de réponses*** (ouverte et fermée) en les combinant entre elles.
| |
| | |
| Il s’agit de demandé à l’enquêté de répondre librement à la question
| |
| | |
| posée et l’enquêteur rapporte ensuite lui-même la réponse à des
| |
| | |
| catégories standardisées en fonction de ce qu’aura exprimé l’enquêté.
| |
| | |
| Voici un exemple de ce type hybride :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Quelle qualité statistique ?
| |
| | |
| ***La qualité statistique est donnée par le
| |
| | |
| format de réponse choisie par le chercheur***. En effet, cela dépend du
| |
| | |
| type de variables pour lequel le chercheur a opté. Elles peuvent être
| |
| | |
| <nowiki>***</nowiki>quantitatives*** (variables à intervalles ou variables dichotomiques)
| |
| | |
| ou ***qualitatives*** (variables nominales ou variables ordinales). Il
| |
| | |
| est aussi possible de combiner entre elles différentes questions pour
| |
| | |
| obtenir des échelles, c’est d’ailleurs ce qui est fréquemment fait avec
| |
| | |
| les variables ordinales. Toutefois, ces échelles correspondent parfois
| |
| | |
| davantage à une réalité statistique que sociale, c’est à dire qu’elles
| |
| | |
| font plus sens mathématiquement que pour les répondants eux-mêmes. Comme
| |
| | |
| le montre ce schéma, les différentes variables permettent chacune de
| |
| | |
| prendre en compte des éléments différents. Très peu de variables
| |
| | |
| permettent de considérer le point 0 dans les réponses.
| |
| | |
| <nowiki>***</nowiki>Les variables nominales*** sont considérées comme des variables
| |
| | |
| catégorielles. En effet, ***les choix de réponse ne sont pas chiffrés
| |
| | |
| si bien que c’est au chercheur de recoder lui-même les réponses au
| |
| | |
| moment de l’analyse statistique***. Voici un exemple de variable
| |
| | |
| nominale :
| |
| | |
| 
| |
| | |
| <nowiki>***</nowiki>Les variables ordinales*** sont des variables quantitatives puisque
| |
| | |
| les réponses, bien que correspondant à une définition écrite, sont des
| |
| | |
| <nowiki>***</nowiki>réponses chiffrées*** que le chercheur peut directement utiliser lors
| |
| | |
| de l’analyse statistique (exemple 1). En effet, il est bien plus facile
| |
| | |
| pour un répondant de se positionner sur une échelle chiffrée lorsque les
| |
| | |
| chiffres sont associés à une définition faite de mot, contrairement aux
| |
| | |
| échelles numériques n’indiquant qu’une gradation dans les préférences
| |
| | |
| de l’individu. Comment savoir si l’on se situe plus entre le 3 ou le 4,
| |
| | |
| qui ne corresponde à rien d’explicite (exemple 2) :
| |
| | |
|  Exemple 1 :
| |
| | |
| <nowiki>Exemple 2 : </nowiki>
| |
| | |
| De nombreuses recherches préfèrent actuellement utiliser des variables
| |
| | |
| nominales, faisant plus de sens auprès des individus, bien que cela soit
| |
| | |
| plus difficile à utiliser lors des analyses statistiques. Car en effet,
| |
| | |
| <nowiki>***</nowiki>choisir l’un ou l’autre de ces types de réponse est un enjeu
| |
| | |
| important puisque lors de l’analyse statistiques, il ne sera pas
| |
| | |
| possible d’utiliser les mêmes outils analytiques \!***
| |
| | |
| <nowiki>###</nowiki> Sont-elles discriminantes ?
| |
| | |
| <nowiki>***</nowiki>Toute analyse statistique a pour but de mettre en évidence des
| |
| | |
| variations***. En effet, les constantes sont peu intéressantes puisque
| |
| | |
| la base de tous calculs statistiques repose sur les variances \! Il est
| |
| | |
| toutefois utile d’utiliser les constantes dans la phase descriptive de
| |
| | |
| la recherche, mais les analyses intéressantes ne portent pas sur elles.
| |
| | |
| Ainsi, le premier graphe cherche à être éviter par les chercheurs, ne
| |
| | |
| pointant aucune variation alors que le deuxième est statistiquement
| |
| | |
| beaucoup plus intéressant.
| |
| | |
| 
| |
| | |
| - Ainsi, il est important de proscrire les variables qui débouchent
| |
| | |
| sur des constantes. ***On parle de discrimination en ce qu’il s’agit
| |
| | |
| de ne considérer, pour l’analyse, que les variables donnant lieu à
| |
| | |
| des variations pouvant être statistiquement analysées***.
| |
| | |
| <nowiki>###</nowiki> Synthèse
| |
| | |
| Ainsi, lorsque l’on construit les réponses proposées aux répondants,
| |
| | |
| <nowiki>***</nowiki>il faut tout d’abord se demander si les individus pourront, par ce
| |
| | |
| biais, répondre à la question posée***. La formulation des questions
| |
| | |
| doit être réfléchie et ce, afin de garantir la fiabilité des mesures
| |
| | |
| obtenues par ce biais. Il s’agit également de décider d’inclure, ou non,
| |
| | |
| une catégorie de réponse permettant aux répondants de ne pas se
| |
| | |
| prononcer sur un objet. En effet, ***savoir si oui ou non on force les
| |
| | |
| répondants à se positionner est un réel enjeu pour l’analyse
| |
| | |
| statistique***. De plus, bien que les réponses dichotomiques soient très
| |
| | |
| simples à analyser, elles ne permettent pas de récolter des informations
| |
| | |
| riches quant aux répondants si bien que ***le nombre de réponses
| |
| | |
| proposées aux individus doit également être réfléchi***. Enfin, la
| |
| | |
| forme même des questions est primordiale puisqu’elles impliquent
| |
| | |
| d’analyser les données de manière particulière. Par souci
| |
| | |
| d’efficacité, très peu voir aucune question ouverte n’est posée dans
| |
| | |
| les enquêtes quantitatives. ***Pour ce qui est de la qualité statistique
| |
| | |
| visée par le chercheur, elle dépend directement du type de réponses
| |
| | |
| proposées***. Elles peuvent être nominales, ordinales, à intervalles ou
| |
| | |
| dichotomiques. Selon le type choisi, ***l’analyse des données s’en verra
| |
| | |
| affectée***. Il faut toutefois être attentif au sens sociologique de la
| |
| | |
| réponse \! En effet, bien que les échelles chiffrées soient très
| |
| | |
| pratique d’un point de vue statistiques, elles peuvent manquer de sens
| |
| | |
| pour les répondants. Enfin, il faut se demander si les ***réponses sont
| |
| | |
| statistiquement discriminantes***. C’est toujours avec le même souci
| |
| | |
| d’observer des variations que le chercheur tente de récolter par le
| |
| | |
| biais de questions posées des différences entre les individus. C’est
| |
| | |
| pour cela qu’***avant chaque enquête, on effectue des pré-tests \!***
| |
| | |
| <nowiki>##</nowiki> La structure du questionnaire
| |
| | |
| Une fois que les questions et les réponses ont été définies par le
| |
| | |
| chercheur, ***il faut encore réfléchir à l’agencement de ces questions
| |
| | |
| (associées à leurs réponses possibles) au sein du questionnaire***. Il
| |
| | |
| s’agit de définir l’ordre dans lequel les questions seront posées, la
| |
| | |
| structure des sections composant le questionnaire et leur ordre entre
| |
| | |
| elles mais aussi la longueur du questionnaire total. Ces considérations
| |
| | |
| sont importantes car il s’agit ici ***d’éviter au maximum les effets de
| |
| | |
| structures***, c’est à dire que les questions s’influencent entre elle
| |
| | |
| en ce qui concerne les réponses des répondants.
| |
| | |
| <nowiki>###</nowiki> L’ordre des questions
| |
| | |
| Il est important de réfléchir à l’ordre dans lequel les questions seront
| |
| | |
| présentées et ce, afin d’éviter au maximum l’interdépendance entre
| |
| | |
| questions. Il est fréquent que les questions concernant un même objet
| |
| | |
| soient présentées groupées dans un questionnaire. Toutefois, ***il faut
| |
| | |
| faire attention à ce que les réponses données par les répondants ne
| |
| | |
| soient pas influencées par l’ordre dans lequel les questions sont
| |
| | |
| posées***. Car il est vrai que l’influence entre question est bien plus
| |
| | |
| grande lorsque les questions sont présentées en batterie, par rapport à
| |
| | |
| un questionnaire ou elles seraient réparties dans toute sa longueur.
| |
| | |
| C’est toutefois pour rendre le questionnaire plus cohérent et pratique
| |
| | |
| que les batteries de questions sont fréquemment utilisées par les
| |
| | |
| chercheurs. C’est donc ***dans le but d’éviter les distorsions que
| |
| | |
| l’ordre des questions doit être réfléchi***. Il faut toutefois être
| |
| | |
| attentif au fait que s’il on décide de reprendre une batterie de
| |
| | |
| questions d’une enquête déjà effectuée dans le but de comparer les
| |
| | |
| résultats obtenus, il faut que les questions restent dans le même ordre
| |
| | |
| et ce, pour ne pas créer des effets de structures différents pouvant
| |
| | |
| influencer les réponses et donc induire de fausses variations. Voici un
| |
| | |
| exemple d’interdépendance entre question qui pointe très clairement que
| |
| | |
| le fait de répondre en premier à la question 1 influence la réponse
| |
| | |
| donnée à la question 2 :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> La structure des sections
| |
| | |
| L’enjeu premier de la structure des sections du questionnaire est de
| |
| | |
| <nowiki>***</nowiki>laisser les structures de sens des individus remonter***. Ainsi, une
| |
| | |
| section doit être une ***séquence logique*** permettant à l’individu se
| |
| | |
| structurer progressivement sa pensée. C’est pourquoi on commence
| |
| | |
| toujours avec les questions les plus faciles, demandant le moins de
| |
| | |
| réflexion possible. Ensuite, on place les questions plus difficiles, le
| |
| | |
| répondant pouvant s’appuyer sur ses précédentes réponses pour structurer
| |
| | |
| un avis, avant de terminer par les questions les plus intrusives. En
| |
| | |
| effet, il est très important de les placer à la fin et non au début, au
| |
| | |
| risque de faire fuir un certains nombres de répondants.
| |
| | |
| <nowiki>###</nowiki> La longueur du questionnaire
| |
| | |
| La longueur du questionnaire est aussi un enjeu important. Un
| |
| | |
| questionnaire trop long risque de perdre tout une partie des répondants
| |
| | |
| n’ayant pas suffisamment de temps à y consacrer. C’est pourquoi ***il
| |
| | |
| est communément admis qu’un questionnaire ne dois pas durer plus de 30 à
| |
| | |
| 45 minutes***. C’est pourquoi les questions présentées au sein du
| |
| | |
| questionnaire, en plus de comporter tous les précédents points discutés,
| |
| | |
| doivent être efficaces et utiles. Toutefois, cela ne représente qu’un
| |
| | |
| ordre de grandeur qu’il faut ***adapter à la population étudiée***. En
| |
| | |
| effet, il sera possible de questionner plus longtemps certaines
| |
| | |
| populations, comme des gens intéressés par la politique, et bien moins
| |
| | |
| longtemps d’autres populations, comme des personnes âgées. De plus,
| |
| | |
| <nowiki>***</nowiki>la longueur du questionnaire doit prendre en compte le mode de
| |
| | |
| passation utilisée***. Un questionnaire passé en face à face durera plus
| |
| | |
| long qu’un questionnaire administré par téléphone, qui lui-même sera
| |
| | |
| plus long que les questionnaires auto-administrés (internet, papier...).
| |
| | |
| <nowiki>###</nowiki> Synthèse
| |
| | |
| Lorsque l’on agence un questionnaire, il faut être ***attentif à l’ordre
| |
| | |
| des questions afin de limiter au maximum les effets de structures***. De
| |
| | |
| plus, réfléchir à ***la structure des sections*** au sein du
| |
| | |
| questionnaire est un enjeu important puisqu’elle doit servir à ***faire
| |
| | |
| remonter les structures de sens des répondants*** et ainsi, éviter les
| |
| | |
| réponses « de surface » (répondre la première chose qui nous vient à
| |
| | |
| l’esprit). Enfin, ***la longueur du questionnaire doit être adaptée à
| |
| | |
| la population cible ainsi qu’à la méthode de passation et ce, afin de ne
| |
| | |
| pas décourager de répondants***.
| |
| | |
| <nowiki>##</nowiki> Passation du questionnaire
| |
| | |
| Comme nous l’avons préalablement dit, il existe ***trois types
| |
| | |
| d’administration de questionnaire***. Choisir l’un plutôt que l’autre
| |
| | |
| implique une réflexion importante puisque ***la manière de faire passer
| |
| | |
| le questionnaire aura une influence sur les réponses récoltées***. Un
| |
| | |
| questionnaire peut être passé :
| |
| | |
| - En ***face à face***, c’est à dire que l’enquêteur et l’enquêté se
| |
| | |
| retrouve lors d’un entretien au cours duquel l’enquêteur fait passer
| |
| | |
| le questionnaire au répondant. Cela peut ***influencer les réponses
| |
| | |
| de l’enquêté et ce, en fonction des propriétés sociales de
| |
| | |
| l’enquêteur*** (femme, personnes de couleur, handicap...).
| |
| | |
| - En ***face à face indirect***, c’est à dire que l’enquêteur fait
| |
| | |
| passer le questionnaire à l’enquêté sans être physiquement présent.
| |
| | |
| C’est le cas des études par téléphone par exemple. Ce mode de
| |
| | |
| passation annihile un certain nombre de biais, le répondant ne
| |
| | |
| pouvant pas, de par ses propriétés sociales influencer le répondant
| |
| | |
| puisque ce dernier n’a pas de contact direct avec lui.
| |
| | |
| - Par ***auto-administration***, c’est à dire que le répondant répond
| |
| | |
| seul au questionnaire. C’est la technique la moins couteuse mais
| |
| | |
| aussi la moins fiable.
| |
| | |
| <!-- end list -->
| |
| | |
| - Ainsi, ***le chercheur choisira l’une ou l’autre de ces méthodes de
| |
| | |
| passation de questionnaire en fonction de la population cible, du
| |
| | |
| taux de réponse désiré, de la longueur du questionnaire mais surtout
| |
| | |
| en fonction des ressources à disposition (temps mais surtout
| |
| | |
| argent).*** Chaque type de passation de questionnaire comporte des
| |
| | |
| avantages et des inconvénients, comme le résume bien les deux
| |
| | |
| tableaux suivants :
| |
| | |
| 
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Conclusion
| |
| | |
| En résumé, on peut dire que ***l’élaboration d’un questionnaire
| |
| | |
| standardisé est un travail minutieux***. Chaque étape est essentielle et
| |
| | |
| nécessite une réflexion approfondie pour assurer la qualité des données
| |
| | |
| récoltées. C’est pourquoi l’élaboration d’un questionnaire représente
| |
| | |
| une étape difficile dans la mise en place d’une recherche quantitative.
| |
| | |
| <nowiki>##</nowiki> Les pré-tests
| |
| | |
| Une fois les questions, les modalités de réponses et le questionnaire
| |
| | |
| agencé dans son ensemble, les chercheurs lui font ***passer des
| |
| | |
| pré-tests***. Jamais un questionnaire n’est directement soumis à la
| |
| | |
| population cible. ***Les pré-tests permettent de déceler tous problèmes
| |
| | |
| induit pas le questionnaire***. Cela permet également de détecter si
| |
| | |
| certaines questions débouchent sur des variables qui sont peu
| |
| | |
| pertinentes pour l’analyse statistique. Le but est de voir si les
| |
| | |
| personnes participant au pré-test...
| |
| | |
| - Comprennent uniformément les questions
| |
| | |
| - Si les catégories de réponses proposées font sens pour eux
| |
| | |
| - Si les catégories de réponses sont exhaustives
| |
| | |
| - Si les effets de structures ne sont pas trop grands
| |
| | |
| - Si le questionnaire leur semble cohérent
| |
| | |
| - Si la longueur du questionnaire n’est pas trop grande
| |
| | |
| La plupart du temps, les pré-tests se font auprès de 25 à 75 personnes
| |
| | |
| au sein de la population sondée. ***Le nombre de pré-tests n’est
| |
| | |
| préalablement pas connu puisque cela s’effectue de manière circulaire
| |
| | |
| et ce, jusqu’à ce qu’un nouveau pré-test ne décèle plus aucun problème
| |
| | |
| au sein du questionnaire***. C’est pourquoi on peut dire qu’au minimum,
| |
| | |
| deux pré-tests doivent être effectués avant la passation véridique du
| |
| | |
| questionnaire.
| |
| | |
| <nowiki>#</nowiki> Echantillon : logique de l’échantillonnage
| |
| | |
| <nowiki>##</nowiki> Echantillon vs population
| |
| | |
| Dans la majorité des cas, la population qui nous intéresse ne peut pas
| |
| | |
| être observée de manière exhaustive. On travaille de ce fait avec un
| |
| | |
| échantillon de la population. Les caractéristiques de la population
| |
| | |
| sont inconnues puisqu’on ne détient pas toutes les informations tandis
| |
| | |
| que les caractéristiques de l’échantillon sont connues. Ainsi,
| |
| | |
| l’objectif est de déterminer les caractéristiques de la population en
| |
| | |
| fonction de celles de l’échantillon.
| |
| | |
| <nowiki>**</nowiki>Exemples**
| |
| | |
| Comment construire un échantillon dans les cas suivants ?
| |
| | |
| Etude de la perte de poids chez des personnes ayant perdu du poids par
| |
| | |
| elles-mêmes, sans avoir recours à des médecins ou des associations ?
| |
| | |
| En général, on a une population et on va en
| |
| | |
| tirer un échantillon (pas ce qui nous intéresse mais il y a un besoin de
| |
| | |
| passer par un sous-ensemble – coûts, accessibilité, etc.). N :
| |
| | |
| population *n *: échantillon
| |
| | |
| <nowiki>##</nowiki> Qualité d’un bon échantillon
| |
| | |
| <nowiki>###</nowiki> Représentativité de l’échantillon
| |
| | |
| Un bon échantillon est **représentatif** de la population étudiée. Sauf
| |
| | |
| qu’il ne faut pas comprendre un échantillon représentatif comme une
| |
| | |
| photocopie en modèle réduit. On ne doit pas prendre toutes les
| |
| | |
| informations de la population. De plus, **un échantillon représentatif
| |
| | |
| est un échantillon dans lequel toutes les grandes caractéristiques de la
| |
| | |
| population qui sont utiles pour l’étude vont se retrouver**. Il est
| |
| | |
| parfois nécessaire de surreprésenter ou de sous-représenter certaines
| |
| | |
| catégories dans notre étude. Ces sur- et sous-représentations
| |
| | |
| volontaires seront corrigées au niveau des analyses statistiques à
| |
| | |
| l’aide de pondérations.
| |
| | |
| <nowiki>**</nowiki>Exemples **:
| |
| | |
| - Etude sur les pratiques religieuses des résidents du canton de Vaud
| |
| | |
| - Certaines religions sont très faiblement représentées dans le canton
| |
| | |
| de Vaud
| |
| | |
| - Prendre un échantillon aléatoire au sein de tous les résidents du
| |
| | |
| canton de Vaud ne permettrait pas d’étudier les minorités
| |
| | |
| religieuses.
| |
| | |
| <!-- end list -->
| |
| | |
| - Nécessité de surreprésenter les personnes appartenant à des
| |
| | |
| minorités religieuses
| |
| | |
| <nowiki>###</nowiki> Définition de la population étudiée
| |
| | |
| L’échantillon doit être représentatif de la population étudiée. Il faut
| |
| | |
| définir au préalable la population étudiée \! Cela implique des critères
| |
| | |
| d’inclusion et d’exclusion. Bien entendu, il faut s’assurer que la
| |
| | |
| population ainsi définie :
| |
| | |
| - Permet bien de répondre aux objectifs de l’enquête
| |
| | |
| - Est contactable de manière à en constituer un échantillon ; comment
| |
| | |
| une partie de la population est contactable ? Si on ne peut
| |
| | |
| l’atteindre, comment allons-nous procéder ?
| |
| | |
| <nowiki>###</nowiki> Taille de l’échantillon
| |
| | |
| La taille optimale *n* de l’échantillon n’est pas facile à déterminer
| |
| | |
| car elle dépend notamment :
| |
| | |
| - Des méthodes statistiques qui seront utilisées
| |
| | |
| - De la variabilité des données
| |
| | |
| - De la **précision désirée** pour les résultats
| |
| | |
| Pour les situations simples (moyenne, comparaison de 2 populations, …)
| |
| | |
| des formules permettent de calculer la taille d’échantillon optimale.
| |
| | |
| Des facteurs extra-statistiques tels que la facilité de collecte des
| |
| | |
| données et les moyens (temps et argent) à disposition des enquêteurs
| |
| | |
| sont aussi considérer. Attention \! Il ne sert à rien de travailler avec
| |
| | |
| un échantillon plus grand que nécessaire \!
| |
| | |
| Exemple : estimation d’une proportion
| |
| | |
| Estimer la proportion de votants
| |
| | |
| En considérant le pire des cas (incertitude maximale), nous obtenons les
| |
| | |
| tailles d’échantillon nécessaires :
| |
| | |
| 
| |
| | |
| Exemples :
| |
| | |
| - Votations no-billag (méthodologie utilisée) = sondage est une
| |
| | |
| photographie des opinions publiques à un moment donné ; indication
| |
| | |
| marge erreur, le nombre de personnes constituant l’échantillon
| |
| | |
| - Elections au Grand Conseil Genevois ; indication marge erreur, le
| |
| | |
| nombre de personnes constituant l’échantillon
| |
| | |
| <nowiki>###</nowiki> Variabilité de l’échantillon
| |
| | |
| Si je prends deux échantillons, je fais un sondage maintenant et dans
| |
| | |
| une heure je fais le même sondage mais avec un échantillon différent,
| |
| | |
| j’aurais de résultats distincts. Enormément d’échantillons différents
| |
| | |
| peuvent être obtenus à partir d’une même population, mais en pratique,
| |
| | |
| un seul d’entre eux sera utilisé pour les analyses statistiques. Quelles
| |
| | |
| implications ces différences ont-elles sur la qualité des résultats
| |
| | |
| statistiques ?
| |
| | |
| <nowiki>##</nowiki> Procédures d’échantillonnage
| |
| | |
| <nowiki>###</nowiki> Différentes procédures d’échantillonnage
| |
| | |
| Différentes procédures existent pour obtenir un échantillon. La règle
| |
| | |
| est de toujours essayer d’appliquer la procédure optimale par rapport au
| |
| | |
| contexte. Parfois, une même étude peut recourir à plusieurs procédures
| |
| | |
| de manière à recouvrir au mieux la population visée (*mixed modes*).
| |
| | |
| Dans ce cas, comment combiner au mieux les différents échantillons
| |
| | |
| obtenus ?
| |
| | |
| <nowiki>###</nowiki> Base de sondage
| |
| | |
| - **Base de sondage** (=listing) : liste permettant de contacter
| |
| | |
| individuellement toutes les personnes faisant partie de la
| |
| | |
| population étudiée.
| |
| | |
| - **Echantillon probabiliste **: défini à partir d’une
| |
| | |
| <nowiki><span class="underline">base de sondage</span></nowiki>. S’il n’existe pas de
| |
| | |
| base de sondage, alors on a un
| |
| | |
| <nowiki><span class="underline">échantillonnage non-probabiliste</span></nowiki>.
| |
| | |
| Pour les votations, pour la base de sondage, on pourrait avoir le
| |
| | |
| registre de tous les votants. Si la question se pose sur la
| |
| | |
| consommation de cocaïne, on n’aura pas de base de sondage et pour ce
| |
| | |
| faire, on devrait procéder autrement et donc passer par une méthode
| |
| | |
| empirique.
| |
| | |
| - Il est préférable d’avoir un échantillon probabiliste car :
| |
| | |
|
| |
| | |
| - Permet d’éviter des biais de sélection
| |
| | |
|
| |
| | |
| - Permet de généraliser facilement à l’ensemble de la population
| |
| | |
| (inférence)
| |
| | |
| <nowiki>###</nowiki> Défaut de couverture
| |
| | |
| Une base de sondage incomplète engendre des biais car une partie de la
| |
| | |
| population visée ne sera pas présente. On appelle cela un **défaut de
| |
| | |
| couverture**. Les causes principales pour ce genre de phénomène est
| |
| | |
| qu’il peut y avoir des changements par rapport à une situation de
| |
| | |
| référence ou une non-connaissance de certains cas.
| |
| | |
| Par exemple : L’annuaire téléphonique n’est pas une base
| |
| | |
| d’échantillonnage exhaustive puisqu’on peut éviter d’y être en tant
| |
| | |
| que citoyen, de moins en moins de personnes ont des numéros fixes et
| |
| | |
| souvent, il n’y avait que le numéro d’une seule personne de la famille
| |
| | |
| et cela touchait qu’une seule personne.
| |
| | |
| <nowiki>###</nowiki> Tirages avec remises
| |
| | |
| Les tirages sont indépendants les uns des autres :
| |
| | |
| - Un cas est sélectionné dans la population, il est étudié
| |
| | |
| (questionnaire), puis il est remis dans la population.
| |
| | |
| - Un second cas est ensuite sélectionné et étudié, etc.
| |
| | |
| Le risque est qu’on peut sélectionner et étudier à plusieurs reprises le
| |
| | |
| même cas. Les <nowiki><span class="underline">avantages</span></nowiki> est qu’ils sont
| |
| | |
| plus simples à gérer, permettent un meilleur anonymat et ils sont plus
| |
| | |
| pratiques d’un point de vue mathématique. Sauf si l’on travaille avec un
| |
| | |
| échantillon de relativement grande taille par rapport à celle de la
| |
| | |
| population (taux de sondage élevé), on considère en général que les
| |
| | |
| tirages sont avec remises.
| |
| | |
| <nowiki>###</nowiki> Tirages sans remise
| |
| | |
| Les tirages sont dépendants les uns des autres :
| |
| | |
| - Un cas est sélectionné dans la population, il est étudié mais il
| |
| | |
| n’est pas remis ensuite dans la population.
| |
| | |
| - Un second cas est sélectionné et étudié, etc.…
| |
| | |
| Les cas sont différentes les uns des autres. Les
| |
| | |
| <nowiki><span class="underline">avantages</span></nowiki> sont que les résultats sont
| |
| | |
| plus précis (variance plus petite) que les tirages avec remises.
| |
| | |
| Cependant, la différence s’amenuise rapidement avec l’augmentation de la
| |
| | |
| taille de l’échantillon.
| |
| | |
| <nowiki>###</nowiki> Méthodes empiriques de sondage
| |
| | |
| L’échantillonnage empirique est généralement utilisé lorsqu’il n’y a pas
| |
| | |
| de base de sondage. La probabilité qu’un membre de la population soit
| |
| | |
| inclue dans l’échantillon n’est pas connue. Les principales méthodes
| |
| | |
| empiriques sont :
| |
| | |
| - Les quotas
| |
| | |
| - Les itinéraires
| |
| | |
| - L’emplacement
| |
| | |
| - Le volontariat
| |
| | |
| - La boule de neige
| |
| | |
| Toutes ces méthodes génèrent des **échantillons d’opportunité** (formé
| |
| | |
| sur la base de méthodes empiriques) par opposition aux échantillons
| |
| | |
| probabilistes.
| |
| | |
| <nowiki>####</nowiki> Les quotas
| |
| | |
| On choisit un certain nombre de caractéristiques dont on connaît la
| |
| | |
| distribution au sein de la population étudiée (âge, sexe…). Ces
| |
| | |
| caractéristiques doivent être relevant pour l’étude en cours. On
| |
| | |
| constitue un échantillon en respectant les mêmes proportions pour ces
| |
| | |
| caractéristiques que celles de l’ensemble de la population. Un sondage
| |
| | |
| par quota est plus simple à mettre en œuvre qu’un sondage probabiliste,
| |
| | |
| car les personnes interrogées d’un groupe sont parfaitement
| |
| | |
| interchangeables et une personne manquante peut être remplacée par
| |
| | |
| n’importe quelle autre personne du même groupe.
| |
| | |
| <nowiki>**</nowiki>Exemple **:
| |
| | |
| Supposons que la population fréquentant habituellement un centre de
| |
| | |
| fitness lausannois comporte 60% de femmes, 20% des clients ont moins de
| |
| | |
| 18 ans et 20% plus de 60 ans, et la moitié travaille dans le secteur
| |
| | |
| bancaire.
| |
| | |
| On constitue ensuite un échantillon en respectant les mêmes proportions
| |
| | |
| pour ces caractéristiques que celles de l’ensemble de la population.
| |
| | |
| Un enquêteur pourrait alors recevoir les consignes suivantes :
| |
| | |
| 
| |
| | |
| Si l’on connait en plus la répartition croisée des trois variables sexe,
| |
| | |
| âge et secteur d’activité, on pourrait alors avoir quelque chose
| |
| | |
| d’encore plus précis :
| |
| | |
| 
| |
| | |
| <nowiki>####</nowiki> Les itinéraires
| |
| | |
| L’enquêteur suit un itinéraire défini très précisément, avec un point de
| |
| | |
| départ et un point d’arrivée. Il doit ensuite réaliser des interviews
| |
| | |
| dans un certain nombre d’endroits (logements ou autres) soit définis au
| |
| | |
| préalable par exemple par tirage au sort, soit selon un critère précis
| |
| | |
| (par exemple interroger une personne sur 5 qu’il rencontre ou une
| |
| | |
| personne tous les 500 mètres). L’itinéraire coïncide avec une voie
| |
| | |
| ferrée entre deux villes et on veut étudier les nuisances perçus par
| |
| | |
| les personnes habitant à proximité de cette voie.
| |
| | |
| <nowiki>####</nowiki> L’emplacement
| |
| | |
| Un lieu et un moment sont définis pour la création de l’échantillon. On
| |
| | |
| interroge alors les personnes qui s’y trouvent.
| |
| | |
| Exemples : enquête réalisée devant l’entrée d’un magasin ; au service
| |
| | |
| des urgences du CHUV ; au départ de la ligne 31 des tl, à Renens, le
| |
| | |
| lundi entre 6h30 et 8h30.
| |
| | |
| <nowiki>####</nowiki> Le volontariat
| |
| | |
| On se base sur le bon vouloir des gens et seuls ceux qui veulent
| |
| | |
| répondent et entrent dans l’échantillon. Le problème est que ce n’est
| |
| | |
| pas forcément représentatif de la population, une personne pourrait
| |
| | |
| remplir le questionnaire plusieurs fois et les personnes peuvent
| |
| | |
| répondre au hasard etc.
| |
| | |
| <nowiki>####</nowiki> La boule de neige
| |
| | |
| Dans un système de type boule de neige, on choisit tout d’abord un
| |
| | |
| ensemble de personnes faisant partie de la population étudiée. On
| |
| | |
| demande ensuite à ces personnes d’en contact d’autres qu’elles
| |
| | |
| connaissent et qui font aussi partie de la population étudiée. Ces
| |
| | |
| personnes en contacteront d’autres à leur tour etc. L’échantillon final
| |
| | |
| sera constitué de toutes les personnes contactées. Le problème est qu’on
| |
| | |
| ne sait pas qui il y a dans la population et le nombre est incertain
| |
| | |
| parfois. Pour ce faire, on y insert des probabilités.
| |
| | |
| Exemple : enquête auprès de consommateurs de drogues.
| |
| | |
| <nowiki>####</nowiki> Le RDS (Respondent-Drive-Sampling)
| |
| | |
| Il s’agit d’une tentative visant à rendre probabiliste la méthode de la
| |
| | |
| boule de neige. La grande différence réside dans le fait que le RDS ne
| |
| | |
| cherche pas uniquement à collecter un échantillon mais aussi à
| |
| | |
| déterminer certaines caractéristiques de la population concernée,
| |
| | |
| notamment sa taille. L’autre différence consiste à réduire l’impact du
| |
| | |
| choix des personnes utilisées pour amorcer la collecte des données sur
| |
| | |
| l’échantillon final.
| |
| | |
| <nowiki>###</nowiki> Avantages des méthodes empiriques
| |
| | |
| - Simples à mettre en œuvre
| |
| | |
| - Ne nécessitent pas de base de sondage exhaustive
| |
| | |
| - Permettent de collecter de l’information dans des situations
| |
| | |
| difficiles
| |
| | |
| <nowiki>###</nowiki> Désavantages des méthodes empiriques
| |
| | |
| - Tous les membres de la population n’ont pas la même probabilité de
| |
| | |
| faire partie de l’échantillon.
| |
| | |
| - Les individus sont interchangeables. Un non-répondant pourra être
| |
| | |
| remplacé par une autre personne même si le non-répondant a peut-être
| |
| | |
| des caractéristiques très différentes de celles de l’autre personne.
| |
| | |
| - Il est difficile de calculer des marges d’erreur ou de manière plus
| |
| | |
| générale de faire l’inférence statistique de bonne qualité.
| |
| | |
| <nowiki>###</nowiki> Probabilité d’inclusion
| |
| | |
| Dans une méthode probabiliste, chaque membre de la population a une
| |
| | |
| probabilité connue a priori d’être inclus dans l’échantillon. Cette
| |
| | |
| probabilité est appelée la **probabilité d’inclusion**. Pour pouvoir
| |
| | |
| calculer les probabilités d’inclusions, il est obligatoire de disposer
| |
| | |
| d’une base de sondage exhaustive de la population étudiée.
| |
| | |
| <nowiki>###</nowiki> Taux d’échantillonnage
| |
| | |
| Le taux d’échantillonnage *f* (ou taux de sondage) est calculée
| |
| | |
| comme avec :
| |
| | |
| - N : taille de la population
| |
| | |
| - *n* : taille de l’échantillon
| |
| | |
| <!-- end list -->
| |
| | |
| - Ces deux inconnus sont supposés être connues et finies.
| |
| | |
| <nowiki>###</nowiki> Différence avec les quotas
| |
| | |
| Au contraire de la méthode des quotas dans laquelle on essaie
| |
| | |
| généralement de mimer au plus juste la population étudiée, les
| |
| | |
| méthodes probabilistes permettent de sur-échantillonner ou de
| |
| | |
| sous-échantillonner sciemment certaines catégories de la population.
| |
| | |
| L’avantage est de pouvoir ainsi disposer pour les analyses d’un nombre
| |
| | |
| suffisant de personnes de chaque catégorie. En sachant par quel facteur
| |
| | |
| certaines catégories ont été sur ou sous-représentées, il sera ensuite
| |
| | |
| possible de corriger les estimations en conséquence en attribuant à ces
| |
| | |
| personnes une pondération différente de celle des autres personnes.
| |
| | |
| <nowiki>###</nowiki> Plans d’échantillonnage simples
| |
| | |
| Un sous-ensemble de *n* cas est sélectionné de façon mé dans l’ensemble
| |
| | |
| de la population.
| |
| | |
| Deux procédures usuelles :
| |
| | |
| - **Echantillonnage aléatoire simple **: les *n* cas sont sélectionnés
| |
| | |
| au hasard de telle manière que la probabilité d’être sélectionné
| |
| | |
| soit la même pour chaque membre de la population étudiée.
| |
| | |
| - **Echantillonnage systématique **: sur la base d’un registre de la
| |
| | |
| population, on sélectionne aléatoirement un cas assez proche du
| |
| | |
| début de la liste, puis on sélectionne systématiquement un cas tous
| |
| | |
| les X éléments de la liste (pas de l’échantillonnage, X = 10, 25,
| |
| | |
| 100…).
| |
| | |
| <nowiki>####</nowiki> Limites de l’échantillonnage simple
| |
| | |
| Ne s’applique que si la population est homogène dans son ensemble ou du
| |
| | |
| moins, si les sous-populations sont toutes de même taille et s’il n’y a
| |
| | |
| pas de raison de supposer que le taux de non-réponse différera d’une
| |
| | |
| sous-population à l’autre. Si certains sous-groupes intéressants pour
| |
| | |
| l’étude sont rares par rapport à la taille de la population, on ne
| |
| | |
| collectera que peu ou pas de données les concernant. Dans le cas de
| |
| | |
| l’échantillonnage systématique, il ne doit pas y avoir de liens entre
| |
| | |
| le pas de l’échantillonnage et les individus sélectionnés. (Si on prend
| |
| | |
| 1 sur 2, il ne faut pas que ce soient systématiquement les hommes dans
| |
| | |
| des couples mariées).
| |
| | |
| <nowiki>###</nowiki> Plans d’échantillonnage à plusieurs niveaux
| |
| | |
| La population est d’abord divisée en plusieurs sous-populations en
| |
| | |
| fonction d’une variable de contrôle, puis des procédures
| |
| | |
| d’échantillonnage sont appliquées à chaque sous-population. Les
| |
| | |
| sous-populations peuvent elles-mêmes être redivisées sur la base d’un
| |
| | |
| autre critère. Ces procédures s’appliquent lorsque la population étudiée
| |
| | |
| n’est pas homogène et que l’on veut s’assurer que toutes les composantes
| |
| | |
| de l’échantillon se retrouveront dans l’échantillon.
| |
| | |
| - Deux cas limite : les **tirages par strates** et les **tirages par
| |
| | |
| grappes**.
| |
| | |
| <nowiki>####</nowiki> Tirages par strates
| |
| | |
| Un échantillon aléatoire est sélectionné dans chacun des
| |
| | |
| sous-populations :
| |
| | |
|  C’est utilisé lorsque les données sont
| |
| | |
| supposées être homogènes au sein de chaque sous-population mais
| |
| | |
| hétérogènes entre ces mêmes sous-populations (Exemples de strates :
| |
| | |
| cantons, genres…)
| |
| | |
| <nowiki>####</nowiki> Tirages par grappes
| |
| | |
| Un échantillon de sous-populations est sélectionné aléatoirement puis
| |
| | |
| chacune des sous-populations sélectionnée est étudiée de façon
| |
| | |
| <nowiki>exhaustive : </nowiki>
| |
| | |
| Utilisé lorsque les données sont homogènes d’une sous-population à
| |
| | |
| l’autre mais hétérogènes au sein de chaque sous-population. (Exemples
| |
| | |
| de grappes : ménages, classes d’écoles)
| |
| | |
| <nowiki>###</nowiki> Les 3 logiques des méthodes multi-niveaux
| |
| | |
| 1. Au niveau de l’ensemble de la population étudiée, les estimations
| |
| | |
| des paramètres intéressants doivent être exactes (sans biais) et
| |
| | |
| précises.
| |
| | |
| 2. Au niveau des sous-populations que l’on veut pouvoir étudier, on
| |
| | |
| doit disposer de suffisamment de données pour obtenir des résultats
| |
| | |
| exacts et précis.
| |
| | |
| 3. L’échantillon total doit être réparti entre les sous-populations de
| |
| | |
| manière à prendre en compte et à exploiter la variabilité de chacune
| |
| | |
| d’entre-elles.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Avantages des méthodes probabilistes
| |
| | |
| - Permettent de collecter un échantillon vraiment représentatif de la
| |
| | |
| population.
| |
| | |
| - Autorisent la prise en compte lors des analyses statistiques de
| |
| | |
| sous-population sur ou sous-représentées.
| |
| | |
| - Permettent de faire l’inférence statistique et de déterminer les
| |
| | |
| caractéristiques de la population sur la base de celles de
| |
| | |
| l’échantillon.
| |
| | |
| <nowiki>###</nowiki> Désavantages des méthodes probabilistes
| |
| | |
| - Plus difficiles à mettre en œuvre que les méthodes empiriques -\> il
| |
| | |
| faut penser à plus de choses \!
| |
| | |
| - Nécessitent une base de sondage exhaustive de la population étudiée.
| |
| | |
| - Sensibles à des problèmes imprévus : questionnaire non-transmis à
| |
| | |
| certains membres de l’échantillon
| |
| | |
| <nowiki>##</nowiki> Traitement préalable des données
| |
| | |
| <nowiki>###</nowiki> Saisie des données
| |
| | |
| Les données doivent être saisies dans une base de données que ce soit
| |
| | |
| durant la collecte des données ou après :
| |
| | |
| - Saisie manuelle (clavier d’ordinateur)
| |
| | |
| - Saisie automatique (code barre, scanner, questionnaire informatisé
| |
| | |
| sur internet)
| |
| | |
| <!-- end list -->
| |
| | |
| - Toute saisie de données implique des risques d’erreurs.
| |
| | |
| <nowiki>###</nowiki> Données manquantes
| |
| | |
| Les données manquantes sont des données dont la récolte avait été
| |
| | |
| planifiée mais qui n’ont pas pu être récoltées :
| |
| | |
| - <nowiki><span class="underline">Non-réponses totales </span></nowiki>: un répondant
| |
| | |
| n’a pas du tout répondu à l’enquête.
| |
| | |
| - <nowiki><span class="underline">Non-réponses partielles </span></nowiki>: un
| |
| | |
| répondant n’a pas répondu à une partie des questions.
| |
| | |
| Simplement ignorées ? Non car il y a des conséquences sur les analyses
| |
| | |
| statistiques :
| |
| | |
| - <nowiki><span class="underline">Biais </span></nowiki>: la valeur estimée ne
| |
| | |
| correspond pas à la réalité
| |
| | |
| - <nowiki><span class="underline">Manque de précision </span></nowiki>: marge d’erreur
| |
| | |
| et variabilité des résultats élevées.
| |
| | |
| <nowiki>###</nowiki> Non-réponses totales
| |
| | |
| 3 types de non-répondants :
| |
| | |
| 1. Non-valides : impossibilité de réponse (décédés, déménagés, ne
| |
| | |
| faisant pas réellement partie de la population cible.
| |
| | |
| 2. Non-contacts : impossibilité de contacter
| |
| | |
| 3. Refus : refus de répondre
| |
| | |
| L’impact sur les résultats dépend de la catégorie de non-répondants.
| |
| | |
| Dans le cas d’enquêtes longitudinales, on parle d’**attrition**
| |
| | |
| lorsqu’une personne arrête de répondre à l’enquête après une certaine
| |
| | |
| vague de celle-ci.
| |
| | |
| <nowiki>###</nowiki> Non-réponses partielles
| |
| | |
| Causes aux non-réponses partielles :
| |
| | |
| - Questionnaire trop long
| |
| | |
| - Manque d’intérêt
| |
| | |
| - Questions sensibles
| |
| | |
| - Bug lors de la sauvegarde des données
| |
| | |
| Dans le cas de questionnaires formatisés, il est possible de rendre
| |
| | |
| obligatoire les réponses. La présence de non-réponses partielles
| |
| | |
| implique que les calculs statistiques ne se feront peut-être pas
| |
| | |
| toujours sur le même échantillon.
| |
| | |
| <nowiki>###</nowiki> Traitement des données manquantes
| |
| | |
| Les données manquantes traitées :
| |
| | |
| - Durant la collecte : incitations à répondre (cadeau, tirage au
| |
| | |
| sort…)
| |
| | |
| - Après la collecte : Imputation, reconstitution de la vraie valeur à
| |
| | |
| partir d’un autre fichier de données.
| |
| | |
| Dans certains cas, il n’y malheureusement pas de moyen pour traiter les
| |
| | |
| données manquantes et il ne rste qu’à prendre en compte le fait que
| |
| | |
| certaines données sont absentes.
| |
| | |
| <nowiki>###</nowiki> Données aberrantes
| |
| | |
| Les données aberrantes sont les données dont la valeur est clairement
| |
| | |
| fausse :
| |
| | |
| - Valeurs trop grandes ou trop petites (personne de 3m)
| |
| | |
| - Valeurs impossibles (âge négatif)
| |
| | |
| - Incompatibilité entre les valeurs de deux variables (enfant ayant le
| |
| | |
| permis de conduire)
| |
| | |
| Ces données doivent être détectées puis corrigées ou dans le pire des
| |
| | |
| cas remplacées par des données manquantes.
| |
| | |
| <nowiki>###</nowiki> Construction de nouvelles variables
| |
| | |
| Certains items d’un questionnaire forment une échelle et ne sont pas
| |
| | |
| destinées à l’analyse séparément. Il est aussi possible de créer de
| |
| | |
| nouvelles variables en combinant les variables existantes.
| |
| | |
| Exemples :
| |
| | |
| - Internet Addiction Teste (IAT) : échelle mesurant le degré avec
| |
| | |
| lequel l’utilisation qui est faite d’internet est problématique. Il
| |
| | |
| est composé de 20 items prenant des valeurs de 1 à 5 et son score
| |
| | |
| total est calculé en additionnant les 20 réponses obtenuse.
| |
| | |
| <nowiki> - BMI (Body Mass Index) : </nowiki>
| |
| | |
| <nowiki>#</nowiki> Inférence statistique – analyse des données et interprétation
| |
| | |
| <nowiki>##</nowiki> Statistique inférentielle
| |
| | |
| <nowiki>###</nowiki> Jugement sur l’échantillon
| |
| | |
| Un échantillon a du sens dans l’interprétation où on tire des choses de
| |
| | |
| l’échantillon pour les inférer dans la population. Le centre d’intérêt
| |
| | |
| n’est pas vraiment l’échantillon mais bien la population. On part d’un
| |
| | |
| échantillon pour avoir des caractéristiques et elles vont être
| |
| | |
| similaires à celles de la population si notre échantillon est bien
| |
| | |
| formé. Il va ainsi représenter la population.
| |
| | |
| 
| |
| | |
| L’<nowiki><span class="underline">objectif </span></nowiki>: de déterminer les
| |
| | |
| caractéristiques / paramètres / estimations / valeurs d’une population
| |
| | |
| à partir d’un échantillon issu de celle-ci. On a deux outils principaux
| |
| | |
| pour l’inférence statistique :
| |
| | |
| - *Estimation* (ponctuelle (une seule valeur) ou par intervalle
| |
| | |
| (intervalle de valeur)
| |
| | |
| - *Tests d’hypothèses* (on se fixe certaines hypothèses et on regarde
| |
| | |
| si elles sont vraies ou fausses. On va parler d’un faisceau de
| |
| | |
| preuves qui vont nous permettre de valider / réfuter nos
| |
| | |
| hypothèses).
| |
| | |
| <!-- end list -->
| |
| | |
| - Ces outils sont utilisés dans presque tous les modèles statistiques.
| |
| | |
| L’estimation par intervalle et les tests sont basés sur des lois de
| |
| | |
| probabilité continues théoriques.
| |
| | |
| Exemple : le niveau d’activité physique
| |
| | |
| Nous voulons étudier le niveau d’activité physique des jeunes de 18 ans
| |
| | |
| en Suisse. Ce niveau d’activité physique est défini comme le nombre de
| |
| | |
| jours par semaine où l’on effectue une activité physique soutenue. Nous
| |
| | |
| disposons d’un échantillon de n = 77 personnes (37 hommes et 40 femmes)
| |
| | |
| alors que la population étudiée est d’environ 80'000 personnes.
| |
| | |
| - Question : comment obtenir à partir de l’échantillon des résultats
| |
| | |
| qui s’appliquent fiablement à l’ensemble de la population ?
| |
| | |
| <nowiki>###</nowiki> Utilité des lois continues
| |
| | |
| Les données observées d’une variable ou certaines caractéristiques en
| |
| | |
| découlant (moyenne, variance…) peuvent souvent prendre une
| |
| | |
| quasi-infinité de valeurs. On s’intéresse alors à la distribution de ces
| |
| | |
| quantités et l’on utilise pour cela des lois de probabilité continues
| |
| | |
| dont les principales sont :
| |
| | |
| - **Loi normal (loi de Laplace-Gauss)**
| |
| | |
| - Loi du chi-2 (comparaison bivariante entre 2 populations avec
| |
| | |
| variables de type qualitative ; variable dépendante d’une autre ?)
| |
| | |
| - Loi de Student (si on ne connaît pas grand-chose sur la population ;
| |
| | |
| avec échantillon suffisamment grand)
| |
| | |
| - Loi de Fisher-Snedecor (comparaison de variance de deux ou plusieurs
| |
| | |
| variances)
| |
| | |
| <!-- end list -->
| |
| | |
| - Ces lois sont parfaitement connues et des tables statistiques
| |
| | |
| permettent de déterminer les probabilités qui leurs sont associées.
| |
| | |
| <nowiki>##</nowiki> Définition de la loi normale
| |
| | |
| Soit une variable X représentant la somme de nombreux effets dont aucun
| |
| | |
| ne domine les autres. Alors, C’est une écriture
| |
| | |
| considérant une variable aléatoire nommé X (donnée continue tel que la
| |
| | |
| quantité en gramme de yogourt) suivant les valeurs d’une loi dont les
| |
| | |
| paramètres sont la moyenne et la variance au carré. C’est une
| |
| | |
| distribution symétrique puisque les valeurs de l’infini à l’infini.
| |
| | |
| Elle se caractérise par deux paramètres, à savoir la moyenne et la
| |
| | |
| variance.
| |
| | |
| Dans le graphique à gauche, on disperse les valeurs. On l’interprète à
| |
| | |
| droite en tant que valeurs possibles pour l’axe des X et en ordonnées
| |
| | |
| (axe des Y) ce sont des probabilités. La probabilité devient plus faible
| |
| | |
| en s’éloignant des 0.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Loi normale centrée- réduite
| |
| | |
| Il est toujours possible de passer d’une loi normale X de moyenne
| |
| | |
| \(\mu\) et de variance \(\sigma^{2}\) à une autre loi normale ayant
| |
| | |
| d’autres caractéristiques. En particulier, la loi normale de moyenne 0
| |
| | |
| et de variance 1 est appelée la **loi normale centrée-réduite**. Elle
| |
| | |
| est notée Z est défini comme :
| |
| | |
| 
| |
| | |
| - Cela revient à soustraire la moyenne et diviser par l’écart-type de
| |
| | |
| la loi normale X d’origine.
| |
| | |
| Les probabilités sont représentées par la surface comprise entre la
| |
| | |
| fonction de densité de la loi et l’axe horizontal :
| |
| | |
| 
| |
| | |
| Cette loi normale, comme toute loi de distribution, permet de faire des
| |
| | |
| calculs de probabilité. La probabilité qu’un cas apparaissent est
| |
| | |
| représenté par la surface sous la courbe formée à l’aide du jeu de
| |
| | |
| données. Ainsi, lorsque l’on calcule des probabilités, on ne
| |
| | |
| s’intéresse qu’à une partie spécifique du graphique : entre – 1.96 et
| |
| | |
| + 1. 96 pour avoir 95% de la surface sous la courbe. Mais le plus
| |
| | |
| important est de savoir que tout calcul de probabilité provient d’une
| |
| | |
| loi normale.
| |
| | |
| Les probabilités les plus importantes en fonction d’un seuil z :
| |
| | |
| 
| |
| | |
| - Pour toute fonction de probabilité, l’air sous la courbe = 1 et cela
| |
| | |
| signifie qu’on a le 100% de toutes les valeurs. La fonction de
| |
| | |
| densité est la courbe de la fonction. Si on s’écarte de 1.96, la
| |
| | |
| probabilité d’être dans cette zone est de 0.95.
| |
| | |
| <nowiki>###</nowiki> Théorème central-limite
| |
| | |
| Soit une suite (X<nowiki><sub>1,</sub></nowiki> X<nowiki><sub>2</sub></nowiki>… X<nowiki><sub>n</sub></nowiki>) de *n*
| |
| | |
| variables aléatoires (\(\mu\), \(\sigma^{2}\)). Lorsque *n* -\>
| |
| | |
| \(\infty\), la distribution de  tend vers la loi
| |
| | |
| N (\(\mu\), \(\sigma^{2}\)). Quelle que soit la distribution d’une
| |
| | |
| variable numérique dans la population, la distribution de la moyenne de
| |
| | |
| la variable suit une loi normale.
| |
| | |
| <nowiki>##</nowiki> Estimation
| |
| | |
| <nowiki>###</nowiki> Concepts
| |
| | |
| <nowiki>**</nowiki>L’estimation** consiste à assigner une valeur à un paramètre de la
| |
| | |
| population sur la base de ce qui a été trouvé au sein d’un échantillon
| |
| | |
| issu de celle-ci.
| |
| | |
| <nowiki>**</nowiki>Estimation ponctuelle **: on assigne une valeur précise au paramètre.
| |
| | |
| <nowiki>**</nowiki>Estimation par intervalle **: on assigne un intervalle de valeurs au
| |
| | |
| paramètre.
| |
| | |
| - Lorsqu’on a une estimation et non la vraie valeur (généralement
| |
| | |
| inconnue) du paramètre, on surmonte le nom du paramètre d’un
| |
| | |
| chapeau : \(\widehat{\mu}\) au lieu de \(\mu\).
| |
| | |
| <nowiki>###</nowiki> Principe de l’estimation ponctuelle
| |
| | |
| Si l’échantillon utilisé est de bonne qualité, il doit représenter
| |
| | |
| fidèlement la population. Par conséquent, les paramètres estimés dans
| |
| | |
| l’échantillon doivent prendre des valeurs proches de celles de la
| |
| | |
| population. L’estimation ponctuelle consiste donc à estimer **la**
| |
| | |
| valeur d’un paramètre de la population sur la base de la valeur calculée
| |
| | |
| sur l’échantillon. Elle est notée à l’aide du paramètre surmonté d’un
| |
| | |
| <nowiki>accent circonflexe (un chapeau) : .</nowiki>
| |
| | |
| <nowiki>###</nowiki> Propriété : absence de biais
| |
| | |
| Le **biais** d’un estimateur est la différence entre l’espérance de cet
| |
| | |
| estimateur et la vraie valeur du paramètre estimé. Un estimateur est
| |
| | |
| <nowiki>**</nowiki>non-biaisé** si son espérance (valeur moyenne) est égale à la vraie
| |
| | |
| valeur de la population.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Propriété : convergence
| |
| | |
| Un estimateur  est dit **convergent** si,
| |
| | |
| lorsque la taille n de l’échantillon devient grande, le biais
| |
| | |
| disparaît :
| |
| | |
| 
| |
| | |
| Et la variance devient nulle :
| |
| | |
| 
| |
| | |
| - Cela revient à dire que lorsque la taille de l’échantillon augmente,
| |
| | |
| l’estimation devient de plus en plus précise.
| |
| | |
| <nowiki>###</nowiki> Estimateur absolument correct
| |
| | |
| Un estimateur non-biaisé et convergent est dit **absolument correct**.
| |
| | |
| Souvent, la valeur du paramètre calculée à partir de l’échantillon est
| |
| | |
| une estimation valable de la valeur de ce même paramètre au sein de la
| |
| | |
| population.
| |
| | |
| <nowiki>###</nowiki> Estimateur de la moyenne
| |
| | |
| La moyenne est un estimateur absolument correct :
| |
| | |
|  non biaisé et convergent :
| |
| | |
| 
| |
| | |
| Exemple : niveau d’activité physique
| |
| | |
| 
| |
| | |
| \(\widehat{\mu}\) = 2.75 est l’estimation ponctuelle de la moyenne pour
| |
| | |
| la population.
| |
| | |
| <nowiki>###</nowiki> Estimateur de la variance
| |
| | |
| La formule de la variance d’une population ne définit pas un estimateur
| |
| | |
| sans biais. C’est pourquoi, un estimateur absolument correct de la
| |
| | |
| <nowiki>variance est : </nowiki>
| |
| | |
| Exemple au niveau de l’activité physique :
| |
| | |
| 
| |
| | |
| \(\sigma^{2}\) = 2.35 est l’estimation ponctuelle de la variance pour la
| |
| | |
| population.
| |
| | |
| <nowiki>###</nowiki> Principe de l’estimation par intervalle
| |
| | |
| Un échantillon n’est pas toujours une image parfaitement fidèle de la
| |
| | |
| population. En faisant une estimation ponctuelle, on attribue une valeur
| |
| | |
| précise  à un paramètre mais on court le risque
| |
| | |
| que la valeur ainsi obtenue soit éloignée de la réalité. Au lieu de
| |
| | |
| fournir une estimation , on construit un
| |
| | |
| intervalle de valeurs de la forme :
| |
| | |
| 
| |
| | |
| dans lequel la vraie valeur du paramètre a une certaine probabilité
| |
| | |
| fixée à l’avance, notée  de se trouver.
| |
| | |
|  est appelé le **degré de confiance**
| |
| | |
|  est le **risque de première espèce**
| |
| | |
| <nowiki>###</nowiki> Choix du risque de première espèce
| |
| | |
| 
| |
| | |
| Le choix du risque de première espèce  est
| |
| | |
| déterminant car il influence directement l’utilité des résultats :
| |
| | |
| - Si  est très **petit**, l’intervalle est
| |
| | |
| très fiable, mais il devient tellement large qu’il ne nous
| |
| | |
| renseigne plus de façon utile sur la vraie valeur du paramètre.
| |
| | |
| - Si  est très **grand**, l’intervalle est
| |
| | |
| très précis (=étroit) mais la probabilité qu’il recouvre
| |
| | |
| effectivement la vraie valeur du paramètre est faible.
| |
| | |
| <!-- end list -->
| |
| | |
| - On choisit généralement un risque de  de 5%.
| |
| | |
| Exemple : le niveau d’activité physique
| |
| | |
| Au seuil  = 5%
| |
| | |
| Intervalle de confiance pour l’échantillon \[2.42 ; 3.10\].
| |
| | |
| <nowiki>Femmes seulement : \[2.10 ; 3.10\]</nowiki>
| |
| | |
| <nowiki>Hommes seulement : \[2.41 ; 3.42\]</nowiki>
| |
| | |
| Y a-t-il des preuves attestant que le niveau d’activité physique dans la
| |
| | |
| population est différent entre les femmes et les hommes ?
| |
| | |
| On ne peut pas l’estimer précisément puisque le seuil de
| |
| | |
| l’ est de 5%, on aurait donc que 95% de
| |
| | |
| probabilité et on est faiblement renseigné sur la vraie valeur du
| |
| | |
| paramètre. Comme les deux intervalles entre hommes et femmes ont des
| |
| | |
| valeurs communes, on ne peut pas déterminer avec justesse qu’il y a des
| |
| | |
| différences entre les deux catégories.
| |
| | |
| La véritable valeur se trouve quelque part dans l’intervalle \! Est-ce
| |
| | |
| qu’on peut avoir une identique pour les deux intervalles ? Les deux
| |
| | |
| intervalles se superposent et ici, avec une probabilité d’erreur de 5%,
| |
| | |
| il n’est pas possible de dire que statistiquement, le taux d’activité
| |
| | |
| des femmes est différent de celui des hommes. Il n’y a pas suffisamment
| |
| | |
| de preuves que c’est distinct.
| |
| | |
| <nowiki>###</nowiki> Intervalle de confiance et taille de l’échantillon
| |
| | |
| L’intervalle de confiance pour une moyenne \(\mu\) s’écrit :
| |
| | |
| 
| |
| | |
| 
| |
| | |
| On prend la moyenne de notre échantillon et on s’écarte un petit peu
| |
| | |
| vers la gauche et la droite. Cette précision s’exprime mathématiquement
| |
| | |
| par un quantile qui est le Z d’ordre 1- \(\alpha\)(risque de se tromper)
| |
| | |
| / 2. Donc l’intervalle recherchée ne se retrouve pas dans l’intervalle
| |
| | |
| de confiance.
| |
| | |
| La **précision** de l’estimation correspond au demi intervalle de
| |
| | |
| <nowiki>confiance : </nowiki>
| |
| | |
| <nowiki>Il en découle que : </nowiki>
| |
| | |
| - La taille de l’échantillon *n* ainsi calculée représente la taille
| |
| | |
| minimale nécessaire pour atteindre la précision d recherchée. Si je
| |
| | |
| connais la variance d’une population et de la précision voulue, je
| |
| | |
| peux calculer la taille de l’échantillon.
| |
| | |
| <nowiki>**</nowiki>Exemple : le niveau d’activité physique**
| |
| | |
| L’échantillon utilisé comporte *n* = 77 personnes (données valides). Au
| |
| | |
| niveau global, l’intervalle de confiance pour  =
| |
| | |
| 5% vaut \[2.41 ; 3.10\] et la précision obtenue est
| |
| | |
| .
| |
| | |
| Pour obtenir une précision d=0.1, toutes choses étant égales par
| |
| | |
| ailleurs, il aurait fallu un échantillon de taille :
| |
| | |
|  soit au minimum 903 personnes. En pratique, il
| |
| | |
| est aussi nécessaire jongler avec le budget qui va influencer la taille
| |
| | |
| de l’échantillon et la précision qu’on pourrait obtenir.
| |
| | |
| <nowiki>#</nowiki> Tests d’hypothèses : analyse des données et interprétation
| |
| | |
| <nowiki>##</nowiki> Principe
| |
| | |
| On formule une hypothèse sur la population étudiée. On vérifie si
| |
| | |
| l’échantillon utilisé provient bien (avec un certain degré de
| |
| | |
| confiance) de la population étudiée. Le test statistique lui-même
| |
| | |
| correspond à la règle de décision. Que tester ? :
| |
| | |
| - La valeur d’un paramètre (notamment son égalité à 0 = test de
| |
| | |
| significativité)
| |
| | |
| - L’égalité de deux ou plusieurs paramètres
| |
| | |
| - La forme de la distribution d’une ou plusieurs variables
| |
| | |
| <nowiki>##</nowiki> Hypothèses nulles et alternatives
| |
| | |
| Un test consiste à choisir entre deux hypothèses en fonction d’un
| |
| | |
| échantillon :
| |
| | |
| - L’hypothèse nulle, notée H<nowiki><sub>0</sub></nowiki> est l’hypothèse de base du
| |
| | |
| test, celle qui est considérée comme vraie jusqu’à preuve du
| |
| | |
| contraire. (= status quo)
| |
| | |
| - L’hypothèse alternative, notée H<nowiki><sub>1</sub></nowiki>, est son « contraire ».
| |
| | |
| (= ce que l’on aimerait montrer)
| |
| | |
| <nowiki>Exemple : </nowiki>
| |
| | |
| H<nowiki><sub>0</sub></nowiki> est rejetée dès lors que la valeur de la statistique de
| |
| | |
| test observée dans l’échantillon est trop différente de la valeur
| |
| | |
| théorique postulée sous H<nowiki><sub>0</sub></nowiki> pour la population. Grâce au
| |
| | |
| calcul, on veut savoir si c’est plausible d’avoir H<nowiki><sub>0</sub></nowiki>.
| |
| | |
| L’hypothèse nulle porte généralement sur une seule valeur ou sur une
| |
| | |
| égalité entre paramètres. On parle d’hypothèse simple :
| |
| | |
| 
| |
| | |
| L’hypothèse alternative regroupe généralement un très grand nombre de
| |
| | |
| situations différentes. C’est une hypothèse composite avec 3 variantes :
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Exemple : au tribunal**
| |
| | |
| Une personne est jugée. Les hypothèses suivantes sont formulées :
| |
| | |
| 
| |
| | |
| 
| |
| | |
| - P (condamner un innocent) = \(\alpha\) Erreur de type I
| |
| | |
| - P (acquitter un coupable) = \(\beta\) Erreur de type II
| |
| | |
| Ne pas condamner un innocent est prioritaire par rapport à acquitter un
| |
| | |
| coupable \!
| |
| | |
| <nowiki>###</nowiki> Risques, puissance
| |
| | |
| 
| |
| | |
| \(\text{α\ }\) = Erreur de première espèce (type I) =\> risque de
| |
| | |
| rejeter faussement H<nowiki><sub>0</sub></nowiki>
| |
| | |
| \(\beta\) = Erreur de deuxième espèce (type II) =\> risque de rejeter
| |
| | |
| faussement H<nowiki><sub>1</sub></nowiki>
| |
| | |
| 1 – \(\beta\) = puissance du test (probabilité de ne pas se tromper en
| |
| | |
| rejetant H<nowiki><sub>0</sub></nowiki> )
| |
| | |
| <nowiki>##</nowiki> Risque de première et de seconde espèce
| |
| | |
| - Risque \(\text{α~}\):
| |
| | |
|
| |
| | |
| - Spécifié par le chercheur avant d’effectuer le test
| |
| | |
|
| |
| | |
| - Fixé généralement à 5%.
| |
| | |
| - Risque \(\beta\) :
| |
| | |
|
| |
| | |
| - N’est pas choisi librement mais dépend des autres éléments de
| |
| | |
| l’analyse (risque \(\alpha,\) taille de l’échantillon, écart
| |
| | |
| entre les 2 hypothèses du test…)
| |
| | |
|
| |
| | |
| - Plutôt que \(\beta\), on considère souvent la notion de
| |
| | |
| **puissance** du test, à savoir la probabilité d’accepter
| |
| | |
| (lorsqu’elle doit l’être) l’hypothèse alternative
| |
| | |
| H<nowiki><sub>1</sub></nowiki> : 1 – \(\beta\) = P(accepter H<nowiki><sub>1</sub></nowiki> /
| |
| | |
| H<nowiki><sub>1</sub></nowiki> vraie)
| |
| | |
| <!-- end list -->
| |
| | |
| - Risque de première et de deuxième espèce sont liés puisque si
| |
| | |
| j’augmente un, je diminue l’autre et vice versa.
| |
| | |
| Exemple d’un test unilatéral à droite :
| |
| | |
| 
| |
| | |
| Situations problématiques :
| |
| | |
| \(\alpha\) est trop petit -\> \(\beta\) est grand
| |
| | |
| H<nowiki><sub>1</sub></nowiki> peut différent de H<nowiki><sub>0</sub></nowiki> -\> \(\beta\) est grand
| |
| | |
| 
| |
| | |
| Sur ce graphique, on peut observer deux lois normales, chacune
| |
| | |
| correspondant à une hypothèse. A gauche, on a la distribution de
| |
| | |
| H<nowiki><sub>0</sub></nowiki> (notre hypothèse nulle) si elle est vraie. A droite, on a
| |
| | |
| la distribution H<nowiki><sub>1</sub></nowiki> si c’est l’hypothèse alternative qui est
| |
| | |
| vraie. Ces deux intervalles découpent l’ensemble des possibles en
| |
| | |
| matière de moyenne en deux zones, celle proche de H<nowiki><sub>0</sub></nowiki> et
| |
| | |
| celle proche de H<nowiki><sub>1</sub></nowiki>. « r » représente la zone de rejet,
| |
| | |
| c’est-à-dire que selon où on se situe par rapport à elle, on
| |
| | |
| acceptera l’une ou l’autre des hypothèses. Ainsi, la surface de la zone
| |
| | |
| orange représente la probabilité de rejeter faussement l’hypothèse nulle
| |
| | |
| alors que la surface de la zone verte représente le risque de rejeter
| |
| | |
| faussement l’hypothèse alternative.
| |
| | |
| Si on souhaite non pas avoir un alpha à 5% comme généralement accepté,
| |
| | |
| mais un alpha à 1%, la courbe se déplacera sur la droite si bien que
| |
| | |
| c’est bêta qui deviendra plus grand. Cela correspond à rapprocher
| |
| | |
| notre hypothèse nulle de notre hypothèse alternative faisant par la même
| |
| | |
| grandir bêta. De plus, comme nous l’avons vu, deux hypothèses proches
| |
| | |
| sont difficilement distinguables pour le test d’hypothèse \! La seule
| |
| | |
| solution pour réduire le risque alpha et bêta, c’est d’augmenter la
| |
| | |
| taille de l’échantillon. Ainsi, c’est au terme d’une réflexion préalable
| |
| | |
| que l’on peut voir si l’étude projetée en vaut la peine et sous quelles
| |
| | |
| conditions.
| |
| | |
| <nowiki>##</nowiki> P- valeur et son utilisation
| |
| | |
| La **p-valeur** ( ou **degré de signification**), notée p, est la
| |
| | |
| probabilité d’avoir observé l’échantillon utilisé sachant que
| |
| | |
| l’hypothèse nulle H<nowiki><sub>0</sub></nowiki> est vraie. La p-valeur s’interprète
| |
| | |
| aussi comme la probabilité d’obtenir à partir d’un autre échantillon
| |
| | |
| tiré de la même population une valeur du paramètre testé plus extrême
| |
| | |
| (plus éloignée de H<nowiki><sub>0</sub></nowiki>) que la valeur réellement observée.
| |
| | |
| Après avoir fixé le niveau du risque de première espèce, alpha, le
| |
| | |
| résultat du test s’obtient à l’aide de la règle de décision suivant :
| |
| | |
| 
| |
| | |
| Pour un test unilatéral à droite, la situation décrite par le graphique
| |
| | |
| suivant conduit au rejet de H<nowiki><sub>0</sub></nowiki>, car la p-valeur (zone
| |
| | |
| hachurée verticalement) est plus petite que le risque alpha (zone
| |
| | |
| hachurée horizontalement)
| |
| | |
| 
| |
| | |
| Sur ce schéma, on voit que la p-valeur représente la probabilité d’être
| |
| | |
| à droite de Z<nowiki><sub>0</sub></nowiki>. Ainsi, si le test prouve, pour la p-valeur,
| |
| | |
| une valeur supérieure à la zone de rejet, la p-valeur sera plus petite
| |
| | |
| qu’alpha et H<nowiki><sub>0</sub></nowiki> sera affirmer. Mais comme on voit sur le
| |
| | |
| graphique, la p-valeur est plus petite qu’alpha si bien qu’H<nowiki><sub>0</sub></nowiki>
| |
| | |
| est rejetée.
| |
| | |
| - Pour conclure par rapport à un test statistique, on observe la
| |
| | |
| p-valeur, si elle supérieure au risque alpha, le status quo demeure
| |
| | |
| (H0). Par contre on rejette H<nowiki><sub>0</sub></nowiki> si p est inférieure ou
| |
| | |
| égale à alpha. Si p est supérieure à alpha, on accepte H0 parce que
| |
| | |
| la probabilité est supérieure à 0.05.
| |
| | |
| Exemple : le niveau d’activité physique
| |
| | |
| - Hypothèse nulle : H<nowiki><sub>0</sub></nowiki> : \(\mu\) = 2.5
| |
| | |
| - Hypothèse alternative : H<nowiki><sub>1</sub></nowiki> : \(\mu\) ≠ 2.5
| |
| | |
| - Le risque \(\alpha\) est fixé à 5%.
| |
| | |
| Ces données sont rentrées dans R. On voit que la p-valeur est égale à
| |
| | |
| 0.151 donc 15.1% \! Ce résultat est plus grand qu’\(\alpha\) (5%) si
| |
| | |
| bien que l’on se trouve dans la zone d’acceptation de l’hypothèse nulle
| |
| | |
| H0. On peut donc continuer de dire qu’en moyenne, les jeunes de moins de
| |
| | |
| 18 ans pratiquent une activité physique 2.5 jours par semaine. Cet
| |
| | |
| histogramme représente l’activité physique de l’échantillon sur la
| |
| | |
| dernière semaine. De cette manière, on voit que l’on est éloigné d’une
| |
| | |
| loi normale puisque la répartition ne se fait pas de manière symétrique
| |
| | |
| autour d’un axe unique.
| |
| | |
| 
| |
| | |
| <nowiki>##</nowiki> Vue d’ensemble
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Rappel
| |
| | |
| Statistiquement, il y a suffisamment d’évidences pour rejeter
| |
| | |
| H<nowiki><sub>0</sub></nowiki> mais on ne va jamais dire qu’on l’accepte. Avec l’exemple
| |
| | |
| de la machine à sou, on va dire que si on joue 100 fois et qu’on perd à
| |
| | |
| chaque fois, on va dire qu’on va rejeter l’hypothèse H<nowiki><sub>0</sub></nowiki>. De
| |
| | |
| ce fait, on arrive à un rejet de l’hypothèse nulle. A chaque fois, on
| |
| | |
| essaie de montrer une relation et de ce fait, on aimerait avoir
| |
| | |
| suffisamment d’évidences pour montrer quelque chose qui se trouve dans
| |
| | |
| l’hypothèse alternative. Les raisons pour ne pas rejeter l’hypothèse
| |
| | |
| nulle sont multiples : elle peut être vraie, l’échantillon n’est pas
| |
| | |
| assez grand…. Dans ces tests, on a l’hypothèse nulle (=status quo) et
| |
| | |
| l’hypothèse alternative (ce qu’on veut montrer). Pour conclure un
| |
| | |
| test, il y a une règle : avant d’effectuer le test, on se fixe une marge
| |
| | |
| d’erreur (=erreur de première espèce notée alpha qui se trouve avec une
| |
| | |
| probabilité à 5%) puis là, on peut faire le test. Le test nous donne
| |
| | |
| pleins d’indications mais entre autres, la p-valeur qui est une
| |
| | |
| probabilité comprise en 0 et 1. Puis on compare cette probabilité à
| |
| | |
| notre seuil critique qui est alpha. Si c’est plus petit que 5%, on
| |
| | |
| rejette l’hypothèse nulle sinon on ne la rejette pas. La p-valeur est la
| |
| | |
| probabilité basée sur un échantillon d’être éloigné de H<nowiki><sub>0</sub></nowiki>.
| |
| | |
| Avec le jeu, c’est la probabilité d’avoir 5 fois de suite un échec
| |
| | |
| sachant qu’on a 1/10 de gagner. La probabilité d’avoir un résultat aussi
| |
| | |
| éloigné de ce que l’on s’attend ; si on perd 10 fois, la probabilité
| |
| | |
| d’avoir un tel score est la p-valeur (probabilité théorique d’avoir un
| |
| | |
| tel résultat). C’est ce qui nous permet de conclure par rapport au
| |
| | |
| risque pris préalablement.
| |
| | |
| - Tout ceci pour faire un test statistique. Il nous permet d’indiquer
| |
| | |
| si oui ou non on a suffisamment de preuves pour affirmer quelque
| |
| | |
| chose. Par contre, pour l’instant, on n’a pas encore l’intensité de
| |
| | |
| l’effet. Si statistiquement on peut dire que oui, peut-être que cet
| |
| | |
| effet est très petit.
| |
| | |
| <nowiki>#</nowiki> Analyse bivariée : dépendance vs indépendance / corrélation vs causalité – analyse des données et interprétation
| |
| | |
| <nowiki>##</nowiki> Complexité du monde réel
| |
| | |
| Il est très rare qu’une variable soit totalement indépendante de son
| |
| | |
| environnement. Chaque variable est probabilité liée à d’autres
| |
| | |
| variables, voire même influencée par celles-ci. La statique bivariée a
| |
| | |
| pour but de mettre en relation deux informations différentes afin de
| |
| | |
| vérifier si elles sont ou non liées. La mise en évidence d’un tel lien
| |
| | |
| peut notamment servir à faire des prédictions sur la valeur prise par
| |
| | |
| une variable en fonction de celle prise par une autre. L’analyse
| |
| | |
| bivariée donne aussi des informations utiles permettant ensuite de
| |
| | |
| construire un modèle multivarié.
| |
| | |
| <nowiki>###</nowiki> Objectifs et outils
| |
| | |
| Concrètement, les objectifs de l’analyse bivariée sont :
| |
| | |
| - Déterminer si une relation existe entre deux variable d’un
| |
| | |
| échantillon.
| |
| | |
| - Si une relation existe, quantifier la force de cette relation.
| |
| | |
| - Vérifier si la relation observée sur un échantillon est dû au hasard
| |
| | |
| ou si elle est aussi valide au niveau de l’ensemble de la population
| |
| | |
| considérée.
| |
| | |
| Les outils utilisés en statistique bivariée dépendent fortement du type
| |
| | |
| de variables analysées :
| |
| | |
| - 2 variables *qualitatives *: tables de contingence (représenter dans
| |
| | |
| un tableau croisé les quantités de chacun des deux variables et
| |
| | |
| leurs modalités), chi-2 (distribution de chi-2) et V de Cramer
| |
| | |
| (score calculé à partir du chi-2)
| |
| | |
| - 2 variables *quantitatives *: diagramme de dispersion (pour voir la
| |
| | |
| forme que prennent ces deux variables), corrélation de Pearson
| |
| | |
| (score calculé)
| |
| | |
| - 2 variables *ordinales *: corrélation de Spearman (corrélation
| |
| | |
| s’attache au rang de ces variables et à partir d’eux, on va
| |
| | |
| calculer une corrélation de Spearman)
| |
| | |
| <!-- end list -->
| |
| | |
| - On peut mélanger les variables, on peut rendre une variable
| |
| | |
| qualitative en une variable quantitative
| |
| | |
| Exemple : Données GSOEP
| |
| | |
| Nous disposons de données extraites du German Socio-Economic Panel
| |
| | |
| (GSOEP), un panel représentatif des ménages allemands pour l’année 1994.
| |
| | |
| Ces données concernant 3377 individus âgés de 25 à 64 ans. Variables
| |
| | |
| liées au travail :
| |
| | |
| Variables liées au travail :
| |
| | |
| - TRAVAIL : variable indiquant si la personne a un emploi : non/oui
| |
| | |
| - COL BLEU : variable indiquant si la personne a un emploi type « col
| |
| | |
| bleu » (travail manuel) : non/oui
| |
| | |
| - COL BLANC : variable indiquant si la personne a un emploi de type
| |
| | |
| « col blanc » (travail de bureau) : Oui/non
| |
| | |
| - INDEP : variable indiquant si la personne a un travail indépendant :
| |
| | |
| non/oui
| |
| | |
| Variables liées à la santé
| |
| | |
| - SANTE : satisfaction autoreportée avec la santé sur une échelle de 0
| |
| | |
| à 10
| |
| | |
| - HANDI : variable indiquant si la personne a un handicap : non/oui
| |
| | |
| - HANDI.POUR : degré de handicap en pourcents (o pour les personnes ne
| |
| | |
| souffrant d’aucun handicap)
| |
| | |
| - DOC.3M : nombre de visites chez un docteur durant les 3 derniers
| |
| | |
| mois
| |
| | |
| - DOC\_4C : nombre de visites chez un docteur durant les 3 derniers
| |
| | |
| mois en 4 catégories
| |
| | |
| Variables socio-démographiques :
| |
| | |
| - GENRE : homme/femme
| |
| | |
| - AGE : âgé en années
| |
| | |
| - REVENU : revenu net mensuel du ménage en marks allemands / 10000
| |
| | |
| - ENFANTS.16 : variable indiquant s’il y a des enfants de moins de 16
| |
| | |
| ans dans le ménage….
| |
| | |
| <nowiki>##</nowiki> Variables qualitatives
| |
| | |
| <nowiki>###</nowiki> Fréquences absolues conjointes
| |
| | |
| Une table de contingence est l’équivalent d’une distribution de
| |
| | |
| fréquence mais pour <nowiki><span class="underline">deux</span></nowiki> variables
| |
| | |
| simultanément. Il y a un croisement entre ces deux variables.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Fréquences relatives
| |
| | |
| Ces 4 valeurs divisées par le nombre de personnes (=3377). Le
| |
| | |
| pourcentage est indiqué en bas (9.061% par exemple).
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Fréquences conditionnelles par ligne
| |
| | |
| On fixe une modalité (genre) à homme, puis on
| |
| | |
| dit des choses sur la variable travail. Donc je me situe comme si
| |
| | |
| j’étais avec 1812 personnes. Quelle est la distribution variable
| |
| | |
| travail sachant que les personnes que j’ai à disposition sont des
| |
| | |
| hommes ? Il y aurait environ 17% d’hommes qui auraient un travail
| |
| | |
| contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17%
| |
| | |
| n’ont pas de travail et les autres oui. Cela revient à restreindre notre
| |
| | |
| échantillon puisqu’on considère qu’une seule des deux modalités du
| |
| | |
| genre. On peut aussi regarder la distribution de la variable genre (par
| |
| | |
| colonne) ; je prends uniquement ceux qui n’ont pas de travail et je
| |
| | |
| regarde la distribution de la variable genre.
| |
| | |
| Autre exemple : COL BLANC et DOC\_4c, On a le total (3377), les
| |
| | |
| répartitions (table de contingence) et ici, on analyse par ligne (=100
| |
| | |
| dans le total).
| |
| | |
| Question : en regardant ce tableau, si on a une personne issue de ce
| |
| | |
| panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir
| |
| | |
| la répartition des visites de médecin ou pas ? Est-ce que l’information
| |
| | |
| donnée (COL BLANC) nous apporte quelque chose ? Quasi pas \! Quelle est
| |
| | |
| la probabilité qu’une personne soit allée plus de deux fois chez le
| |
| | |
| médecin ? 44.120% \! Si on prend une personne au hasard, quelle est la
| |
| | |
| probabilité que cette personne soit allée deux fois chez le médecin ? Le
| |
| | |
| calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que
| |
| | |
| la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce
| |
| | |
| qu’il faut comprendre, c’est que si les deux variables col blanc et
| |
| | |
| nombre de visite sont liées, a priori, le lien est extrêmement faible.
| |
| | |
| - Ce « lien » est la dépendance ou pas.
| |
| | |
| <nowiki>###</nowiki> Indépendance
| |
| | |
| Deux variables A et B sont *indépendantes* si la connaissance de la
| |
| | |
| modalité prise par A n’influence pas la distribution de B et vice versa.
| |
| | |
| Sur une table de contingence, cela implique que :
| |
| | |
| - Les distributions conditionnelles par ligne sont toutes identiques
| |
| | |
| - Les distributions conditionnelles par colonne sont toutes
| |
| | |
| identiques.
| |
| | |
| <nowiki>###</nowiki> Indépendance et information marginale
| |
| | |
| En cas d’indépendance des 2 variables, toute l’information de la table
| |
| | |
| de contingence est résumée par les distributions séparées (margines) des
| |
| | |
| deux variables. On peut alors reconstituer la distribution conjointe de
| |
| | |
| <nowiki>la manière suivant : </nowiki>
| |
| | |
| Exemple de situation d’indépendance parfait
| |
| | |
| On a fait les totaux par ligne et par colonne,
| |
| | |
| on regarde les fréquences absolues (n<nowiki><sub>ij</sub></nowiki>) et les fréquences
| |
| | |
| relatives (f<nowiki><sub>ij</sub></nowiki>). (On divise 16/80=0.2).
| |
| | |
| <nowiki>###</nowiki> Dépendance et degré d’association
| |
| | |
| Lorsque deux variables ne sont pas indépendantes, elles sont
| |
| | |
| dépendantes. Il est utile de mesurer leur degré d’association. Plus le
| |
| | |
| degré d’association est élevé, plus il devient possible d’utiliser une
| |
| | |
| variable pour prédire l’autre. Sauf qu’association ≠ causalité \!
| |
| | |
| <nowiki>###</nowiki> Chi-2
| |
| | |
| Une façon d’estimer la force de la relation entre les deux variables
| |
| | |
| d’un tableau croisé consiste à comparer les données observées avec la
| |
| | |
| situation que l’on aurait en cas d’indépendance. La statistique du
| |
| | |
| chi-2, notée K<nowiki><sup>2</sup></nowiki> est définie comme :
| |
| | |
| où -\>
| |
| | |
| - Est la fréquence de la case d’indices *ij* sous l’hypothèse
| |
| | |
| d’indépendance.
| |
| | |
| Cette statistique du chi-2 est comprise entre 0 et une certaine valeur.
| |
| | |
| La valeur maximale est la taille de l’échantillon (n) x le minimum
| |
| | |
| nombre de ligne -1 et le nombre de colonne -1. 
| |
| | |
| - Si K<nowiki><sup>2</sup></nowiki> vaut zéro, nous sommes dans la situation
| |
| | |
| d’indépendance.
| |
| | |
| - Si K<nowiki><sup>2</sup></nowiki> est supérieur à zéro, il y a dépendance ou
| |
| | |
| association.
| |
| | |
| - Plus K<nowiki><sup>2</sup></nowiki> est grand, plus l’association est forte mais
| |
| | |
| attention, K<nowiki><sup>2</sup></nowiki> dépend de la taille de la table de
| |
| | |
| contingence.
| |
| | |
| Exemple : fréquences observées et attendues
| |
| | |
| Sur ce tableau, on voit la distribution
| |
| | |
| conjointe de deux variables différentes : homme/femme et travail/pas de
| |
| | |
| travail. La distribution conjointe représente la relation entre les deux
| |
| | |
| variables. Ici, c’est en nombre d’individus que la table se présente. On
| |
| | |
| voit que parmi les hommes, 83% ont un emploi alors que chez les femmes,
| |
| | |
| seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre
| |
| | |
| échantillon, les hommes occupent plus fréquemment un emploi que les
| |
| | |
| femmes. Ces fréquences conditionnelles peuvent aussi être calculées par
| |
| | |
| colonnes. Ce que l’on remarque alors c’est que parmi les individus
| |
| | |
| n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui
| |
| | |
| est des personnes occupant un emploi, seules 37% des femmes On voit, sur
| |
| | |
| la base de ces tableaux, que les hommes et les femmes ne sont pas égaux
| |
| | |
| face au travail. Toutefois, on ne peut pas conclure à une causalité ni
| |
| | |
| spéculer sur la force de cette différence dans la population totale.
| |
| | |
| La distribution des deux variables sont
| |
| | |
| parfaitement identiques : elles sont donc parfaitement indépendantes
| |
| | |
| l’une de l’autre. Ainsi, il est possible de retrouver la distribution
| |
| | |
| en se basant uniquement sur les totaux des lignes et des colonnes en
| |
| | |
| suivant la formule (total de i x total de j)/total.
| |
| | |
| A partir du moment que l’on ne se trouve pas dans une situation
| |
| | |
| d’indépendance parfaite, c’est une situation de dépendance.
| |
| | |
| Toutefois, cette dépendance peut être plus au moins forte. Plus la force
| |
| | |
| d’association entre deux variables est élevée, plus il devient possible
| |
| | |
| de prédire l’une par rapport à l’autre. Mais attention, dépendance ne
| |
| | |
| signifie pas causalité \!
| |
| | |
| <nowiki>###</nowiki> Normalisation du chi-2
| |
| | |
| La valeur maximale du chi-2 dépend de la taille de la table de
| |
| | |
| contingence ainsi que de l’effectif total. Il est donc difficile
| |
| | |
| d’évaluer le résultat. Une solution consiste à normaliser le résultat
| |
| | |
| afin qu’il évolue entre des bornes finies et connues. La mesure de V de
| |
| | |
| Cramer est définie comme :
| |
| | |
| 
| |
| | |
| où K<nowiki><sup>2</sup></nowiki> est la statistique du chi-2, *n* est le nombre de
| |
| | |
| données, \(\mathcal{l}\) est le nombre de ligne et *c* est le nombre de
| |
| | |
| colonnes.
| |
| | |
| <nowiki>La mesure V a pour bornes : </nowiki>
| |
| | |
| - 0 signifie l’indépendance parfaite entre les variables
| |
| | |
| - 1 signifie une association maximale
| |
| | |
| - Le V de Cramer est facile à comparer entre des tables de dimensions
| |
| | |
| différentes et comportant un nombre d’observations différent.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Test du chi-2
| |
| | |
| Tous les calculs précédents (chi-2 et V de Cramer) concernant
| |
| | |
| l’échantillon de données utilisé. Pour déterminer s’il y a dépendance
| |
| | |
| ou indépendance au niveau de la population, il faut effectuer un test
| |
| | |
| d’hypothèses :
| |
| | |
| - H<nowiki><sub>0</sub></nowiki> : indépendance entre les 2 variables
| |
| | |
| - H<nowiki><sub>1</sub></nowiki> : Dépendance entre les 2 variables
| |
| | |
| Le même test permet aussi de savoir si le V de Cramer prend une valeur
| |
| | |
| égale ou supérieure à zéro dans la population.
| |
| | |
| Exemple :
| |
| | |
| On considère un risque de première espèce à \(\alpha\) = 5%.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Degrés de liberté
| |
| | |
| En statistique, les degrés de liberté (*degrees of freedom*)
| |
| | |
| représentent le nombre de données ou d’éléments d’un problème qui
| |
| | |
| peuvent être fixés sans contrainte, indépendamment les uns des autres.
| |
| | |
| Exemples :
| |
| | |
| - Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi
| |
| | |
| que leur moyenne, alors il y a 4 degrés de liberté car la valeur de
| |
| | |
| la 5<nowiki><sup>ème</sup></nowiki> observation peut être retrouvée en utilisant la
| |
| | |
| moyenne.
| |
| | |
| - Pour un test d’indépendance sur une table de contingence pour
| |
| | |
| \(\mathcal{l}\) ligles et c colonnes, il y a (\(\mathcal{l}\)-1) x
| |
| | |
| (c-1) degrés de liberté car les autres éléments de la distribution
| |
| | |
| d’indépendance peuvent être retrouvés en utilisant les totaux
| |
| | |
| connus des lignes et des colonnes.
| |
| | |
| <nowiki>**</nowiki>A retenir **:
| |
| | |
| Lorsqu’on a affaire des variables de type catégorielles ou qualitatives,
| |
| | |
| on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut
| |
| | |
| calculer la force de dépendance via le V de Cramer et on associe un test
| |
| | |
| dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et
| |
| | |
| la dépendance.
| |
| | |
| Exemple : le niveau de mathématiques avec la taille des pieds (plus on a
| |
| | |
| des grands pieds, plus on est bons en mathématique
| |
| | |
| Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus
| |
| | |
| qu’on ne connaît pas la population. Il est possible d’avoir deux
| |
| | |
| variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause
| |
| | |
| de l’autre. Ainsi, il n’y a pas toujours de cause à effet \! On peut
| |
| | |
| trouver des relations fortes entre deux variables mais cela ne signifie
| |
| | |
| pas nécessairement qu’il y a une relation de cause à effet \! Par
| |
| | |
| contre, le nombre d’années d’apprentissage pourrait être la cause
| |
| | |
| d’avoir de meilleurs résultats en mathématique \!
| |
| | |
| - Même si deux variables sont fortement corrélées, il faut toujours
| |
| | |
| remettre en question la cause à effet.
| |
| | |
| - Pour connaître la dépendance, on peut faire une représentation
| |
| | |
| graphique mais on utilise des tables de contingence. On regarde les
| |
| | |
| valeurs conjointes entre ces deux variables. Une fois qu’on a ces
| |
| | |
| valeurs conjointes, on pourra expliciter la dépendance ou
| |
| | |
| l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est
| |
| | |
| une valeur qui explique la différence entre la situation
| |
| | |
| d’indépendance et la situation que j’ai. Si elle est égale à 0,
| |
| | |
| c’est l’indépendance complète. L’autre formule est le V de Cramer
| |
| | |
| qui se situe entre 0 et 1. Pour des variables qualitatives, on les
| |
| | |
| compare en utilisant le V de Cramer.
| |
| | |
| <nowiki>##</nowiki> Variables quantitatives
| |
| | |
| <nowiki>###</nowiki> Diagramme de dispersion
| |
| | |
| Le diagramme de dispersion permet la mise en relation de deux variables
| |
| | |
| numériques. La relation est-elle linéaire ?
| |
| | |
| 
| |
| | |
| On a deux variables numériques. La relation est-elle linéaire ?
| |
| | |
| Graphiquement, on fait un diagramme de dispersion.
| |
| | |
| <nowiki>###</nowiki> Intérêt des relations linéaires
| |
| | |
| Les relations linéaires sont simples à analyser et comprendre
| |
| | |
| (proportionnalité linéaire (=immédiate) entre variable explicative et
| |
| | |
| variable expliquée). Il existe de nombreux outils pour les analyser
| |
| | |
| (corrélation linéaire (coefficient), régression linéaire (fonction
| |
| | |
| explicative par rapport à une autre)…). En cas de non-linéarité :
| |
| | |
| - Transformation des données (linéarisation de la relation)
| |
| | |
| - Méthodes non-linéaires
| |
| | |
| <nowiki>###</nowiki> Covariance
| |
| | |
| La covariance de deux variables X et Y est définie comme la moyenne des
| |
| | |
| produits des écarts à la moyenne des deux variables :
| |
| | |
| 
| |
| | |
| C’est une différence par rapport à la moyenne et on multiplie les
| |
| | |
| différences par rapport à la moyenne de l’autre valeur. La covariance
| |
| | |
| peut prendre n’importe quelle valeur comprise entre - \(\infty\) à +
| |
| | |
| \(\infty\). Mais comment savoir s’il y a un lien entre les deux
| |
| | |
| variables si les valeurs vont de l’infini à l’infini.
| |
| | |
| Si toutes les valeurs sont égales pour la variable X et toutes égales
| |
| | |
| pour la variable Y (sans variation) ; si la covariante est égale à 0,
| |
| | |
| toutes les valeurs sont proches de la moyenne et on n’a qu’une seule
| |
| | |
| valeur. Par contre, avec une différence, la covariance peut prendre des
| |
| | |
| valeurs négatives ou positives.
| |
| | |
| <nowiki>###</nowiki> Interprétation de la covariance
| |
| | |
| La covariance permet de déterminer le sens de la relation entre les deux
| |
| | |
| variables :
| |
| | |
| - COV (X,Y) \> 0 les variables évoluent dans le même sens. Les deux
| |
| | |
| variables ont tendance à prendre simultanément des valeurs grandes
| |
| | |
| ou petites.
| |
| | |
| - COV (X,Y) \< 0 les variables évoluent en sens contraire. Si une
| |
| | |
| variable prend une valeur élevée, l’autre variable a tendance à
| |
| | |
| prendre une petite valeur, et vice verse.
| |
| | |
| - En l’absence de relation linéaire, la covariance vaut zéro.
| |
| | |
| <nowiki>###</nowiki> Limites de la covariance
| |
| | |
| La covariance souffre de deux défauts :
| |
| | |
| 1) Elle dépend de l’unité de mesure des variables (avoir la même unité
| |
| | |
| pour les variables)
| |
| | |
| 2) Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
| |
| | |
| <!-- end list -->
| |
| | |
| - Difficile de l’interpréter
| |
| | |
| Exemples :
| |
| | |
| Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a
| |
| | |
| d’éducation, plus le revenu est élevé puisque la covariance est
| |
| | |
| élevée.
| |
| | |
| Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme
| |
| | |
| ça parce que les unités ne sont pas les mêmes.
| |
| | |
| Santé et visites chez le médecin : cov = -3.54. Plus le nombre de
| |
| | |
| visites augmente, moins on a bon état de la santé. Ce qui est important,
| |
| | |
| c’est que c’est négatif et cela est logique ; l’état de santé est moins
| |
| | |
| bon.
| |
| | |
| <nowiki>##</nowiki> Corrélation linéaire de Pearson
| |
| | |
| Le coefficient de corrélation linéaire de Pearson entre deux variables X
| |
| | |
| et Y est défini comme :
| |
| | |
| 
| |
| | |
| où COV (X,Y) est la covariance des deux variables et S<nowiki><sub>x</sub></nowiki> et
| |
| | |
| S<nowiki><sub>y</sub></nowiki> sont les deux écarts-types. La corrélation ne mesure
| |
| | |
| qu’une association **linéaire** à l’exclusion de tout autre type de
| |
| | |
| relation entre les deux variables.
| |
| | |
| <nowiki>###</nowiki> Interprétation de la corrélation
| |
| | |
| Le coefficient de corrélation linéaire de Pearson mesure l’ajustement
| |
| | |
| des données à une droite. Il évolue entre -1 et +1 :
| |
| | |
| 
| |
| | |
| 
| |
| | |
| On voit sur ces graphiques que la linéarité peut être plus au moins
| |
| | |
| parfaite. En effet, les deux graphiques de gauche illustrent une
| |
| | |
| situation de linéarité parfaite avec en haut, une pente positive et en
| |
| | |
| bas, une pente négative. Le graphique en haut à droite illustre le cas
| |
| | |
| où une corrélation linéaire est forte sans toutefois être parfaite, les
| |
| | |
| points n’étant pas parfaitement alignés sur la même droite. Enfin, le
| |
| | |
| graphique en bas à droite illustre un cas éloigné de la corrélation
| |
| | |
| linéaire bien que l’on puisse identifier une tendance linéaire
| |
| | |
| discrète.
| |
| | |
| R =1 : tous les points sont situés sur une droite et la relation est
| |
| | |
| linéaire (=droite). Si la valeur x augmente, la valeur y augmente
| |
| | |
| également.
| |
| | |
| R = 0.95 : petite variation mais je peux prédire en connaissant x avec
| |
| | |
| une petite marge d’erreur.
| |
| | |
| R = -1 : si j’augmente x, y diminue.
| |
| | |
| R = 0.39 : la variabilité autour de la droite est beaucoup plus grande.
| |
| | |
| La relation linéaire est ici positive (j’augmente x donc y aussi) mais
| |
| | |
| c’est beaucoup moins fort.
| |
| | |
| On est capable d’indiquer une intensité linéaire mais ce n’est pas
| |
| | |
| suffisant \! Par exemple, on prend un échantillon de 2 individus pour
| |
| | |
| deux variables de type quantitative. Le coefficient de corrélation
| |
| | |
| linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si
| |
| | |
| petit échantillon, c’est difficile de déterminer la signification.
| |
| | |
| <nowiki>###</nowiki> Test de la corrélation
| |
| | |
| Du point de vue inférentiel, la première question est de savoir s’il y a
| |
| | |
| oui ou non corrélation. Les hypothèses testées sont alors les
| |
| | |
| suivantes :
| |
| | |
| 
| |
| | |
| L’acceptation de H<nowiki><sub>0</sub></nowiki> signifie **une absence de relation
| |
| | |
| linéaire entre les deux variables**, pas l’absence totale de
| |
| | |
| relation \!
| |
| | |
| Exemple : éducation et revenu
| |
| | |
| Difficile de trouver une relation linéaire. Si
| |
| | |
| on augmente le niveau d’éducation, il semble que le revenu augmente avec
| |
| | |
| de grosses variations donc on aurait un semblant de linéarité. Si
| |
| | |
| j’effectue le teste statistique, on aura des éléments. Il compare la
| |
| | |
| variable « éducation » avec la variable « revenu ». L’hypothèse
| |
| | |
| alternative est qu’elle est différente de 0. On obtient un coefficient
| |
| | |
| de relation de 0.445. Cela signifie que c’est positif donc si l’une
| |
| | |
| variable augmente, l’autre variable augmente aussi. Quelle est la force
| |
| | |
| de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un
| |
| | |
| peu de linéarité. De plus, a-t-on raison d’appliquer à la population ?
| |
| | |
| Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La
| |
| | |
| p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse
| |
| | |
| H<nowiki><sub>0</sub></nowiki>. Donc oui effectivement il existe une relation linéaire
| |
| | |
| entre ces deux variables. La valeur du coefficient de relation qui
| |
| | |
| l’exprime est de 0.445.
| |
| | |
| Exemple : âge et revenu
| |
| | |
| Les éléments du test indiquent que la valeur du
| |
| | |
| coefficient de relation est très faible (0.0242) donc une faible
| |
| | |
| relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la
| |
| | |
| p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.
| |
| | |
| Exemple : santé et visites chez le médecin
| |
| | |
| On constate que le coefficient de relation est égal à -0.389. La
| |
| | |
| p-valeur est faible donc inférieur au seuil de 5% et dans la population,
| |
| | |
| le coefficient de relation est négatif et on peut l’estimer avec le
| |
| | |
| coefficient de relation. Si on augmente la valeur de l’un, je diminue
| |
| | |
| l’autre.
| |
| | |
| <nowiki>##</nowiki> Corrélation de variable ordinales
| |
| | |
| De par sa formule, la corrélation de Pearson ne concerne que les
| |
| | |
| variables numériques. Il est cependant possible d’appliquer un concept
| |
| | |
| similaire à des variables ordinales. On parle alors de **corrélation de
| |
| | |
| Spearman** ou de **corrélation non-paramétrique**, notée \(\rho\) (rho).
| |
| | |
| Le principe consiste à numéroter indépendamment pour chaque variable,
| |
| | |
| les observations de la plus petite à la plus grande (selon l’ordre des
| |
| | |
| modalités). Ces numéros sont appelés les **rangs** des observations. On
| |
| | |
| calcule alors la corrélation entre ces deux séries de rangs.
| |
| | |
| La corrélation non-paramétrique s’interprète de la même façon que la
| |
| | |
| corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y
| |
| | |
| a toujours le même écart entre deux modalités successives d’une
| |
| | |
| variable. Lorsque la corrélation non-paramétrique est appliquée sur des
| |
| | |
| variables numériques, elle rend égaux les écarts successifs entre les
| |
| | |
| valeurs réellement observées.
| |
| | |
| Exemple : santé et doc\_4c
| |
| | |
| Ici, entre la santé et le nombre de visites, on
| |
| | |
| a un coefficient de corrélation de Spearman égal à -0.363 où si le
| |
| | |
| nombre de visites augments, la santé diminue. La p-valeur est faible et
| |
| | |
| donc on a raison d’inférer où notre échantillon est significatif par
| |
| | |
| rapport à la population. On n’a plus d’intervalle de confiance mais les
| |
| | |
| mêmes caractéristiques sont présentes.
| |
| | |
| <nowiki>###</nowiki> Causalité
| |
| | |
| Pour qu’il y ait causalité d’une variable A vers une variable B, les 3
| |
| | |
| conditions suivantes doivent être vérifiées :
| |
| | |
| - A et B doivent être corrélées.
| |
| | |
| - Il doit y avoir une relation temporelle entre A et B, à savoir que A
| |
| | |
| doit avoir lieu avant B.
| |
| | |
| - Toutes les autres raisons pouvant valablement expliquer l’influence
| |
| | |
| observée de A sur B doivent avoir été écartées.
| |
| | |
| Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies
| |
| | |
| que l’on peut parler **d’influence causale** d’une variable sur une
| |
| | |
| autre \!
| |
| | |
| - Ici, le terme de corrélation doit se comprendre comme une
| |
| | |
| association au sens large, linéaire ou non.
| |
| | |
| <nowiki>###</nowiki> La corrélation n’implique pas la causalité
| |
| | |
| La corrélation n’implique pas automatiquement la causalité : ce n’est
| |
| | |
| pas parce que deux variables sont fortement corrélées l’une à l‘autre
| |
| | |
| que l’une est forcément la cause de l’autre. Il arrive fréquemment que
| |
| | |
| deux variables soit corrélées car elles dépendant toutes deux d’une même
| |
| | |
| troisième variable. Il peut aussi arriver que deux variables
| |
| | |
| s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse,
| |
| | |
| si la valeur prise par une variable dépend de celle d’une autre variable
| |
| | |
| (causalité) alors les deux variables sont corrélées.
| |
| | |
| <nowiki>#</nowiki> Analyse bivariée : comparaison de population. Analyse des données et interprétations
| |
| | |
| On ne va plus faire des tests sur une seule population mais on veut voir
| |
| | |
| ce qui se passe quand on a deux populations et on veut voir quel test on
| |
| | |
| peut appliquer sur ces deux populations.
| |
| | |
| <nowiki>##</nowiki> Introduction
| |
| | |
| <nowiki>###</nowiki> Problématique
| |
| | |
| Un problème classique en recherche consiste à déterminer si deux ou plus
| |
| | |
| de deux populations sont significativement différentes les unes des
| |
| | |
| autres. Une problématique similaire s’observe lorsque l’on désire
| |
| | |
| comparer les réponses de mêmes personnes interrogées à plusieurs
| |
| | |
| reprises au fil du temps. EN pratique, on considère une ou plusieurs
| |
| | |
| variables numériques d’intérêt et on se demande si leurs
| |
| | |
| caractéristiques (moyenne, variance…) diffèrent réellement d’une
| |
| | |
| population l’autre.
| |
| | |
| <nowiki>###</nowiki> Données appariées ou indépendantes ?
| |
| | |
| Deux populations sont dites ***appariées*** si chaque élément de la
| |
| | |
| première population correspond exactement à un élément de la seconde
| |
| | |
| population et vice verse. Deux populations sont dites
| |
| | |
| <nowiki>***</nowiki>indépendantes*** s’il n’existe aucune relation particulière entre un
| |
| | |
| élément de la première population et un élément de la seconde. Deux
| |
| | |
| populations appariées contiennent forcément <nowiki><span class="underline">le</nowiki>
| |
| | |
| même nombre d’individus<nowiki></span></nowiki>, alors que ce n’est pas forcément le cas
| |
| | |
| pour des populations indépendantes. Ces mêmes concepts s’étendent
| |
| | |
| naturellement à un nombre quelconque de populations.
| |
| | |
| <nowiki>###</nowiki> Comparaison des moyennes
| |
| | |
| Le critère de comparaison le plus souvent utilisé est celui de la
| |
| | |
| moyenne. ***L’analyse de variance*** ou ***ANOVA*** permet de faire une
| |
| | |
| comparaison des moyennes entre plusieurs populations. Dans le cas
| |
| | |
| particulier où l’on ne désire comparer entre-elles que 2 populations, on
| |
| | |
| utilise généralement le ***test de Student***, une version particulière
| |
| | |
| de l’ANOVA.
| |
| | |
| <nowiki>###</nowiki> Tests non-paramétriques
| |
| | |
| Quand on veut faire un test, on veut dire quelque chose sur la
| |
| | |
| population. L’ANOVA et le test de Student sont des **méthodes
| |
| | |
| paramétriques** (on veut établir un paramètre) reposant notamment sur
| |
| | |
| l’hypothèse selon laquelle les données sont distribuées selon des lois
| |
| | |
| normales. Cette hypothèse de normalité se révèle parfois fausse. Par
| |
| | |
| ailleurs, lorsque la taille de l’échantillon est petite, les tests de
| |
| | |
| normalité usuels, tel que celui de Kolmogorv-Smirnov, ne sont pas assez
| |
| | |
| puissants et ils ne peuvent donc jamais rejeter l’hypothèse nulle de
| |
| | |
| normalité, ce qui est donc non-informatif. Les tests paramétriques sont
| |
| | |
| alors souvent remplacés par des tests équivalents
| |
| | |
| <nowiki>***</nowiki>non-paramétriques*** qui ne postulent aucune distribution
| |
| | |
| particulière des données.
| |
| | |
| Les tests non-paramétriques comparent les médianes et non les
| |
| | |
| moyennes \! Ils sont généralement moins puissants que leurs équivalents
| |
| | |
| numériques mais ils sont plus robustes (médiane n’est pas sensible aux
| |
| | |
| valeurs extrêmes \! Donc test non-paramétrique comparant des médianes et
| |
| | |
| plus robuste) et ont un plus grand champ d’application. Tests
| |
| | |
| non-paramétriques pour les comparaisons de populations :
| |
| | |
| - Test du signe et test du signe de Wilcoxon (comparaison de 2
| |
| | |
| populations appariées / test de calcul sur la différence entre les
| |
| | |
| rangs en considérant l’amplitude, à savoir la différence entre les
| |
| | |
| rangs)
| |
| | |
| - Test de Wilcoxon et test de Mann-Whitney (test non paramétrique de
| |
| | |
| comparaison entre 2 populations indépendantes)
| |
| | |
| - Test de Friedman (comparaison de plus de 2 populations appariées)
| |
| | |
| - Test de Kruskal-Wallis (comparaison de plus de 2 populations
| |
| | |
| indépendantes)
| |
| | |
| Exemple : données du test pilote LHC
| |
| | |
| En décembre 2014, des étudiants des Universités de Lausanne et Genève
| |
| | |
| ont participé au premier test pilote d’un nouveau type de questionnaire
| |
| | |
| biographique online : le LHC (Life History Calendar). A deux semaines
| |
| | |
| d’intervalles, différentes données ont été récoltés telles que l’âge,
| |
| | |
| le genre, la taille, le poids, le nombre de déménagements…. Ces données
| |
| | |
| permettent soit de comparer les réponses données à la même question lors
| |
| | |
| des deux passations du questionnaire (**données appariées**), soit de
| |
| | |
| comparer lors d’une même passation les réponses fournies par deux
| |
| | |
| groupes distincts de personnes (**données indépendantes**).
| |
| | |
| <nowiki>##</nowiki> Test de Student : données appariées
| |
| | |
| <nowiki>###</nowiki> Test de la moyenne de la différence
| |
| | |
| Lorsque les données sont appariées, il est possible de construire une
| |
| | |
| variable D (quantité à l’instant T1 et T2 et on regarde la différence)
| |
| | |
| représentant leur différence terme à terme. Soit X et Y, deux variables
| |
| | |
| appariées dont les moyennes dans la population sont notées \(\text{μX}\)
| |
| | |
| et \(\text{μY}\). Alors : D = Y – X.
| |
| | |
| Le test de Student se formule alors de la façon suivante :
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Exemple : comparaison de la taille à T1 et T2**
| |
| | |
| Nous voulons déterminer si la taille en centimètres donnée lors des deux
| |
| | |
| passations du questionnaire est la même ou pas. Formellement, D = taille
| |
| | |
| temps 1 – taille temps 2
| |
| | |
| Pour savoir ce sur quoi porte le test, c’est
| |
| | |
| l’hypothèse alternative où la différence réelle est différente de 0.
| |
| | |
| Donc H<nowiki><sub>0</sub></nowiki> = 0 et H<nowiki><sub>1</sub></nowiki> ≠ 0. La valeur 0 est-elle
| |
| | |
| comprise dans l’intervalle de confiance ? Oui c’est le cas donc rien
| |
| | |
| qu’avec ça, on peut dire qu’on ne peut pas rejeter l’hypothèse nulle
| |
| | |
| indiquant que la différence ne moyenne est égale à 0. Cela se confirme
| |
| | |
| avec la p-valeur qui est supérieure au seuil que l’on se fixe pour faire
| |
| | |
| le test donc dans ce cas-là, on ne peut pas rejeter l’hypothèse nulle.
| |
| | |
| Il n’y a pas de différence significative entre la taille donnée au temps
| |
| | |
| 1 et la taille donnée au temps 2. Le degré de liberté est de 57 ; on a
| |
| | |
| une indication sur la taille de l’échantillon et la valeur statistique
| |
| | |
| de test t.
| |
| | |
| - On peut conclure en regardant soit la p-valeur soit l’intervalle de
| |
| | |
| confiance. Les tailles données au temps 1 et au temps 2 par ces
| |
| | |
| mêmes individus, il n’y a pas eu de changement significatif. A-t-on
| |
| | |
| le droit d’effectuer ce test ? Les données proviennent d’une
| |
| | |
| population avec une distribution normale.
| |
| | |
| <nowiki>##</nowiki>
| |
| | |
| <nowiki>##</nowiki> Test de Student : données indépendantes
| |
| | |
| <nowiki>###</nowiki> Test de la différence des moyennes
| |
| | |
| Lorsque les données sont indépendantes, il n’est pas possible de
| |
| | |
| construit une variable D représentant leur différence terme à terme. Les
| |
| | |
| hypothèses du test de Student s’écrivent alors simplement :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Variances égales ou inégales
| |
| | |
| Mathématiquement, la distribution théorique du test de Student n’est pas
| |
| | |
| le même selon que les populations dont sont issues les deux variables X
| |
| | |
| et Y ont la même variance ou non. Il existe donc deux versions du test
| |
| | |
| de Student pour des données indépendantes. Afin d’utiliser la bonne
| |
| | |
| version, on commence par tester l’égalité des variances des deux
| |
| | |
| variables. Ensuite, si les variances sont égales, on utilise le test de
| |
| | |
| Student standard alors que si les variances sont inégales, on utilise le
| |
| | |
| <nowiki>***</nowiki>test de Welch***.
| |
| | |
| <nowiki>###</nowiki> Test de l’égalité des variances
| |
| | |
| Le test le plus courant pour comparer les variances de deux populations
| |
| | |
| est le test F du rapport des variances. Nous voulons tester les
| |
| | |
| hypothèses suivantes :
| |
| | |
| 
| |
| | |
| Mais ces hypothèses sont reformulées de manière équivalente comme suit :
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Exemple : taille des femmes et des hommes**
| |
| | |
| Nous voulons déterminer si la taille en centimètres est égale chez les
| |
| | |
| femmes et les hommes. Nous commençons par comparer les variances des
| |
| | |
| deux populations :
| |
| | |
| On va tester les variances dans ces
| |
| | |
| populations ; est-ce que la variance chez les hommes est le même chez
| |
| | |
| les femmes ? On fait le test F et il nous dit que l’hypothèse
| |
| | |
| alternative est indiquée. On regarde la p-valeur (0.55) et on ne peut
| |
| | |
| pas rejeter l’hypothèse nulle puisqu’on pourrait dire qu’on n’a aucune
| |
| | |
| preuve pour la rejeter. Peut-on supposer que les variances sont égales ?
| |
| | |
| Oui \! Le résultat du test, oui, les variances peuvent être supposées
| |
| | |
| égales.
| |
| | |
| L’hypothèse d’égalité des variances étant acceptées, nous pouvons
| |
| | |
| utiliser la version habituelle du test de Student.
| |
| | |
| On a suffisamment d’évidence pour rejeter H<nowiki><sub>0</sub></nowiki> (p-valeur) et
| |
| | |
| rejeter le fait que la moyenne chez l’homme et chez la femme est égale.
| |
| | |
| Donc la taille moyenne des hommes et des femmes est significativement
| |
| | |
| différente.
| |
| | |
| <nowiki>**</nowiki>Exemple : Age au premier smartphone**
| |
| | |
| Nous voulons déterminer si l’âge en années
| |
| | |
| auquel les femmes et les hommes ont eu le premier smartphone est le même
| |
| | |
| ou pas.
| |
| | |
| On applique le test F qui nous dit qu’avec une p-valeur inférieure à
| |
| | |
| 0.5, on rejette l’égalité des variances.
| |
| | |
| Donc, on va devoir faire le test de Welch du
| |
| | |
| test de Student où on applique le test avec une p-valeur égale à 0.77.
| |
| | |
| On ne peut pas rejeter l’hypothèse nulle donc l’âge peut être considéré
| |
| | |
| comme identique entre les hommes et les femmes. Autre manière de voir,
| |
| | |
| si on regarde l’intervalle de confiance, puisque la différence est
| |
| | |
| comprise entre -1.313 et 0.981, le zéro se situe là-dedans.
| |
| | |
| <nowiki>#</nowiki> Analyse des données et interprétation des résultats : analyses uni-,bi- et tri-variées, leur utilité pour la recherche ?
| |
| | |
| <nowiki>###</nowiki> Objectifs de cette séance
| |
| | |
| L’analyse univariée nous permet de décrire des variables et comment une
| |
| | |
| variable est distribuée. L’analyse univariée est aussi importante quand
| |
| | |
| on fait la plausibilité d’un jeu de données. Par exemple, quand on
| |
| | |
| récolte nos données, on regarde toutes les fréquences de toutes les
| |
| | |
| variables pour voir s’il y a des problèmes. A chaque recodage, il est
| |
| | |
| utile de tirer des fréquences pour voir s’il n’y a pas de missing.
| |
| | |
| Au niveau bi-varié, on peut regarder des corrélations ou associations
| |
| | |
| entre deux variables mais on doit toujours veiller au risque de fausse
| |
| | |
| relation.
| |
| | |
| <nowiki>##</nowiki> Analyse univariée
| |
| | |
| C’est l’analyse la plus basique. Elle sert à décrire une variable d’où
| |
| | |
| le nom univariée tel que combien de femmes on a dans notre échantillon ?
| |
| | |
| Cette analyse permet de regarder la distribution, la fréquence et le
| |
| | |
| pourcentage d’items dans une variable. Elle permet également de regarder
| |
| | |
| la centralité et la dispersion d’une variable à travers la moyenne et la
| |
| | |
| médiane et pour d’autres types de variables, à travers la moyenne et
| |
| | |
| l’écart-type.
| |
| | |
| <nowiki>###</nowiki> Utilité de l’analyse univariée
| |
| | |
| Ce sont des informations clés qu’on veut savoir. Par exemple, si on
| |
| | |
| travaille sur l’action protestataire, je veux savoir si je travaille sur
| |
| | |
| un phénomène marginal ou important de notre société. Elle permet aussi
| |
| | |
| d’expliquer un processus. La description peut se faire dans le temps
| |
| | |
| et l’espace mais dans le cas de l’explication qui est un cas plutôt rare
| |
| | |
| dans la recherche, elle a lieu quand la variable n’est pas mesurée ou
| |
| | |
| qu’on ne peut pas mesure la variable indépendante. Ainsi, l’analyse
| |
| | |
| descriptive est capable de nous faire connaître un objet ou un
| |
| | |
| phénomène. Comme le dit Bunge, pour accroître la connaissance sur un
| |
| | |
| phénomène, il faut pouvoir le décrire et l’expliquer.
| |
| | |
| - Exemple : protestation politique dans les démocraties
| |
| | |
| L’analyse univariée ne permet pas seulement de décrire une variable dans
| |
| | |
| une base de données mais aussi de suivre une variation dans le temps et
| |
| | |
| l’espace. Avec ce type d’analyse, on peut répondre aux questions comme
| |
| | |
| « est-ce que le protestation politique est stable ou fluctuante dans
| |
| | |
| le temps ? », « Est-ce qu’on retrouve plus/moins de protestation en
| |
| | |
| Suisse depuis 1968 ? ». On peut également tenter d’expliquer une
| |
| | |
| variation à travers des moments qui ont eu lieu à un moment donné. On
| |
| | |
| peut également analyser si la protestation politique varie dans
| |
| | |
| l’espace. Cette comparaison peut aider à expliquer la variation à
| |
| | |
| travers les institutions politiques. Par exemple, Kriesi a montré
| |
| | |
| pourquoi il y a beaucoup de grèves en France et comparativement, peu en
| |
| | |
| Suisse ? Leur hypothèse c’est que c’est lié aux institutions politiques
| |
| | |
| des pays respectifs.
| |
| | |
| - Exemple : stabilisation des conflits politiques et démocratie
| |
| | |
| (Bartolini et Mair)
| |
| | |
| L’objectif majeur de leur étude est de tester la thése de Rokkan et
| |
| | |
| Lipset qui dit que les conflits majeurs dans une société sont organisés
| |
| | |
| autour de 4 grands clivages politiques qui sont entre le capital et le
| |
| | |
| travail, entre l’Eglise et l’Etat, entre la ville et la campagne et
| |
| | |
| entre le centre et la périphérie. Ces clivages sont représentés par les
| |
| | |
| partis politiques majeurs dans un pays. Du coup, les partis politiques
| |
| | |
| majeurs reflètent les conflits politiques les plus importants et
| |
| | |
| permettent ainsi de stabiliser et représenter ces conflits au niveau
| |
| | |
| politique. Le clivage de classe est le conflit politique le plus célèbre
| |
| | |
| et il est traditionnellement représenté par un parti précis. Grâce à ce
| |
| | |
| processus d’intégration politique de ces conflits sociaux, on assiste à
| |
| | |
| une organisation t à un déclin de ces conflits et ainsi à une
| |
| | |
| stabilisation de la démocratie puisque l’électorat a pu s’aligner
| |
| | |
| derrière les partis représentatifs traditionnellement pour ce genre
| |
| | |
| d’intérêts.
| |
| | |
| Bartolini et Mair utilisent un dessin de recherche qusi-expérimental de
| |
| | |
| groupes identifiées en amont (pays) Ils font cette comparaison dans le
| |
| | |
| temps et l’espace. Ils utilisent un temps très long (un siècle) et ils
| |
| | |
| comparent 13 pays européens. L’unité d’analyse sont les individus ou
| |
| | |
| plus précisément, le vote des individus agrégés par période de 5 ans et
| |
| | |
| par pays. Ils utilisent des données exhaustives donc pas de sondage et
| |
| | |
| d’échantillon de toutes les élections ayant eu lieu dans chaque pays.
| |
| | |
| Avec ces données, ils ont créé une mesure de « volatilité » qui mesure
| |
| | |
| combien de gens ont changé de camp politique d’une période à une autre.
| |
| | |
| Comme on n’a pas à faire à des mesures de ce que les gens pensent ou
| |
| | |
| disent ce qu’ils ont fait mais à des chiffres officiels, donc ce sont
| |
| | |
| des bonnes mesures en termes de validité. De mesure similaire, pour
| |
| | |
| augmenter la fiabilité, on se retrouve avec deux indicateurs pour la
| |
| | |
| volatilité du clivage de classe :
| |
| | |
| 1. Une moyenne sur 5 an : meilleure lisibilité des courbes
| |
| | |
| 2. Moyenne sur 5 ans et 1 an : pour voir s’il n’y a pas de biais
| |
| | |
| (variations erratiques)
| |
| | |
| Leur hypothèse est affirmée puisqu’une
| |
| | |
| stabilisation politique signifie qu’il y a moins de volatilité. Sauf
| |
| | |
| qu’il y a des controverses liées à la volatilité électorale et
| |
| | |
| clivage. On assiste à une émergence de nouveaux clivages puisque de le
| |
| | |
| clivage de classe n’existe plus et à une hausse de la volatilité
| |
| | |
| électorale à partir des années 1990.
| |
| | |
| - Exemple : citoyenneté contestée (Koopmans, Statham, Giugni, Passy)
| |
| | |
| Question de recherche : Les migrants arrivent-ils à se mobiliser
| |
| | |
| politiquement dans leur pays d’accueil ? Cette étude fait le constat en
| |
| | |
| 2005 que le sujet de la migration est des relations ethniques sont des
| |
| | |
| enjeux vivement débattus dans nos sociétés. Ce débat tourne autour de la
| |
| | |
| question de l’Etat-nation, c’est-à-dire que c’est l’Etat-nation qui
| |
| | |
| définit les paramètres du fait « d’être suisse » donc il joue un rôle
| |
| | |
| important tout comme la migration. Donc les auteurs essaient de lier
| |
| | |
| l’Etat-nation à la migration. Comme la nation et surtout l’accès à la
| |
| | |
| nation est au cœur de ce débat, ce sont des débats qui varient en
| |
| | |
| fonction de l’Etat. Les auteurs appellent cela des débats à géométrie
| |
| | |
| variable qui varient dans leur contenu qui est discuté mais également
| |
| | |
| dans le type d’acteurs et le mode d’action utilisé dans un pays
| |
| | |
| différemment. Dans chaque pays, ce débat a des caractéristiques
| |
| | |
| spécifiques. L’accès à la nation ne signifie rien d’autre que la
| |
| | |
| conception de la citoyenneté qui est au centre de ce débat. A nouveau,
| |
| | |
| cette conception varie d’un pays à l’autre et par conséquent, les enjeux
| |
| | |
| migratoires peuvent être placés de manière variée sur l’agenda
| |
| | |
| politique.
| |
| | |
| L’opérationnalisation des régimes de citoyenneté ou de l’accès à la
| |
| | |
| nation se fait sur 2 dimensions :
| |
| | |
| 1. Accès individuel : entrée dans l’espace national. L’accès civique
| |
| | |
| contre l’aspect ethnique (le droit du sol VS le droit du sang).
| |
| | |
| 2. Accès collectif : mesure le fait de vivre ensemble et plus
| |
| | |
| précisément si dans un pays on accentue plutôt la diversité ou une
| |
| | |
| assimilation culturelle.
| |
| | |
| Conséquences de régimes de citoyenneté sont fortes et multiples. Les
| |
| | |
| auteurs soulignent deux impacts majeurs, à savoir que ces régimes
| |
| | |
| exercent une influence sur l’intégration/exclusion de migrants et
| |
| | |
| d’autres part, ces régimes posent des structures contraignantes pour
| |
| | |
| participer au débat politique et la mobilisation politique.
| |
| | |
| 
| |
| | |
| Pour la Suisse, cela a créé du débat \! A partir de ce cadre théorique,
| |
| | |
| ils choisissent leur cas d’étude : Suisse, France et GB :
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> L’étude et ses analyses
| |
| | |
| On se retrouve dans une comparaison de groupes (pays) qu’ils ont pu
| |
| | |
| identifier en amont. Donc on est dans un dessin de recherche
| |
| | |
| quasi-expérimental. L’unité d’analyse sont les acteurs collectifs et
| |
| | |
| notamment leurs actes de paroles et de mobilisation. Les chercheurs
| |
| | |
| ‘s’intéressent à qui parlent dans un acte de parole ou qui se
| |
| | |
| mobilisent, comment ils se mobilisent (type d’action) et avec quel
| |
| | |
| message. Pour mesurer cela, ils utilisent la presse écrite et ils ont
| |
| | |
| codé une édition sur deux pendant 10 ans. Attention, on pourrait croire
| |
| | |
| que les 10 ans impliquent une comparaison dans le temps mais ce n’est
| |
| | |
| pas le cas \! Ils ne regardent pas une comparaison dans le temps puisque
| |
| | |
| les 10 ans ne doivent pas être pris en compte dans le dessin de
| |
| | |
| recherche. Ils ont choisi de récolter des données pendant 10 ans pour
| |
| | |
| augmenter la validité de leurs mesures et d’éviter des variations
| |
| | |
| conjoncturelles. S’ils avaient pris une année particulière, il y aurait
| |
| | |
| eu un biais sur leurs résultats censés être généralraislb.es Ils
| |
| | |
| présentent surtout des fréquences qui comparent les actions d’acteurs
| |
| | |
| publics dans différents pays. C’est une analyse centrée sur le cas,
| |
| | |
| typiquement pour un dessin quasi-expérimental. Sauf qu’ils ne peuvent
| |
| | |
| pas mesurer directement le régime de citoyenneté.
| |
| | |
| Résultat : les migrants sont-ils porteurs de leur propre revendication ?
| |
| | |
| Si oui, est-ce le cas dans tous les pays ? La Suisse dispose d’un des
| |
| | |
| régimes les plus contraignants avec un accès à la citoyenneté civique
| |
| | |
| et un monisme culturelle. La conséquence serait-elle que les migrants ne
| |
| | |
| se mobilisent pas ou qu’ils sont exclus de l’espace public ?
| |
| | |
| Si on compare ce pourcentage relatif entre les
| |
| | |
| différents pays, on constate qu’il y a une moindre mobilisation en
| |
| | |
| Suisse qu’en GB. Il semble qu’il y a peu de différence entre la France
| |
| | |
| et la Suisse. Donc il se pourrait que ce ne soit que l’accès collectif
| |
| | |
| qui tranche cette différence. Donc le régime de citoyenneté est plus
| |
| | |
| contraignant en Suisse que dans les deux autres pays.
| |
| | |
| Conclusion : concernant le régime en Suisse, il y a double contrainte.
| |
| | |
| En tout cas, pour ce qui concerne la mobilisation des migrants eux-mêmes
| |
| | |
| en suisse pour des revendications destinées à la Suisse. EN même temps,
| |
| | |
| l’enjeu de migration est essentiellement porté par des acteurs
| |
| | |
| collectifs de solidarité et d’autres acteurs qui s’engagent sur
| |
| | |
| plusieurs enjeux (UNIA). Ces acteurs « suisses » semblent fonctionner
| |
| | |
| comme des relais politique pour les revendications des migrants.
| |
| | |
| Migrants en Suisse : que conclure ?
| |
| | |
| AU niveau thématique, les résultats semblent indiquer que les
| |
| | |
| institutions de citoyenneté excluent fortement la mobilisation de
| |
| | |
| certains acteurs et notamment des migrants eux-mêmes mais également le
| |
| | |
| relais politique privilégié. Ceci fait la lutte pour la voix des
| |
| | |
| migrants et contre le racisme, une des luttes les plus compliquées de
| |
| | |
| nos jours.
| |
| | |
| Au niveau méthodologique, les analyses descriptives ne servent pas
| |
| | |
| seulement à décrire mais également à comprendre et expliquer des
| |
| | |
| processus sociaux.
| |
| | |
| <nowiki>##</nowiki> Analyse bi-variée
| |
| | |
| Elle constitue un premier pas dans l’analyse causale et met en relation
| |
| | |
| deux variables. Les outils statistiques qu’on utilise sont les tableaux
| |
| | |
| croisés, la comparaison des moyennes et les corrélations.
| |
| | |
| <nowiki>###</nowiki> Utilité de l’analyse bi-variée
| |
| | |
| Dans ce cours, on nous apprend l’analyse statistique par étape et on
| |
| | |
| passe du simple au complexe. Cela est nécessaire pour déjouer les
| |
| | |
| problèmes si on passe directement à l’analyse multivariée. L’analyse
| |
| | |
| bi-variée nous montre s’il y a une association entre deux variables
| |
| | |
| aussi elle permet de visualiser la nature de la relation : est-elle
| |
| | |
| linéaire ou plurilinéaire ou une autre forme de relation entre deux
| |
| | |
| variables. Ceci est crucial puisque dans une analyse univariée, on ne
| |
| | |
| peut pas le voir et du coup, ça peut donner des relations
| |
| | |
| non-significatives et donc inexistantes mais c’est juste parce que la
| |
| | |
| relation est inexistante. Par exemple, l’âge est plurilinéaire. L’étape
| |
| | |
| bivariée est une étape incontournable de l’analyse statistique mais
| |
| | |
| rarement suffisante parce qu’on ne peut pas contrôler les causes
| |
| | |
| concurrentes et donc éviter les relations fallacieuses. On ne peut
| |
| | |
| s’arrêter au niveau bivariée.
| |
| | |
| <nowiki>##</nowiki> Analyse tri-variée
| |
| | |
| C’est le premier pas vers le contrôle et on met en relation deux
| |
| | |
| variables sous le contrôle d’une 3<nowiki><sup>ème</sup></nowiki> variable. Les outils
| |
| | |
| statistiques utilisés sont les mêmes que pour l’analyse bivarée. On
| |
| | |
| utilise également des tableaux croisés, des moyennes comparées, des
| |
| | |
| corrélations partielles et des régressions multiples (linéaires,
| |
| | |
| logistiques). L’analyse tri-variée n’a pas de propre outil statistique.
| |
| | |
| <nowiki>###</nowiki> Utilité de l’analyse tri-variée
| |
| | |
| Elle joue un rôle clé vers une approximation de la causalité parce
| |
| | |
| qu’elle permet de contrôler si une relation au niveau bivariée
| |
| | |
| subsiste au contrôle d’une troisième variable. Dans l’analyse
| |
| | |
| tri-variée, on peut détecter ce qui se cache derrière. Cependant, pour
| |
| | |
| avoir un petit retour de l’analyse causale, ce n’est pas seulement par
| |
| | |
| l’analyse multivariée qu’on peut contrôler pour la causalité.
| |
| | |
| <nowiki>***</nowiki>L’enjeu pour ce niveau d’analyse est le contrôle de la causalité et
| |
| | |
| donc de déceler les fausses relations et d’identifier les causes
| |
| | |
| concurrentes***. C’est pourquoi la théorie joue un rôle essentiel,
| |
| | |
| permettant de déjouer en amont les causes concurrentes ou les fausses
| |
| | |
| relations. Ainsi, le contrôle peut s’effectuer à divers moments de la
| |
| | |
| recherche en fonction du dessin de recherche plébiscité par le chercheur
| |
| | |
| (expérimentaux = contrôle ex-ante, corrélationnels = contrôle ex-post).
| |
| | |
| <nowiki>###</nowiki> Logique et analyse du contrôle
| |
| | |
| - ***Si X a véritablement un effet sur Y, cet effet devra perdurer
| |
| | |
| malgré l’introduction de causes concurrentes*** |R***.***
| |
| | |
| - ***Si X*** à ***Y n’est pas une relation fallacieuse, alors l’effet
| |
| | |
| de X devra perdurer après l’introduction d’une cause concurrente***
| |
| | |
| |R.
| |
| | |
| <nowiki>###</nowiki> Logique du contrôle ex-post
| |
| | |
| Ainsi, le contrôle ex-post tente de déterminer si l’introduction d’une
| |
| | |
| nouvelle variable influence la relation postulée entre X et Y. Si la
| |
| | |
| relation ne se maintient pas, quatre explications sont possibles :
| |
| | |
| Nous nous trouvons dans une ***relation
| |
| | |
| fallacieuse*** : C’est à dire que la relation supposée est une fausse
| |
| | |
| relation car un autre effet se cacher derrière elle. La relation X1 à Y
| |
| | |
| ne se maintient pas lorsque X5 est introduit. Ainsi, c’est X5 qui se
| |
| | |
| trouve être la véritable cause de la relation entre X1 et Y. C’est par
| |
| | |
| exemple le cas lorsque l’on observe pour ce qui est de l’acceptation de
| |
| | |
| la légalisation de l’avortement. Les jeunes acceptent plus grandement
| |
| | |
| cela par rapport aux vieux si bien que l’on pourrait conclure à une
| |
| | |
| relation entre âge et acceptation de l’avortement. En réalité, c’est
| |
| | |
| l’éducation qui se trouve être la cause de cela.
| |
| | |
| 
| |
| | |
| On peut se trouver dans un ***cas de multicolinéarité***. C’est à dire
| |
| | |
| que les deux causes appliquées à la variable dépendante ne sont pas
| |
| | |
| indépendantes l’une de l’autre \! L’effet de X1 est restreint pas X5 ,
| |
| | |
| qui est corrélé à X1 et diminue son pouvoir explicatif. Ainsi, X1
| |
| | |
| n’explique pas un élément et X5 un autre mais bien le même de manière
| |
| | |
| associée. Sur le schéma, on voit que les deux causes associées diminuent
| |
| | |
| par la même
leur pouvoir explicatif contrairement au cas où ces
| |
| | |
| deux
causes auraient été indépendantes.
Voici un exemple. X1 et X2
| |
| | |
| explique
Y, les deux ont un effet mais le poids explicatif des deux est
| |
| | |
| diminué de par cette association.
| |
| | |
| 
| |
| | |
| On peut également assister à ***un effet médiatisé***, c’est à dire que
| |
| | |
| l’effet de X1 sur Y est médié par une seconde variable. Ainsi, l’effet
| |
| | |
| de X1 est réduit par le présence de X5 , c’est pourquoi on peut parler
| |
| | |
| d’effet indirect. Sur l’exemple, on voit comment un effet médiatisé
| |
| | |
| peut exister entre la confiance gouvernementale, la participation
| |
| | |
| électorale et l’efficacité politique.
| |
| | |
| Enfin, on peut être en présence d’un ***effet
| |
| | |
| d’interaction***. Il en existe deux types. Il peut être
| |
| | |
| <nowiki>***</nowiki>conditionnel***, c’est à dire que l’effet X1 ne s’exerce sur Y que si
| |
| | |
| la variable X5 est présente, ou ***variable***, c’est à dire que l’effet
| |
| | |
| de X5 sur X1 varie selon les catégories considérées. Par exemple, on
| |
| | |
| sait que l’impact d’une manifestation dépend de l’opinion publique sur
| |
| | |
| elle. Un autre exemple peut être l’impact du genre sur la participation
| |
| | |
| électorale. Bien que l’on voit que les femmes participent moins que les
| |
| | |
| hommes, le genre n’est pas la variable explicative première puisque
| |
| | |
| c’est avant tout le niveau d’éducation qui influence la participation
| |
| | |
| électorale. Ainsi, on voit que cette variable influence différemment
| |
| | |
| selon le groupe socioculturel d’appartenance comme le montre ce
| |
| | |
| graphique.
| |
| | |
| <nowiki>###</nowiki> Une analyse importante
| |
| | |
| Ainsi, ***l’analyse tri-variée*** est très importante puisqu’elle permet
| |
| | |
| de ***rendre compte des relations sous-jacentes et constitue le premier
| |
| | |
| pas du contrôle (exclure des relations fallacieuses, examiner
| |
| | |
| l’interdépendance des VI (multicolinéarité), réfléchir aux éventuels
| |
| | |
| effets médiatisés, détecter les effets d’interactions***. Toutefois, ce
| |
| | |
| niveau n’est toujours ***pas suffisant*** pour ce qui est de l’analyse
| |
| | |
| statistique. En effet, le niveau multivarié est très fréquemment utilisé
| |
| | |
| pour contrôler l’effet de plusieurs causes concurrentes sur une variable
| |
| | |
| dépendante. C’est ce que l’on appelle les ***analyses de régression
| |
| | |
| multiple***. De plus, cette analyse constitue le premier pas du contrôle
| |
| | |
| où on peut contrôler les effets des causes concurrentes tel que l’effet
| |
| | |
| de l’âge sur la législation de l’avortement ; relation fallacieuse ?
| |
| | |
| (contrôlé par l’éducation), multicolinéarité (entre intérêt politique et
| |
| | |
| éducation) et relation additive ?
| |
| | |
| <nowiki>##</nowiki> Conclusion
| |
| | |
| L’analyse uni-variée est très importante puisqu’elle permet de décrire
| |
| | |
| les variables et de commencer à les expliquer. L’analyse bivariée est
| |
| | |
| tout aussi cruciale bien que problématique, ne permettant d’avoir aucun
| |
| | |
| contrôle sur nos variables. C’est pourquoi on passe à un niveau
| |
| | |
| d’analyse plus complexe que représente l’analyse tri-variée. Elle
| |
| | |
| consiste en le premier pas du contrôle et permet de vérifier si
| |
| | |
| l’intervention d’une cause concurrente impacte ou non la relation
| |
| | |
| premièrement observée. Toutefois, elle n’est également pas suffisante,
| |
| | |
| c’est pourquoi on passe alors au niveau mutli-varié. On a besoin de
| |
| | |
| méthodes d’analyse plus puissantes telle que l’analyse de la régression
| |
| | |
| multiple. Ainsi, ***on va toujours du niveau le plus simple au niveau le
| |
| | |
| plus complexe lorsque l’on effectue des analyses statistiques.***
| |
| | |
| <nowiki>#</nowiki> Analyse multivariée : régression linéaire. Analyse des données et interprétation
| |
| | |
| <nowiki>##</nowiki> Introduction
| |
| | |
| <nowiki>###</nowiki> Modèles statistiques
| |
| | |
| La régression est un terme exprimant une fonction. De plus, on s’attache
| |
| | |
| aux régressions linéaires dites des fonctions linéaires. Un modèle
| |
| | |
| statistique est un outil permettant d’analyser une situation et d’en
| |
| | |
| tirer des conséquences. Un modèle combine généralement différents
| |
| | |
| concepts statistiques « simples » tels que la tendance centrale, la
| |
| | |
| dispersion, la corrélation… au sein d’une ou plusieurs équations
| |
| | |
| mathématiques. Un modèle permet de tenir compte simultanément de
| |
| | |
| différents facteurs influençant la situation considérée. Dans la mesure
| |
| | |
| du possible, un modèle doit tenir compte du plan d’échantillonnage et
| |
| | |
| des spécificités des données.
| |
| | |
| <nowiki>###</nowiki> Quelques modèles
| |
| | |
| - Prédire la valeur prise par une variable numérique =\> **régression
| |
| | |
| linéaire**.
| |
| | |
| - Prédire la modalité prise par une variable dichotomique / mooléenne
| |
| | |
| =\> **régression logistique**
| |
| | |
| - Comparer plusieurs populations =\> **analyse de la variance
| |
| | |
| (ANOVA).**
| |
| | |
| - Réduire le nombre de variables ou d’observations à traiter =\>
| |
| | |
| **classification automatique / méthodes** **factorielles** (ACP,
| |
| | |
| AFC,…). Techniques avancées de réduction du nombre de variable.
| |
| | |
| - Expliquer l’évolution d’une variable au fil du temps =\> **chaîne de
| |
| | |
| Markov, analyse de survie, analyse des séquences**
| |
| | |
| <nowiki>###</nowiki> Modèles de régression
| |
| | |
| Dans un modèle de régression, un ensemble de **variables**
| |
| | |
| <nowiki>**</nowiki>explicatives** ou **indépendantes** X<nowiki><sub>1</sub></nowiki>, X<nowiki><sub>2</sub></nowiki>,
| |
| | |
| X<nowiki><sub>3</sub></nowiki>… est utilisé pour expliquer une variable expliquée ou
| |
| | |
| indépendante Y : *Y* = *f*(X<nowiki><sub>1</sub></nowiki>,X<nowiki><sub>2</sub></nowiki>,X<nowiki><sub>3</sub></nowiki>…)
| |
| | |
| Le type de régression dépend du type de la variable expliquée *Y* :
| |
| | |
| - Numérique -\> régression linéaire
| |
| | |
| - Dichotomique -\> régression logistique
| |
| | |
| - Nominale -\> régression multinomiale
| |
| | |
| - Ordinale -\> régression ordinale
| |
| | |
| Exemple : Données GSOEP
| |
| | |
| <nowiki>**</nowiki>Exemples de régressions**
| |
| | |
| - Prédire le REVENU d’un ménage -\> régression *linéaire*
| |
| | |
| - Prédire le fait d’avoir un TRAVAIL -\> régression *logistique*
| |
| | |
| - Prédire le nombre de visites chez un docteur durant les 3 derniers
| |
| | |
| mois en 4 catégories (DOC\_4c) -\> régression *multinomiale* ou
| |
| | |
| *ordinale*
| |
| | |
| <nowiki>##</nowiki> Régression Linéaire
| |
| | |
| <nowiki>###</nowiki> Régression linéaire simple
| |
| | |
| <nowiki>####</nowiki> Le modèle
| |
| | |
| En régression linéaire simple, une seule variable indépendante X
| |
| | |
| (explicative) explique la variable dépendante Y (expliquée). Le modèle
| |
| | |
| est linéaire, ce qui signifie que la relation théorique entre les
| |
| | |
| variables X et Y est une droite. Sauf cas particulier, la relation
| |
| | |
| linéaire liant X et Y n’est pas parfaite. Le modèle s’écrit alors (ce
| |
| | |
| qu’on aurait dans la population) :
| |
| | |
| 
| |
| | |
| où *e* est un **terme d’erreur** représentant la part de Y qui n’est pas
| |
| | |
| expliqué par le modèle linéaire. Après estimations des coefficients
| |
| | |
| \(\beta\)<nowiki><sub>0</sub></nowiki> et \(\beta\)<nowiki><sub>1</sub></nowiki>, le modèle fournit une
| |
| | |
| estimation de  pour chaque observation
| |
| | |
| Y<nowiki><sub>1</sub></nowiki> (dans un échantillon, on a des valeurs estimées et on
| |
| | |
| essaie d’estimer la pente par bêta. On n’obtient pas directement les
| |
| | |
| vraies valeurs parce que si on a deux échantillons, on va obtenir deux
| |
| | |
| échantillons distincts) :
| |
| | |
| 
| |
| | |
| Le modèle comporte deux coefficients à estimer :
| |
| | |
| - \(\mathbf{\beta}\)**<nowiki><sub>0</sub></nowiki> est la constante (ordonnée à
| |
| | |
| l’origine)** du modèle. C’est la valeur de Y lorsque la variable
| |
| | |
| explicative Y vaut 0.
| |
| | |
| - \(\mathbf{\beta}\)**<nowiki><sub>1</sub></nowiki> est la pente** du modèle. Elle
| |
| | |
| s’interprète comme l’effet sur Y d’une variation d’une unité de la
| |
| | |
| variable X.
| |
| | |
| 
| |
| | |
| 
| |
| | |
| Le point commun de toutes les régressions linéaires, c’est le point de
| |
| | |
| moyenne entre X et Y (\(\overline{x}\),\(\ \overline{y}\)).
| |
| | |
| <nowiki>###</nowiki> Estimation des coefficients
| |
| | |
| L’estimation des coefficients
| |
| | |
| \(\beta\)<nowiki><sub>0</sub></nowiki> et \(\beta\)<nowiki><sub>1</sub></nowiki> s’effectue selon la
| |
| | |
| méthode des **moindres carrées**. L’objectif est de trouver la droite
| |
| | |
| de régression qui minimise globalement les termes d’erreur
| |
| | |
| e<nowiki><sub>i</sub></nowiki>. La droite optimale passe par le point moyen
| |
| | |
| (\(\overline{x}\),\(\ \overline{y}\)).
| |
| | |
| - Bêta 1 (pente) : Estimateur des moindres carrées : la covariance de
| |
| | |
| X et Y / variance de X
| |
| | |
| - Bêta 0 (constante) = moyenne Y (variable dépendante) – pente x la
| |
| | |
| moyenne de X
| |
| | |
| <!-- end list -->
| |
| | |
| - Pour trouver les coefficients à estimer, il faut faire l’estimateur
| |
| | |
| des moindres carrées. Pour trouver l’estimation de la constante, il
| |
| | |
| faut calculer les moyennes et prendre la pente.
| |
| | |
| **Exemple : REVENU et EDUCATION : Le revenu
| |
| | |
| dépend-t-il du niveau d’éducation ?**
| |
| | |
| On voit que dans le tableau des résultats, nous avons trois parties dans
| |
| | |
| le listing. La partie centrale correspond au modèle lui-même. La
| |
| | |
| catégorie « intercept » correspond à l’ordonnée à l’origine – bêta 0
| |
| | |
| (ici = à 0.1669) et la catégorie D$EDUCATION correspond à la pente ou
| |
| | |
| bêta 1 (ici = à 0.0242). Ainsi, on peut dire que par années d’éducation
| |
| | |
| supplémentaire, le revenu augmente théoriquement de 0.0242%. Ainsi, il
| |
| | |
| semble que l’éducation influence positivement le revenu puisqu’il est
| |
| | |
| possible de trouver une relation entre ces deux variables.
| |
| | |
| On obtient ça comme modèle. A partir de ce
| |
| | |
| modèle, on peut prédire quel salaire une personne devrait théoriquement
| |
| | |
| toucher en fonction du nombre d’année d’éducation à son actif. Par
| |
| | |
| exemple, quel devrait être le salaire d’une personne ayant été 17 années
| |
| | |
| à l’école ?
| |
| | |
| Exemple : REVENU et EDUCATION
| |
| | |
| Une fois estimé, le modèle peut être utilisé pour faire des prédictions
| |
| | |
| en l’appliquant sur des valeurs choisies des variables explicatives.
| |
| | |
| Pour x=17 années d’éducation, le modèle prédit :
| |
| | |
| 
| |
| | |
| soit en moyenne un revenu de 0.5738.
| |
| | |
| <nowiki>**</nowiki>Attention **:
| |
| | |
| - Pour faire des prédictions valables, il faut que le modèle soit de
| |
| | |
| bonne qualité, ce qui n’est pas le cas ici.
| |
| | |
| - Un modèle ne peut être utilisé que pour des données du même ordre de
| |
| | |
| grandeur que celles ayant servi à estimer le modèle.
| |
| | |
| <!-- end list -->
| |
| | |
| - Ce que le graphique permet de voir, c’est que ***les points ne sont
| |
| | |
| pas bien alignés sur la droite, ce qui permet de dire que ce modèle
| |
| | |
| est insuffisant pour expliquer à lui seul le revenu***. Pour obtenir
| |
| | |
| un meilleur modèle avec un pouvoir explicatif plus fort, il faut
| |
| | |
| intégrer d’autres variables dans l’analyse. De plus, il faut
| |
| | |
| ***exclure les données aberrantes pour que ces dernières ne puissent
| |
| | |
| pas influencer et biaiser le modèle*** construit par le chercheur.
| |
| | |
| En effet, il est bien intéressant de les étudier séparément.
| |
| | |
| 
| |
| | |
| On a remplacé notre variable X et on obtient d’autres valeurs.
| |
| | |
| On a un intercept plus une pente négative fois
| |
| | |
| la valeur col bleu oui/non. Cela signifie que si j’augmente col bleu,
| |
| | |
| l’effet sur le revenu sera augmenté (on regarde le coefficient qui est
| |
| | |
| négatif et donc on descend dans les valeurs). Si je passe à col bleu,
| |
| | |
| cela a pour effet un revenu qui décroît par rapport à un col blanc.
| |
| | |
| <nowiki>###</nowiki> Le modèle
| |
| | |
| La variable dépendante Y est souvent influencée simultanément par
| |
| | |
| plusieurs variables explicatives. Soit X<nowiki><sub>1</sub></nowiki>,
| |
| | |
| X<nowiki><sub>2</sub></nowiki>,…X<nowiki><sub>k</sub></nowiki>, k variables indépendantes qui peuvent
| |
| | |
| toutes expliquer en partie la variable dépendante Y. Le modèle s’écrit
| |
| | |
| alors :
| |
| | |
| 
| |
| | |
| Même s’il n’est pas possible de représenter graphiquement le modèle, la
| |
| | |
| relation entre chaque variable explicative et la variable dépendante
| |
| | |
| reste <nowiki><span class="underline">linéaire</span></nowiki>.
| |
| | |
| <nowiki>###</nowiki> Indépendance des variables explicatives
| |
| | |
| Les variables explicatives du modèle doivent être linéairement
| |
| | |
| indépendantes les unes des autres : il ne doit pas être possible
| |
| | |
| d’écrire l’une d’entre-elles comme une combinaison linéaire des
| |
| | |
| autres. Cela revient à dire que chaque variable explicative doit
| |
| | |
| apporter une information qui lui est propre pour l’explication de la
| |
| | |
| variable dépendante. Si les variables explicatives ne sont pas
| |
| | |
| linéairement indépendantes, le modèle ne peut plus estimer et on parle
| |
| | |
| alors de **multicolinéarité**. Par ailleurs, les variables explicatives
| |
| | |
| doivent aussi être indépendantes des termes d’erreur du modèle.
| |
| | |
| Je tente d’expliquer le revenu par l’âge,
| |
| | |
| l’éducation et le col bleu. Dans notre output, on a à nouveau un bêta
| |
| | |
| 0 estimé, un bêta 1 pour l’éducation, un bêta 2 pour l’âge et un bêta 3
| |
| | |
| pour col bleu. Si on veut établir l’équation expliquant le revenu, il
| |
| | |
| serait égal à XXXX. Si je connais cette équation, je suis capable de
| |
| | |
| donner une estimation du revenu où je remplacerais l’éducation par le
| |
| | |
| nombre d’années d’éducation. On voit sur l’exemple que le R<nowiki><sup>2</sup></nowiki>
| |
| | |
| est égal à 0.0759, on peut donc conclure que ce modèle permet
| |
| | |
| d’expliquer à 7,59% le niveau de revenu des individus. Ainsi, c’est un
| |
| | |
| modèle très insuffisant pour expliquer le salaire, sans pour autant être
| |
| | |
| inutile puisqu’il permet malgré tout de comprendre une partie de la
| |
| | |
| variable dépendante Y. La variable col bleu n’est pas significative.
| |
| | |
| L’interprétation des coefficients, pour une année supplémentaire
| |
| | |
| d’éducation, j’augmente mon augmentation de 0.024791 en éducation.
| |
| | |
| <nowiki>###</nowiki> Variables explicatives qualitatives
| |
| | |
| L’utilisation de variables explicatives qualitatives (nominales ou
| |
| | |
| ordinales) est problématique car les codes numériques attribués à leurs
| |
| | |
| modalités sont arbitraires. Si le code change, l’estimation du modèle
| |
| | |
| change aussi, ce qui n’est pas réaliste. La solution consiste à associer
| |
| | |
| à chacune des modalités une **variable indicatrice** binaire (0-1). On
| |
| | |
| parle aussi de **variables muettes** (dummy variables). Une variable
| |
| | |
| catégorielle à *c* modalités est remplacée par c-1 variables muettes,
| |
| | |
| la i-ème variable prenant la valeur 1 si la variable originale prend la
| |
| | |
| valeur i et zéro sinon. Une des modalités sert de référence et on ne lui
| |
| | |
| associe par de variable indicatrice.
| |
| | |
| Exemple : REVENU et DOC\_4
| |
| | |
| Vu qu’on a 4 modalités, il faut trois variables indicatrices valant 0 ou
| |
| | |
| 1.
| |
| | |
| <nowiki>###</nowiki> Niveau d’analyse
| |
| | |
| Sauf car particulier, il est toujours possible d’estimer la valeur des
| |
| | |
| coefficients d’un modèle de régression. Cependant, l’existence du modèle
| |
| | |
| n’implique pas automatiquement qu’il soit de bonne qualité. Plusieurs
| |
| | |
| niveaux d’analyse peuvent être utilisés afin de juger de la pertinence
| |
| | |
| du modèle de régression linéaire :
| |
| | |
| - Qualité globale de l’ajustement
| |
| | |
| - Test individuel de chaque coefficient
| |
| | |
| - Analyse des termes d’erreur
| |
| | |
| Cette problématique n’est pas spécifique à la régression linéaire. Elle
| |
| | |
| est présente dans tous les modèles statistiques.
| |
| | |
| <nowiki>###</nowiki> Qualité globale de l’ajustement
| |
| | |
| Le premier point à vérifier après avoir calculé un modèle est de savoir
| |
| | |
| si ce modèle permet d’expliquer réellement, en partie du moins, la
| |
| | |
| variable dépendante. Si c’est le cas, il sera ensuite utile d’étudier un
| |
| | |
| à un ses coefficients. Si ce n’est pas le cas, le modèle doit être
| |
| | |
| purement et simplement rejeté et un autre modèle doit être défini.
| |
| | |
| <nowiki>###</nowiki> Coefficient de détermination de R<nowiki><sup>2</sup></nowiki>
| |
| | |
| Le coefficient de détermination (ou de corrélations multiple)
| |
| | |
| R<nowiki><sup>2</sup></nowiki> est une mesure variant entre 0 et 1 et représentant la
| |
| | |
| part de la variable dépendante qui est expliquée par le modèle de
| |
| | |
| régression. Plus R<nowiki><sup>2</sup></nowiki> est proche de 1, plus le modèle s’ajuste
| |
| | |
| bien aux données. Le coefficient de détermination est défini comme la
| |
| | |
| proportion de la variance totale expliquée par le modèle :
| |
| | |
| 
| |
| | |
| Dans le cas particulier de la régression linéaire simple,
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Coefficient de détermination R<nowiki><sup>2</sup></nowiki> ajusté
| |
| | |
| Le coefficient de détermination R<nowiki><sup>2</sup></nowiki> présente l’inconvénient
| |
| | |
| d’augmenter en fonction du nombre de variables explicatives. Le
| |
| | |
| coefficient de détermination R<nowiki><sup>2</sup></nowiki> ajusté corrige ce défaut :
| |
| | |
| 
| |
| | |
| où *n* est le nombre d’observations et *p* le nombre de coefficients
| |
| | |
| estimés du modèle. C’est ce coefficient ajusté qui devrait toujours être
| |
| | |
| utilisé.
| |
| | |
| Exemple :
| |
| | |
| Le col bleu n’est pas significatif. Donc on
| |
| | |
| teste chacun des coefficients Bêta 1, 2, 3 pour savoir s’ils sont
| |
| | |
| différents de 0.
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> Test de la significativité globale
| |
| | |
| Nous aimerons savoir si le modèle contient des éléments utiles pour
| |
| | |
| expliquer la variable dépendante. Pour ce faire, nous formulons le test
| |
| | |
| suivant :
| |
| | |
| 
| |
| | |
| Si l’on accepte H<nowiki><sub>0</sub></nowiki>, aucune des variables explicatives n’a
| |
| | |
| d’influence sur la variable dépendante et le modèle doit être
| |
| | |
| entièrement rejeté.
| |
| | |
| La statistique de test **F-statistic** se calcule comme :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Test individuel de chaque coefficient
| |
| | |
| Même si un modèle apporte globalement de l’information pour comprendre
| |
| | |
| le comportement de la variable dépendante, cela ne signifie pas que
| |
| | |
| toutes les variables explicatives sont utiles. Ceci est particulièrement
| |
| | |
| vrai dans le cas de modèles comportant un grand nombre de variables
| |
| | |
| explicatives. Seules les variables apportant réellement quelque chose de
| |
| | |
| significatif doivent être interprétées.
| |
| | |
| <nowiki>###</nowiki> Test de significativité de chaque coefficient
| |
| | |
| Nous voulons vérifier si chacun des coefficients du modèle est
| |
| | |
| réellement différent de zéro et donc utile au niveau de la population.
| |
| | |
| Nous effectuons pour chaque coefficient le test suivant :
| |
| | |
| 
| |
| | |
| Ces tests sont appelés les **tests de significativité** et le
| |
| | |
| coefficient est dit significatif si l’hypothèse nulle est rejetée.
| |
| | |
| Accepter l’hypothèse nulle revient à dire que la variable explicative
| |
| | |
| correspondant au coefficient testé n’a pas de relation avec la variable
| |
| | |
| dépendante.
| |
| | |
| <nowiki>###</nowiki> Coefficients standardisés de la régression
| |
| | |
| Quelle est l’importance d’un coefficient ? Si on veut comparer les
| |
| | |
| coefficients entre eux, on ne peut pas le faire parce qu’ils n’ont pas
| |
| | |
| la même unité. Pour ce faire, il faut essayer de standardiser.
| |
| | |
| La valeur des coefficients de la régression dépend de l’unité de mesure
| |
| | |
| des variables explicatives correspondantes. Ce n’est donc pas parce
| |
| | |
| qu’un coefficient est très différent de zéro qu’il est significatif.
| |
| | |
| Une solution consiste à standardiser les coefficients de manière à les
| |
| | |
| rendre comparables les uns avec les autres :
| |
| | |
| 
| |
| | |
| où S<nowiki><sub>y</sub></nowiki> est l’écart-type de la variable dépendante et
| |
| | |
| Sx<nowiki><sub>j</sub></nowiki> est l’écart-type de la j-ième variable explicative.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Analyse des termes d’erreur
| |
| | |
| Le modèle de régression linéaire repose sur un ensemble d’hypothèses
| |
| | |
| ayant trait aux termes d’erreur du modèle. Si ces hypothèses ne sont pas
| |
| | |
| vérifiées, alors le modèle perd en fiabilité et il devrait être modifié.
| |
| | |
| Selon les cas, ces hypothèses peuvent être vérifiées graphiquement ou
| |
| | |
| par calcul. Pour une observation i, le terme d’erreur se calcule
| |
| | |
| comme (valeur réelle (<nowiki><sub>Yi</sub></nowiki>) – valeur estimée Y<nowiki><sub>i</sub></nowiki>
| |
| | |
| chapeau estimée par la régression) :
| |
| | |
| 
| |
| | |
| Un terme d’erreur positif correspond donc à une sous-estimation de la
| |
| | |
| réalité par le modèle et un terme négatif correspond à une
| |
| | |
| surestimation.
| |
| | |
| <nowiki>###</nowiki> Erreur standard de la régression
| |
| | |
| L’erreur standard du modèle de régression est
| |
| | |
| l’écart-type non-biaisé des termes d’erreur :
| |
| | |
| La somme carrée des erreurs/ nombre d’observations – nombre de
| |
| | |
| paramètres estimés (variables) au raciné carré.
| |
| | |
| L’erreur standard intervient notamment dans le calcul des tests de
| |
| | |
| significativité et lors de la détection de donnés atypiques de
| |
| | |
| l’échantillon.
| |
| | |
| <nowiki>###</nowiki> Données atypiques
| |
| | |
| Les modèles de régression sont fortement influencés par des données
| |
| | |
| atypiques ou aberrantes au sein de l’échantillon. Le mieux est de
| |
| | |
| supprimer ces données avant l’estimation mais il est aussi possible de
| |
| | |
| détecter leur présence a posteriori. Un critère habituel consiste à
| |
| | |
| supprimer les données dont le terme d’erreur pris en valeur absolue
| |
| | |
| dépasse 2.5 fois l’erreur standard du modèle. En supposant normale la
| |
| | |
| distribution des observations, ces données font partie du 1% des données
| |
| | |
| les plus extrêmes (grandes ou petites).
| |
| | |
| Exemple :
| |
| | |
| La limite pour des données atypiques est 2.5 x
| |
| | |
| 0.208 = 0.52. Les termes d’erreur acceptable sont compris entre
| |
| | |
| \[-0.52 ; 0.52\]. La valeur maximale est de 2.57 sauf qu’il y a un
| |
| | |
| souci parce qu’il y a au moins une valeur atypique supérieure à 0.52.
| |
| | |
| 
| |
| | |
| Si on regarde le graphique, on remarque que tout ce qui est au-dessus,
| |
| | |
| ce sont de trop grandes erreurs donc il y a un souci.
| |
| | |
| <nowiki>###</nowiki> Hypothèses sur les termes d’erreur
| |
| | |
| 
| |
| | |
| <nowiki>##</nowiki> Construction de modèles
| |
| | |
| <nowiki>###</nowiki> Deux approches
| |
| | |
| - **Approche théorique **: on part d’une théorie existante et on
| |
| | |
| construit le modèle explicatif qui lui correspond. Les variables
| |
| | |
| explicatives utilisées dépendant de la théorie.
| |
| | |
| - **Approche empirique **: on recherche le modèle permettant
| |
| | |
| d’expliquer au mieux la variable dépendante. Le choix des
| |
| | |
| variables explicatives utilisées dépend uniquement de leurs qualités
| |
| | |
| statistiques.
| |
| | |
| <!-- end list -->
| |
| | |
| - L’approche théorique est généralement préférable à l’approche
| |
| | |
| empirique.
| |
| | |
| <nowiki>###</nowiki> Ajustement VS simplicité
| |
| | |
| Il n’est pas forcément souhaitable que le modèle estimé à partir d’un
| |
| | |
| échantillon soit trop parfait \! L’échantillon est une image imparfaite
| |
| | |
| de la population. Un modèle parfait pour l’échantillon ne le sera pas
| |
| | |
| forcément pour la population. Une telle situation est une situation dite
| |
| | |
| de surapprentissage. Un bon modèle doit être le résultat d’un arbitrage
| |
| | |
| entre l’ajustement aux données et la simplicité.
| |
| | |
| <nowiki>###</nowiki> Approche théorique
| |
| | |
| Dans le cas d’une approche théorique, le modèle est défini par la
| |
| | |
| théorie et il n’y a normalement pas de doutes quant aux variables
| |
| | |
| explicatives à utiliser. La limitation provient naturellement des
| |
| | |
| données à disposition : si les concepts théoriques n’ont pas pu être
| |
| | |
| correctement mesurée, alors le modèle ne reflètera pas exactement la
| |
| | |
| théorie \! Cela rappelle une fois encore l’importance de penser à une
| |
| | |
| recherche quantitative comme un tout et de prévoir bien avant la récolte
| |
| | |
| des données ce qui sera fait avec ces dernières du point du vue
| |
| | |
| statistique.
| |
| | |
| <nowiki>###</nowiki> Tester la théorie
| |
| | |
| Partir d’un modèle théorique ne veut pas dire que l’on ne peut pas le
| |
| | |
| remettre en question. Le test de significativité de chaque coefficient
| |
| | |
| permet de déterminer quelles variables soutiennent la théorie et quelles
| |
| | |
| variables la remettent en cause. De même, il est possible d’ajouter des
| |
| | |
| variables ne faisant pas partie de la théorie, de manière à remettre en
| |
| | |
| question la théorie et à en proposer une nouvelle.
| |
| | |
| <nowiki>###</nowiki> Comparer des théories
| |
| | |
| Dans certains cas, plusieurs théories différentes ont été bâties afin
| |
| | |
| d’expliquer un même phénomène. Sous réserve de disposer des variables
| |
| | |
| nécessaires pour chaque théorie, il est possible de calculer un modèle
| |
| | |
| différent pour chaque théorie, puis de les comparer afin de déterminer
| |
| | |
| quelle théorie est la mieux soutenue par les données. La comparaison
| |
| | |
| peut se faire notamment sur la base du coefficient de détermination
| |
| | |
| ajusté (R<nowiki><sup>2</sup></nowiki>) ou de critères d’information tels que le **BIC**.
| |
| | |
| <nowiki>###</nowiki> Approche empirique
| |
| | |
| Dans le cas d’une approche empirique, toutes les variables à disposition
| |
| | |
| peuvent être utilisée comme prédicteurs de la variable dépendante. Au vu
| |
| | |
| du nombre de modèles différents que cela peut impliquer, il faut
| |
| | |
| travailler de manière systématique. Principales approches :
| |
| | |
| - Backward
| |
| | |
| - Forward
| |
| | |
| - Blocs
| |
| | |
| <nowiki>###</nowiki> Procédure backward
| |
| | |
| La procédure backward prend comme point de départ un
| |
| | |
| <nowiki><span class="underline">modèle incluant toutes les variables</nowiki>
| |
| | |
| explicatives<nowiki></span></nowiki> à disposition. On utilise ensuite l’algorithme
| |
| | |
| suivant :
| |
| | |
| - Le modèle de régression multiple est estimé.
| |
| | |
| - Chaque coefficient du modèle est testé individuellement.
| |
| | |
| - Décision :
| |
| | |
|
| |
| | |
| - Si tous les paramètres sont significativement différents de
| |
| | |
| zéro, la procédure s’arrête.
| |
| | |
|
| |
| | |
| - Sinon, la variable correspondant au paramètre le moins fortement
| |
| | |
| significative (celui pour lequel l’hypothèse H<nowiki><sub>0</sub></nowiki> a été
| |
| | |
| la plus fortement acceptée) est supprimée du modèle et on
| |
| | |
| retourne au point 1).
| |
| | |
| <nowiki>###</nowiki> Procédure forward
| |
| | |
| La procédure forward prend comme point de départ un
| |
| | |
| <nowiki><span class="underline">modèle incluant uniquement une constante</span></nowiki>.
| |
| | |
| On utilise ensuite l’algorithme suivant :
| |
| | |
| - On recherche, parmi les variables ne faisant pas partie du modèle,
| |
| | |
| celle qui permet le mieux d’améliorer le modèle. Cela peut
| |
| | |
| nécessiter le calcul de tous les modèles possibles en incluant à
| |
| | |
| tour de rôle chacune des variables potentielles.
| |
| | |
| - Décisions :
| |
| | |
|
| |
| | |
| - Si cette variable est significative lorsqu’on l’ajoute au
| |
| | |
| modèle, on l’ajoute et on retourne au point 1.
| |
| | |
|
| |
| | |
| - Sinon, la procédure s’arrête.
| |
| | |
| Remarque : les procédures « stepwise » combinent les deux approches
| |
| | |
| précédentes. Une variable peut ressortir du modèle après y être
| |
| | |
| entrée, et vice versa.
| |
| | |
| <nowiki>###</nowiki> Construction par blocs
| |
| | |
| La construction par blocs est une approche intermédiaire entre les
| |
| | |
| approches théoriques et empiriques. Les variables explicatives sont
| |
| | |
| réparties en plusieurs blocs (variables essentielles, variables
| |
| | |
| sociodémographiques, variables de contrôle…) et ces blocs sont ajoutés
| |
| | |
| successivement au modèle. L’objectif n’est plus seulement d’établir
| |
| | |
| l’utilité de chaque variable explicative prise isolément mais de
| |
| | |
| mesurer l’apport respectif de chaque bloc ou type de variables dans
| |
| | |
| l’explication de la variable dépendante.
| |
| | |
| <nowiki>###</nowiki> Comment comparer ces modèles ?
| |
| | |
| Plusieurs critères peuvent être utilisés pour comparer des modèles entre
| |
| | |
| eux. Tout d’abord, il faut savoir si l’on travaille au **niveau
| |
| | |
| individuel de chaque variable** ou **au niveau du modèle** pris dans son
| |
| | |
| ensemble :
| |
| | |
| - **Au niveau des variables**, on peut utiliser le test de
| |
| | |
| significativité si la variable est dans le modèle, ou se baser sur
| |
| | |
| la corrélation (partielle) entre cette variable et la variable
| |
| | |
| dépendante sinon.
| |
| | |
| - **Au niveau du modèle**, on peut se baser sur des coefficients
| |
| | |
| d’ajustement (R<nowiki><sup>2</sup></nowiki>), sur des tests du rapport de
| |
| | |
| vraisemblance, ou sur des critères d’information (BIC).
| |
| | |
| <nowiki>###</nowiki> Critères d’information
| |
| | |
| Les critères d’information combinent la qualité d’ajustement du modèle
| |
| | |
| aux données avec sa complexité :
| |
| | |
| - Akaike : AIC = *FIT* + 2*k*
| |
| | |
| - Bayes (Schwarz) : BIC = *FIT* + ln(*n*)*k* -\> où *k* est le nombre
| |
| | |
| de coefficient estimés du modèle et *n* est le nombre
| |
| | |
| d’observations.
| |
| | |
| Plus un coefficient est proche de zéro, meilleur il est. Pour une
| |
| | |
| régression logistique, *FIT* est égal à -2 fois la log-vraisemblance du
| |
| | |
| modèle, alors que pour une régression linéaire, il s’agit de *n* fois le
| |
| | |
| logarithme de la somme des carrés des résidus du modèle.
| |
| | |
| Il n’est pas possible de tester formellement la valeur du BIC mais
| |
| | |
| <nowiki>*</nowiki>Raftery* (1995) propose un ordre de grandeur pour la comparaison de
| |
| | |
| deux modèles. Soit M<nowiki><sub>1</sub></nowiki> et M<nowiki><sub>2</sub></nowiki>, deux modèles tels que
| |
| | |
| M<nowiki><sub>2</sub></nowiki> est emboîté dans M<nowiki><sub>1</sub></nowiki> (ie : il a été obtenu en
| |
| | |
| supprimant une ou plusieurs variables de M<nowiki><sub>1</sub></nowiki> et il est donc
| |
| | |
| plus simple). Alors :
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Exemple : comparaison de théories**
| |
| | |
| Pour expliquer le revenu, il faut prendre la
| |
| | |
| variable travail (oui/non), si c’est un col blanc (oui/non) et s’il est
| |
| | |
| indépendant. Les 3 variables sont significatives par rapport à leur
| |
| | |
| p-valeur.
| |
| | |
| 
| |
| | |
| On a la variable santé qui est significative et les deux autres qui ne
| |
| | |
| sont pas significatives.
| |
| | |
| 
| |
| | |
| On a aussi des variables significatives et d’autres qui ne le sont pas
| |
| | |
| (âge, diplôme universitaire).
| |
| | |
| Lequel des 3 modèles est le plus pertinent ? On compare les
| |
| | |
| R<nowiki><sup>2</sup></nowiki> ajusté et les BIC.
| |
| | |
| <nowiki>Le R<sup>2</sup></nowiki> du modèle sociodémographique
| |
| | |
| permet d’expliquer les 12% de notre modèle de comparaison. Avec le BIC,
| |
| | |
| la valeur la plus petite, c’est une sorte de différence entre ce que ça
| |
| | |
| prédit et ce qui est réellement donc plus c’est petit, mieux c’est. Pour
| |
| | |
| les deux critères, on a le modèle sociodémographique qui est meilleur
| |
| | |
| mais est-ce un bon modèle ? Là, on a environ 12% de variance expliqué
| |
| | |
| mais ce n’est pas excellent. Parmi les 3, c’est le meilleur mais il
| |
| | |
| n’est pas très bon.
| |
| | |
| <nowiki>**</nowiki>Exemple : construction par blocs**
| |
| | |
| On construit un modèle en examinant tout d’abord l’influence des
| |
| | |
| facteurs économiques puis celle de la santé et en dernier lieu celle des
| |
| | |
| facteurs socio-démographiques.
| |
| | |
| Le <nowiki><span class="underline">bloc économique </span></nowiki>: on prend le même
| |
| | |
| modèle. On remarque qu’il y a au moins une valeur qui est
| |
| | |
| significative. Toutes les variables sont significatives en l’occurrence
| |
| | |
| avec un R<nowiki><sup>2</sup></nowiki> de 0.0509 donc on explique 5% de la variance.
| |
| | |
| Maintenant on rajoute les valeurs dues à la santé à ce modèle. Ce
| |
| | |
| nouveau modèle comprenant deux séries de blocs de variables, il vaut la
| |
| | |
| peine de s’y intéresser. Est-ce qu’il explique beaucoup mieux la
| |
| | |
| variable indépendante ? Les variables sont significatives du bloc
| |
| | |
| économique et juste une du modèle de la santé. Puis on ajoute les
| |
| | |
| variables socio-démographiques et on obtient un modèle combiné par les 3
| |
| | |
| blocs de variables. On voit ainsi qu’il y a des variables
| |
| | |
| non-significatives.
| |
| | |
| Si on compare ces 3 modèles entre eux,
| |
| | |
| Le dernier bloc permet la plus forte
| |
| | |
| augmentation et donc la plus forte explication de la variation (avec un
| |
| | |
| pourcentage d’environ 16%). Par conséquent, c’est l’ajout des facteurs
| |
| | |
| socio-démographiques qui permet la plus forte augmentation de
| |
| | |
| l’explication de la variable dépendante.
| |
| | |
| <nowiki>**</nowiki>Exemple : sélection backward**
| |
| | |
| A partir du modèle précédent à 3 blocs de variables, on effectue une
| |
| | |
| sélection backward en supprimant à chaque étape la variable
| |
| | |
| non-significative ayant la plus grande p-valeur. On supprime ainsi
| |
| | |
| successivement les variables suivantes : HANDI.POUR, HANDI, UNIV, AGE.
| |
| | |
| En termes de R<nowiki><sup>2</sup></nowiki> ajusté, le modèle obtenu est très proche du
| |
| | |
| modèle précédent à 3 blocs, tout en étant plus simple.
| |
| | |
| Toutes ces variables ont l’air significatives.
| |
| | |
| Comment expliquer la variance ? Par 16.2% mais qui n’est pas terrible.
| |
| | |
| C’est un modèle considéré comme mauvais.
| |
| | |
| <nowiki>#</nowiki> Analyse multivariée : régression logistique. Analyse des données et interprétations
| |
| | |
| Elle va nous permettre de prédire la valeur d’une ou l’autre des
| |
| | |
| modalités d’une variable de type catégorielle.
| |
| | |
| <nowiki>##</nowiki> Introduction
| |
| | |
| <nowiki>###</nowiki> Problématique
| |
| | |
| Nous voulons construire un modèle de régression pour expliquer une
| |
| | |
| variable dichotomique. Problème : une telle variable ne prend que deux
| |
| | |
| modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux)
| |
| | |
| alors qu’un modèle de régression produit des résultats numériques allant
| |
| | |
| de – infini à + infini. Comment faire coïncider une variable dépendante
| |
| | |
| dichotomique avec l’output d’un modèle de régression ? La solution
| |
| | |
| consiste en deux étapes successives.
| |
| | |
| <nowiki>###</nowiki> Transformation logit (fonction)
| |
| | |
| Soit une variable dépendante dichotomique et soit *p* la probabilité de
| |
| | |
| la modalité pour laquelle nous allons construire le modèle.
| |
| | |
| - **Etape 1 **: En considérant la probabilité p plutôt que la modalité
| |
| | |
| elle-même, nous revenons à une variable dépendante numérique. Mais
| |
| | |
| une probabilité évolue entre 0 et 1, alors qu’un modèle de
| |
| | |
| régression produit des résultats allant de –infini à +infini.
| |
| | |
| - **Etape 2 **: On estime le modèle pour la fonction logit, notée
| |
| | |
| \(\pi\) plutôt que pour *p* :
| |
| | |
| 
| |
| | |
| - On veut prédire des valeurs avec une régression connue où on se
| |
| | |
| ramène à un cas où les valeurs vont aller de – l’infini à +
| |
| | |
| l’infini. C’est une fonction logistique \!
| |
| | |
| 
| |
| | |
| Donc on passe d’une variable dichotomique à quelque chose qui peut avoir
| |
| | |
| des valeurs allant de – l’infini à + l’infini. La transformation est
| |
| | |
| permise par le log. Nous on estime sur le PI avec une régression
| |
| | |
| linéaire.
| |
| | |
| <nowiki>###</nowiki> Modèle
| |
| | |
| Equation générale d’une régression logistique :
| |
| | |
| 
| |
| | |
| Même si le modèle de régression logistique ne permet pas forcément
| |
| | |
| d’expliquer à 100% le logit, on n’indique généralement par le terme
| |
| | |
| d’erreur car il n’est pas distribué selon une loi bien définie.
| |
| | |
| Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on
| |
| | |
| prend quelqu’un au hasard sans connaître ces modalités, on prend la
| |
| | |
| modalité la plus présente, à savoir le 80 d’individus. En termes de
| |
| | |
| probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2.
| |
| | |
| Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre
| |
| | |
| information à part les données de départ, à savoir de la variable
| |
| | |
| dichotomique.
| |
| | |
| <nowiki>**</nowiki>Exemple : données GSOEP**
| |
| | |
| Nous disposons de données extraites du German Socio-Economic Panel
| |
| | |
| (GSOEP), un panel représentatif des ménages allemands pour l’année 1994.
| |
| | |
| Ces données concernant 3377 individus âgées de 25 à 64 ans. On a des
| |
| | |
| variables liées au travail, à la santé et des variables
| |
| | |
| socio-démographiques.
| |
| | |
| <nowiki>##</nowiki> Interprétation
| |
| | |
| En régression linéaire, il suffit de minimiser la somme des carrées
| |
| | |
| d’erreur. Ici, on aura une fonction dite de régression logistique.
| |
| | |
| <nowiki>###</nowiki> Niveaux d’analyse du modèle
| |
| | |
| Tout comme en régression linéaire, on peut évaluer à la fois la qualité
| |
| | |
| globale d’un modèle et l’utilité de chacun de ses éléments. Par
| |
| | |
| ailleurs, les coefficients du modèle peuvent soit être interprétés
| |
| | |
| directement soit être transformées en *odds ratio – rapport de cote*.
| |
| | |
| Cette seconde forme est plus naturelle dans le cas de la régression
| |
| | |
| logistique.
| |
| | |
| <nowiki>**</nowiki>Exemple : modélisation du fait d’avoir un travail**
| |
| | |
| La variable dépendante est d’avoir un travail
| |
| | |
| et on veut l’expliquer avec toutes les autres variables indépendantes.
| |
| | |
| AIC = critère d’information. On a ici les coefficients nécessaires de
| |
| | |
| notre régression ; on a des informations sur la qualité du modèle, sur
| |
| | |
| la valeur des paramètre (dernière colonne).
| |
| | |
| On a ici de nouvelles informations par rapport
| |
| | |
| au précédent.
| |
| | |
| <nowiki>###</nowiki> Qualité globale du modèle : déviance
| |
| | |
| La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le
| |
| | |
| modèle et les observations. Elle est utile pour comparer des modèles en
| |
| | |
| particulier le modèle basique ne contenant aucune variable explicative
| |
| | |
| et le modèle complet où on a toutes nos variables. Ces deux chiffres
| |
| | |
| indiquent une certaine distance entre le modèle et les observations.
| |
| | |
| Plus la distance est petite, meilleur sera le modèle. En ayant une
| |
| | |
| déviance plus petite, on aura un modèle considéré comme meilleur. Si on
| |
| | |
| n’a aucune variable explicative et si on prend toutes ces explications
| |
| | |
| du modèle précédents des variables indépendantes, la déviance est plus
| |
| | |
| petite et donc le second modèle est meilleur que le modèle où on a juste
| |
| | |
| les intercept.
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Qualité globale du modèle : chi-2
| |
| | |
| La statistique chi-2 du rapport de vraisemblance évalue l’amélioration
| |
| | |
| de la déviance par rapport au modèle « NULL » (avec constante
| |
| | |
| seulement) :
| |
| | |
| 
| |
| | |
| Si la statistique du chi-2 n’est pas significative, le modèle est
| |
| | |
| rejeté. Cette statistique permet aussi de comparer des modèles entre
| |
| | |
| eux.
| |
| | |
| 
| |
| | |
| Donc notre modèle vaut la peine d’être considéré mais cela ne signifie
| |
| | |
| pas qu’il est bon \! C’est aussi un outil qui nous permet de juger la
| |
| | |
| validité de notre modèle.
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> Qualité globale du modèle : pseudo-R<nowiki><sup>2</sup></nowiki>
| |
| | |
| - **Cox & Snell **:
| |
| | |
| 
| |
| | |
| - **Nagelkerke** (exemple : R<nowiki><sup>2</sup></nowiki> = 0.227)
| |
| | |
| 
| |
| | |
| - **McFadden **:
| |
| | |
| où -2LL<nowiki><sub>0</sub></nowiki> est la déviance du modèle NULL et -2LL<nowiki><sub>M</sub></nowiki>
| |
| | |
| est la déviance du modèle que l’on teste. Au contraire de la régression
| |
| | |
| linéaire, ces R<nowiki><sup>2</sup></nowiki> ne représentant pas la part expliquée de la
| |
| | |
| variable dépendante mais seulement une mesure de l’utilité des variables
| |
| | |
| explicatives. Le R<nowiki><sup>2</sup></nowiki> ne s’utilise pas de la même manière que
| |
| | |
| dans la régression linéaire. Ce sont toutes des estimations \!
| |
| | |
| <nowiki>###</nowiki> Qualité globale du modèle : AIC, BIC…
| |
| | |
| Les critères d’information d’Akaike et de Bayes permettent aussi de
| |
| | |
| comparer au niveau global plusieurs modèles :
| |
| | |
| 
| |
| | |
| où k est le nombre de coefficient estimés du modèle et n est le nombre
| |
| | |
| d’observations. Pour la régression logistique, le *FIT* du modèle est
| |
| | |
| égale à la **déviance** (-2 fois la log vraisemblance du modèle). Plus
| |
| | |
| un coefficient est proche de zéro, meilleur il est.
| |
| | |
| <nowiki>###</nowiki> Test individuel de chaque variable
| |
| | |
| La significativité des coefficients détermine si la variable
| |
| | |
| correspondante est significative ou si elle peut au contraire être
| |
| | |
| supprimée du modèle.
| |
| | |
| - Variable **quantitative **: c’est l’effet de la variable elle-même
| |
| | |
| car il n’y a qu’un seul coefficient.
| |
| | |
| - Variable **catégorielle **: la significativité d’un coefficient
| |
| | |
| indique uniquement l’effet significatif de la variable muette
| |
| | |
| correspondante par rapport à la catégorie de référence.
| |
| | |
| <nowiki>###</nowiki> Variables explicatives à plus de 2 modalités
| |
| | |
| Lorsqu’une variable explicative catégorielle comporte plus de 2
| |
| | |
| modalités, elle est remplacée dans le modèle par plusieurs variables
| |
| | |
| muettes. Une *p*-valeur est fournie pour chacune de ces variables
| |
| | |
| muettes. Toutes ces variables muettes correspondent à la même variable
| |
| | |
| explicative. Il faut donc **soit toutes les laisser dans le modèle soit
| |
| | |
| toutes les supprimer**. Il est possible de tester globalement l’effet de
| |
| | |
| toutes les variables muettes correspondant à une même variable
| |
| | |
| explicative en utilisant la statistique du chi-2 pour comparer le modèle
| |
| | |
| avec et sans ces variables muettes.
| |
| | |
| Exemple : modèle avec une variable explicative catégorielles à 4
| |
| | |
| modalités (DOC\_4c)
| |
| | |
| 
| |
| | |
| Modèle sans cette variable explicative catégorielle (DOC\_4c)
| |
| | |
| 
| |
| | |
| Quel est le meilleur modèle ? On peut regarder la déviance résiduelle
| |
| | |
| (3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2
| |
| | |
| est très petit. En regardant la valeur du BIC, le 2<nowiki><sup>ème</sup></nowiki> modèle
| |
| | |
| serait meilleur. Par contre, par rapport au critère déviance résiduelle
| |
| | |
| (distance entre le modèle et l’observation), là, ça semble un peu se
| |
| | |
| contredire. En fait, ces deux modèles sont extrêmement proches l’un de
| |
| | |
| l’autre. On peut ainsi dire que par parcimonie, on préférerait le
| |
| | |
| modèle ayant le moins de variables. On prend les variables muettes du
| |
| | |
| premier modèle et on les retire toutes ensembles. Si on regarde les
| |
| | |
| p-valeur, il n’y a que pour une variable où ces significatives. Donc on
| |
| | |
| les retire toutes.
| |
| | |
| <nowiki>###</nowiki> Interprétation des coefficients
| |
| | |
| Un modèle de régression logistique peut s’interpréter soit en termes de
| |
| | |
| <nowiki>**</nowiki>valeur des coefficients de régression,** soit en termes **d’odds
| |
| | |
| ratios** (rapport de cotes). Les coefficients mesurent l’influence des
| |
| | |
| variables explicatives sur le logit de la variable dépendante. Un
| |
| | |
| coefficient \>0 implique une augmentation du logit et un coefficient \<0
| |
| | |
| implique une diminution du logit. Problème : le logit n’est qu’une
| |
| | |
| construction mathématique qui n’est pas facile à interpréter. On sait
| |
| | |
| seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et
| |
| | |
| que plus le logit augmente, plus la probabilité augmente.
| |
| | |
| Exemple : modélisation du fait d’avoir un travail
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Odds ratio
| |
| | |
| Soit la variable « avoir un travail ». Cette variable n’a que deux
| |
| | |
| modalités : oui et non. Soit p la probabilité d’avoir actuellement un
| |
| | |
| travail (oui) et 1-*p* la probabilité de ne pas en avoir (non). Pour un
| |
| | |
| échantillon de taille n, la cote (odds) associée à cette variable est
| |
| | |
| le rapport entre le nombre n<nowiki><sub>oui</sub></nowiki> de personnes ayant un travail
| |
| | |
| et le nombre n<nowiki><sub>non</sub></nowiki> de personnes n’ayant pas de travail avec
| |
| | |
| n = n<nowiki><sub>oui</sub></nowiki> + n<nowiki><sub>non</sub></nowiki>, ce qui revient à écrire :
| |
| | |
| 
| |
| | |
| L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de
| |
| | |
| la variable expliquée est multipliée lorsque le facteur explicatif
| |
| | |
| correspondant augmente d’une unité. C’est ce que l’on appelle un **odds
| |
| | |
| ratio**. Les odds ratios s’interprètent de la manière suivante :
| |
| | |
| - **Variable quantitative **: impact sur la cote de la variable
| |
| | |
| expliquée d’une augmentation de 1 unité de la variable.
| |
| | |
| - **Variable catégorielle **: impact sur la cote de la variable
| |
| | |
| expliquée du fait d’appartenir à la catégorie indiquée par la
| |
| | |
| variable muette par rapport au fait d’appartenir à la catégorie de
| |
| | |
| référence.
| |
| | |
| <!-- end list -->
| |
| | |
| - **Les odds ratios ne prennent que des valeurs positives. La valeur 1
| |
| | |
| sert de référence et indique l’absence de changement**.
| |
| | |
| Exemple : modélisation du fait d’avoir un travail
| |
| | |
| Pour avoir les odds rations, on fait e à la
| |
| | |
| puissance des chiffres de la première colonne. La cote de base de la
| |
| | |
| variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt
| |
| | |
| qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 =
| |
| | |
| 0.75. Cette valeur signifie que si on a comme caractéristique d’être une
| |
| | |
| femme par rapport à un homme, on a 25% de chance en moins d’avoir un
| |
| | |
| travail.
| |
| | |
| <nowiki>###</nowiki> Probabilité d’une situation donnée
| |
| | |
| Etant donné que le modèle est estimé pour la quantité suivante :
| |
| | |
| 
| |
| | |
| <nowiki>La probabilité *p* se calcule alors comme : </nowiki>
| |
| | |
| Exemple :
| |
| | |
| La probabilité d’avoir
| |
| | |
| un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant
| |
| | |
| étudié durant 12 ans. Logit :
| |
| | |
| - Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait
| |
| | |
| un travail.
| |
| | |
| <nowiki>##</nowiki> Modèles dérivés
| |
| | |
| <nowiki>###</nowiki> Régression multinomiale
| |
| | |
| La régression multinomiale s’utilise lorsque la variable dépendante est
| |
| | |
| une variable nominale à c\>2 catégories. L’une des catégories joue alors
| |
| | |
| le rôle de référence et l’on calcule en parallèle c-1 régressions
| |
| | |
| « logistiques » pour chacune des autres catégories de la variable.
| |
| | |
| Attention : c-1 régressions ne sont pas indépendantes les unes des
| |
| | |
| autres et ce modèle n’est pas équivalent à calculer c-1 vraies
| |
| | |
| régressions logistiques.
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>DOC\_4c (référence =0)**
| |
| | |
| On a pris 4 valeurs.
| |
| | |
| <nowiki>**</nowiki>Doc\_4C (référence = 0)**
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Régression ordinale
| |
| | |
| La régression ordinale s’utilise lorsque **la variable dépendante est
| |
| | |
| une variable ordinale à c\>2 catégories**. On calcule alors une
| |
| | |
| régression comparant des modalités adjacentes ou des groupes de
| |
| | |
| modalités cumulées. **Contrairement à la régression multinomiale, un
| |
| | |
| seul ensemble de coefficients est calculé, à l’exception des
| |
| | |
| constantes**. Pour utiliser ce modèle, il faut faire l’hypothèse de
| |
| | |
| <nowiki>**</nowiki>parallélisme des régressions**, ce qui signifie que les coefficients
| |
| | |
| des différentes régressions doivent être identiques, à l’exception des
| |
| | |
| constantes. En pratique, cette hypothèse est difficile à vérifier et
| |
| | |
| l’on préfère souvent en rester à une régression multinomiale.
| |
| | |
| <nowiki>###</nowiki> Exercice en cours
| |
| | |
| Sur la base de données disponibles sur moodle (excel), on va s’entraîner
| |
| | |
| à analyser des régressions linéaires :
| |
| | |
| 1) <nowiki><span class="underline">Résumer la variable</nowiki>
| |
| | |
| douleur (qualitative)<nowiki></span></nowiki> : variable qualitative dichotomique
| |
| | |
| ayant 2 modalités. Pour la résumer, il faut calculer le nombre de
| |
| | |
| fois qu’il y a 0 et le nombre de fois qu’il y a 1. 35 fois 0 et 25
| |
| | |
| fois 1. En pourcentage, 58% qui n’ont pas de reçu de douleur contre
| |
| | |
| 41% qui ont eu de la douleur.
| |
| | |
| 2) <nowiki><span class="underline">Prenez un patient au hasard. A-t-il plus de</nowiki>
| |
| | |
| chance d’avoir une réduction de la douleur ou de ne pas avoir de
| |
| | |
| réduction de la douleur ?<nowiki></span></nowiki> Effectivement, si on prend une
| |
| | |
| personne au hasard, d’après les données on a 58.3% de chance que la
| |
| | |
| personne n’ait pas ressenti de la douleur contre 41% de personne qui
| |
| | |
| ont ressenti de la douleur. Notre meilleur pronostic si on prend une
| |
| | |
| personne au hasard, elle n’a pas de réduction de douleur ressenti
| |
| | |
| puisque le pourcentage est plus grand que pour celles qui ont
| |
| | |
| ressenti de la douleur.
| |
| | |
| <!-- end list -->
| |
| | |
| - La seule chose qu’on peut dire c’est que par rapport à mes données,
| |
| | |
| je regarde la majorité et je parie là-dessus. Si je fais un modèle
| |
| | |
| basé uniquement sur la variable douleur qui est la variable
| |
| | |
| dépendante. Ainsi, on estime un coefficient qui est le coefficient
| |
| | |
| constant puisqu’on n’a aucune autre valeur.
| |
| | |
| <!-- end list -->
| |
| | |
| 3) <nowiki><span class="underline">Quel est la cote de base de la variable</nowiki>
| |
| | |
| dépendante ?<nowiki></span></nowiki> On fait la formule de la cote :
| |
| | |
| (n<nowiki><sub>oui</sub></nowiki>/n) / (n<nowiki><sub>non</sub></nowiki>/ n) : (25/60) / (35/60) =
| |
| | |
| 0.714.
| |
| | |
| 4) <nowiki><span class="underline">Qu’est-ce ça signifie d’avoir une cote de</nowiki>
| |
| | |
| 0.714 ?<nowiki></span></nowiki> Le 1 est le seuil équivalent entre les 2 populations.
| |
| | |
| Si on est en dessous, cela signifie que la partie qui nous intéresse
| |
| | |
| est plus faible. Donc, les chances qu’un patient ait une réduction
| |
| | |
| de douleur avec une cote inférieure à 1, ses chances diminuent. Donc
| |
| | |
| cela signifie que le patient a environ 29% de chance en moins que le
| |
| | |
| patient ait une réduction de douleur.
| |
| | |
| <!-- end list -->
| |
| | |
| - Ce qui est inférieur à 1, on a moins de chance d’obtenir l’évènement
| |
| | |
| en question. Si on a plus que 1, on a plus de chance d’obtenir
| |
| | |
| l’évènement en question.
| |
| | |
| Le modèle nul = un modèle dans lequel je ne mets aucune variable
| |
| | |
| explicative. Je n’ai pas d’autres informations que le fait d’avoir un
| |
| | |
| patient et la probabilité qu’il ait une réduction de la douleur. AIC =
| |
| | |
| plus il est petit, mieux c’est (c’est un critère d’information).
| |
| | |
| 5) <nowiki><span class="underline">Quelle est l’équation de ce modèle</nowiki>
| |
| | |
| nul <nowiki></span></nowiki>? Le pi est le logit. La différence par rapport à une
| |
| | |
| régression linéaire, on y explique une variable égale à bêta 0 +
| |
| | |
| bêta 1. Là, on n’explique pas directement la variable qui nous
| |
| | |
| intéresse. On passe ici par un logit parce qu’on a une variable
| |
| | |
| dichotomique, on a des soucis en utilisant une régression
| |
| | |
| logistique. Ici, on évalue un modèle de régression pour le logit.
| |
| | |
| Donc la réponse est que bêta 0 (pi) = -0.036.
| |
| | |
| 6) <nowiki><span class="underline">Quelle est la probabilité d’une réduction de</nowiki>
| |
| | |
| douleur ?<nowiki></span></nowiki> (régression logistique) p = 1/1 + e <nowiki><sup>-</nowiki>
| |
| | |
| (-0.336)<nowiki></sup></nowiki> = 0.417. C’est la probabilité d’avoir une réduction
| |
| | |
| de douleur.
| |
| | |
| <!-- end list -->
| |
| | |
| - On a fait un modèle qui nous permet de prédire la variation de la
| |
| | |
| variable.
| |
| | |
| <nowiki>**</nowiki>Modèle avec genre, résumé**
| |
| | |
| 7) <nowiki><span class="underline">Résumez les données comprenant les variables</nowiki>
| |
| | |
| Douleur et genre <nowiki></span></nowiki>: On a 22 femmes = 0 / 8 = 1 // 13 hommes =
| |
| | |
| 0 / 17 = 1
| |
| | |
| 8) <nowiki><span class="underline">Quelle est l’équation de ce modèle</span></nowiki> =
| |
| | |
| -1.012 + 1.280 x genre
| |
| | |
| 9) <nowiki><span class="underline">Que vaut le logit pour une femme ?</span></nowiki>
| |
| | |
| (Femme = 0) donc -1.012 + 1.280 x 0 = -1.012.
| |
| | |
| 10) <nowiki><span class="underline">Que vaut le logit pour un homme</span></nowiki> :
| |
| | |
| -1.012 + 1.280 x 1 = 0.268.
| |
| | |
| 11) <nowiki><span class="underline">Quelle est la probabilité d’une diminution</nowiki>
| |
| | |
| de douleur chez une femme ?<nowiki></span></nowiki> p = 1/1+e<nowiki><sup>-(bêta 0 +bêta 1 x</nowiki>
| |
| | |
| Genre)<nowiki></sup></nowiki> : 0.267. Il y a 26.7% de chance qu’elle ressente une
| |
| | |
| diminution de douleur.
| |
| | |
| 12) <nowiki><span class="underline">Quelle est la probabilité d’aucune</nowiki>
| |
| | |
| diminution de douleur chez une femme ?<nowiki></span></nowiki> P(Douleur=0 I Genre =
| |
| | |
| F) = 1 - 0. 267 = 0.733.
| |
| | |
| 13) <nowiki><span class="underline">Quelle est la probabilité d’une diminution</nowiki>
| |
| | |
| de douleur chez un homme ?<nowiki></span></nowiki> 0.567.
| |
| | |
| 14) <nowiki><span class="underline">Quelle est la probabilité d’aucune</nowiki>
| |
| | |
| diminution de douleur chez un homme ?<nowiki></span></nowiki> 1 – 0.567 = 0.433.
| |
| | |
| 15) Rapports de 2 probabilités : P (Douleur = 1 I Genre = F) = 0.267 / P
| |
| | |
| (Douleur = 0 I Genre = F) = 0.733 / P (Douleur = 1 I Genre = H) =
| |
| | |
| 0.567/ P (Douleur =0 I Genre = H) = 0.433.
| |
| | |
| <nowiki><span class="underline">Quel est le rapport de cote chez une</nowiki>
| |
| | |
| femme ?<nowiki></span></nowiki> 0.267/0.733 = 0.364 =\> 8/22
| |
| | |
| <nowiki><span class="underline">Quel est le rapport de cote chez un</nowiki>
| |
| | |
| homme ?<nowiki></span></nowiki> 0.567 / 0.433 = 1.308 =\> 17/13
| |
| | |
| En reprenant notre résumé de donné, on a 8 femmes qui ressentent une
| |
| | |
| diminution de douleur et 22 qui n’en ressentent pas.
| |
| | |
| <nowiki>**</nowiki>Modèle avec genre, odds ratio**
| |
| | |
| Les rapports de cote chez la femme et chez l’homme sont
| |
| | |
| | | Femme | Homme |
| |
| | |
| | ---------- | ----- | ----- |
| |
| | |
| | Odds ratio | 0.364 | 1.308 |
| |
| | |
| Nous connaissons donc les cotes avant et après 1 unité de changement
| |
| | |
| dans la variable Genre (Genre = 0 pour la femme, Genre = 1 pour
| |
| | |
| l’homme).
| |
| | |
| 16) <nowiki><span class="underline">Quelle est la variation proportionnelle des</nowiki>
| |
| | |
| rapports de cotes ?<nowiki></span></nowiki>
| |
| | |
| Différence entre les cotes = cote après 1 unité d’accroissement de Genre
| |
| | |
| / cotes originales
| |
| | |
| Nous avons calculé une variation proportionnelle des rapports de cote :
| |
| | |
| 3.596
| |
| | |
| Les coefficients et odds rations sont :
| |
| | |
| | | Coefficient | OR |
| |
| | |
| | --------- | ----------- | ----- |
| |
| | |
| | Intercept | \-1-01 | 0.364 |
| |
| | |
| | Genre M | 1.28 | 3.596 |
| |
| | |
| <nowiki>**</nowiki>Le modèle final suivant est disponible**
| |
| | |
| La variable traitement contenait 3 valeurs. Puisqu’on a 3 valeurs, on a
| |
| | |
| besoins de 2 variables dichotomiques pour la représenter.
| |
| | |
| <nowiki><span class="underline">Quelle est l’équation du modèle final ?</span></nowiki>
| |
| | |
| <nowiki>**</nowiki>Modèle final, équation**
| |
| | |
| Que vaut le logit pour une femme de 60 ans, ayant reçu le traitement A,
| |
| | |
| et dont la durée des douleurs précédentes est de 5 jours ?
| |
| | |
| P= 0.007
| |
| | |
| Quelle est la probabilité d’une réduction de douleur pour une femme de
| |
| | |
| 60, ayant reçu le traitement B, et dont la durée des douleurs précédente
| |
| | |
| est de 5 jours ?
| |
| | |
| P= 0.004.
| |
| | |
| <nowiki>#</nowiki> Analyses multivariées : leur utilité pour la recherche
| |
| | |
| <nowiki>##</nowiki> Rappel : types d’analyses : analyses unvariées. VS multivariées
| |
| | |
| - **Analyses univariées**
| |
| | |
|
| |
| | |
| - Description de la distribution d’une seule variable
| |
| | |
|
| |
| | |
| - Fréquences, tendance centrale (moyenne, médiane etc) et
| |
| | |
| dispersion (écart-type, écart interquartile etc.
| |
| | |
| - **Analyses multivariées**
| |
| | |
| C’est une mise en relation de plusieurs variables pour voir comment
| |
| | |
| elles sont associées. Les analyses bi-variée et tri-variée sont des cas
| |
| | |
| particuliers. L’usage voudrait qu’on parle d’analyse multivariée dès
| |
| | |
| lors qu’on analyse plusieurs variables.
| |
| | |
| - **Analyse bivariées**
| |
| | |
| Mise en relation de 2 variables. On utilise des corrélations, des
| |
| | |
| comparaisons de moyennes, des tableaux croisés et des régressions
| |
| | |
| simples dans ce cas d’analyse. Sauf qu’on n’est pas à l’abri d’une
| |
| | |
| relation fallacieuse, à savoir qu’on peut avoir une corrélation entre
| |
| | |
| deux variables mais il n’y a pas de sens en termes de causalité.
| |
| | |
| - **Analyses trivariées**
| |
| | |
| C’est une mise en relation de 2 variables sous contrôle d’une
| |
| | |
| 3<nowiki><sup>ème</sup></nowiki>. On utilise les mêmes outils statistiques pour une
| |
| | |
| analyse bivariée et de plus, il y a la régression multiple. Néanmoins,
| |
| | |
| si le contrôle est limité, quelles sont les causes concurrentes ?
| |
| | |
| - **Autres analyses multivariées**
| |
| | |
| C’est une mise en relation de plus que 3 variables. On utilise des
| |
| | |
| régressions multiples et d’autres méthodes plus complexes dont on ne va
| |
| | |
| pas triater.
| |
| | |
| <nowiki>##</nowiki> Régression multiple
| |
| | |
| La logique, on cherche à expliquer/prédire un phénomène et c’est une
| |
| | |
| <nowiki>*</nowiki>variable expliquée/dépendante* notée *Y*. A côté de ça, on a une série
| |
| | |
| de variables <nowiki><span class="underline">indépendantes ou explicatives</nowiki>
| |
| | |
| notées X<nowiki></span></nowiki>. On cherche à trouver leur effet sur la variable
| |
| | |
| dépendante.
| |
| | |
| Variable de contrôle VS indépendante : mathématiquement, il n’y a pas de
| |
| | |
| différence. C’est une distinction théorique, c’est le chercher qui
| |
| | |
| décide ce qui l’intéresse vraiment, les variables dont l’effet
| |
| | |
| l’intéresse et les variables de contrôle sont là pour contrôler.
| |
| | |
| <nowiki>###</nowiki> 2 usages de la régression multiple
| |
| | |
| - **Expliquer un phénomène social dans son ensemble**
| |
| | |
|
| |
| | |
| - Objectif d’expliquer un maximum de la variance de ce phénomène
| |
| | |
| (variable dépendante) et c’est pour ça que l’examen du
| |
| | |
| R<nowiki><sup>2</sup></nowiki> nous donne l’indice de combien de variance on
| |
| | |
| explique de ce phénomène.
| |
| | |
|
| |
| | |
| - Avantage par rapport aux autres types d’analyse : on peut tester
| |
| | |
| des choses plus complexes. On peut introduire plus de facteurs
| |
| | |
| explicatifs et par définition, on a plus de chance de cerner le
| |
| | |
| phénomène qu’on cherche à expliquer (notamment par le
| |
| | |
| R<nowiki><sup>2</sup></nowiki>).
| |
| | |
| - **Expliquer l’influence de certains facteurs en particulier**
| |
| | |
|
| |
| | |
| - On est moins intéresser à expliquer un phénomène dans son
| |
| | |
| ensemble mais on a un intérêt en se demandant quel est
| |
| | |
| l’influence d’une variable en particulier.
| |
| | |
|
| |
| | |
| - Avantage c’est ce fameux *toute chose égale par ailleurs –
| |
| | |
| ceteris paribus* qui nous permet de dire qu’en contrôlant tout
| |
| | |
| un paquet de facteurs, la variable qui nous intéresse a un
| |
| | |
| effet. Si on garde tout le reste constant, on peut dire qu’une
| |
| | |
| variable a un effet. En gros, l’avantage de la régression
| |
| | |
| multiple est qu’elle permet de contrôler l’effet des causes
| |
| | |
| concurrentes.
| |
| | |
| <!-- end list -->
| |
| | |
| - Coefficients (standardisés et non-standardisés) sont plus
| |
| | |
| importants, R<nowiki><sup>2</sup></nowiki> est moins intéressant sauf si comparaison
| |
| | |
| de modèles « avec/sans » la variable clé. Le R<nowiki><sup>2</sup></nowiki> : de
| |
| | |
| combien de variance supplémentaire on peut expliquer en ajoutant
| |
| | |
| cette variable explicative.
| |
| | |
| <nowiki>##</nowiki> Différents types de régression multiple
| |
| | |
| Le type de régression utilisée dépend du niveau de mesure de la variable
| |
| | |
| dépendante (Y).
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Interprétation
| |
| | |
| 
| |
| | |
| B = coefficient de régression / e = terme d’erreur (estimation
| |
| | |
| statistique) / H<nowiki><sub>0</sub></nowiki> = hypothèse avec pas d’effet
| |
| | |
| <nowiki>###</nowiki> Interprétation
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Régression logistique binaire
| |
| | |
| Dans l’absolu, le R<nowiki><sup>2</sup></nowiki> ajusté est difficile à interpréter par
| |
| | |
| contre pour comparer des modèles, le R<nowiki><sup>2</sup></nowiki> ajusté peut être
| |
| | |
| utile en disant que celui qui a le R<nowiki><sup>2</sup></nowiki> ajusté le plus grand,
| |
| | |
| c’est le meilleur modèle.
| |
| | |
| Le logit, c’est une quantité mathématique qui est difficile à
| |
| | |
| interpréter. Raison pour laquelle on utilise le plus souvent les odd
| |
| | |
| ratios. Le coefficient, la valeur de référence est 0 pour voir la
| |
| | |
| relation est + ou -. Pour les odd rations, la valeur de référence est de
| |
| | |
| 1. Si on est entre 0 et 1, on a une relation négative, si on est au-delà
| |
| | |
| de 1, la relation est positive.
| |
| | |
| Les cotes = on est à 1 contre 3 ; en gros, sur 4 situations, il y a 1
| |
| | |
| dans laquelle on gagne et 3 dans laquelle on perd. Dire la côte est de 1
| |
| | |
| contre 3, on a 1 chance sur 4 de gagner.
| |
| | |
| Vu que la valeur de référence pour 1 (OR), l’intervalle de confiance
| |
| | |
| comprend-elle le 1 ?
| |
| | |
| \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki> : pourcentage de variance qu’on
| |
| | |
| explique en plus à chaque nouveau bloc
| |
| | |
| <nowiki>####</nowiki> Régression multiple : exemple 1
| |
| | |
| « Social Media Use for News and Individuals’ Social Capital, Civic
| |
| | |
| Engagement and Political Participation » G. de Zuniga, Jung & Valenzuela
| |
| | |
| (2012)
| |
| | |
| Question de recherche : les nouveaux réseaux sociaux (SNS)
| |
| | |
| renforcent-ils la participation politique ou, au contraire,
| |
| | |
| l’inhibent-ils ?
| |
| | |
| Hypothèse : L’utilisation des SNS pour la recherche d’information est
| |
| | |
| positivement associée à la participation politique offline et online
| |
| | |
| (=plus les individus utilisent fréquemment les SNS pour s’informer, plus
| |
| | |
| ils participent politiquement).
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Interprétation**
| |
| | |
| - Type d’analyse :
| |
| | |
|
| |
| | |
| - Variables dépendantes numériques (échelles de participation) -\>
| |
| | |
| régressions linéaires (OLS)
| |
| | |
| - Informations statistiques
| |
| | |
|
| |
| | |
| - Coefficients standardisés (Betas)
| |
| | |
|
| |
| | |
| - Significativité (p-valeurs\*)
| |
| | |
|
| |
| | |
| - R<nowiki><sup>2</sup></nowiki> totaux et surtout \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki>
| |
| | |
| intermédiaires
| |
| | |
| - Effet de l’usage des SNS sur participation online ?
| |
| | |
|
| |
| | |
| - Beta = 0.153, p \< 0.01
| |
| | |
|
| |
| | |
| - \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki> = 3.6% (R<nowiki><sup>2</sup></nowiki> total =
| |
| | |
| 39.3%)
| |
| | |
| <!-- end list -->
| |
| | |
| - Effet significatif, positif et assez fort en comparaison avec
| |
| | |
| d’autres variables explicatives du modèle (e.g socio-démo.)
| |
| | |
| <!-- end list -->
| |
| | |
| - Effet de l’usage des SNS sur participation offline ?
| |
| | |
|
| |
| | |
| - Beta = 0.136, p \< 0.01
| |
| | |
|
| |
| | |
| - \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki> = 1.4% (R<nowiki><sup>2</sup></nowiki> total =
| |
| | |
| 32.5%)
| |
| | |
| <!-- end list -->
| |
| | |
| - Effet significatif et positif mais relativement moins important en
| |
| | |
| comparaison avec ceux des autres variables.
| |
| | |
| <nowiki><span class="underline">CCL </span></nowiki>: Toutes choses égales par ailleurs,
| |
| | |
| la fréquence d’utilisation des SNS pour la recherche d’information a un
| |
| | |
| impact positif sur la participation politique offline et online
| |
| | |
| (hypothèse confirmée) mais surtout en ce qui concerne cette dernière.
| |
| | |
| <nowiki>####</nowiki> Régression multiple : exemple 2
| |
| | |
| Social Media and Decision to Participate in Political Protest :
| |
| | |
| Observations From Tharir Square » Tufekci & Wilson (2012)
| |
| | |
| Question de recherche : quel rôle ont joué les réseaux sociaux dans les
| |
| | |
| évènements de la place Tahrir en 2011 ?
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Interprétation**
| |
| | |
| - Type d’analyse
| |
| | |
|
| |
| | |
| - Variables dépendantes dichotomiques (participation oui/non) -\>
| |
| | |
| régressions logistiques binaires (logit)
| |
| | |
| - Informations statistiques
| |
| | |
|
| |
| | |
| - Odds ratio (OR)
| |
| | |
|
| |
| | |
| - Significativité (p-valeurs\*)
| |
| | |
|
| |
| | |
| - (Log-likelihood)
| |
| | |
| - Variables indépendantes dans 1<nowiki><sup>er</sup></nowiki> modèle (participation
| |
| | |
| 1<nowiki><sup>er</sup></nowiki> jour place Tahrir)
| |
| | |
|
| |
| | |
| - Blogs (OR =1.574), téléphone (OR=1.531), Twitter (OR =1.414),
| |
| | |
| Facebook (OR = 1.411), e-mail (OR = 1.313).
| |
| | |
|
| |
| | |
| - Variables indépendantes dans 2<nowiki><sup>ème</sup></nowiki> modèle
| |
| | |
| (participation manifestations antérieures)
| |
| | |
|
| |
| | |
| - SMS (OR = 1.180), presse écrite (OR = 1.353), face à face
| |
| | |
| (OR = 0.613)
| |
| | |
| <!-- end list -->
| |
| | |
| - Différents modes de communication prédisent les 2 variables
| |
| | |
| dépendantes ; impact positif significatif des réseaux sociaux dans
| |
| | |
| le 1<nowiki><sup>er</sup></nowiki> modèle mais pas dans le 2<nowiki><sup>ème</sup></nowiki>.
| |
| | |
| <nowiki><span class="underline">CCL </span></nowiki>: A la différence des manifestations
| |
| | |
| précédentes, toutes choses égales par ailleurs, la chance d’avoir
| |
| | |
| participé au 1<nowiki><sup>er</sup></nowiki> tour de la manifestation place Tahrir est
| |
| | |
| plus élevée si l’individu a utilisé les réseaux sociaux pour communiquer
| |
| | |
| à ce propos.
| |
| | |
| <nowiki>#</nowiki> Analyse des données et interprétations des résultats : préparation à l’examen
| |
| | |
| <nowiki>##</nowiki> Caractéristiques méthodologiques – en amont des analyses
| |
| | |
| - Dessins de recherche : expérimental, quasi-expérimental,
| |
| | |
| corrélationnel
| |
| | |
| - Type de données : primaires ou secondaires ; échantillonnées ou
| |
| | |
| exhaustives, unité d’analyse
| |
| | |
| - Type de récolte des données : échantillonnage, autre
| |
| | |
| - Mesures : variables dépendantes et indépendantes
| |
| | |
| <nowiki>##</nowiki> Analyses
| |
| | |
| <nowiki>###</nowiki> Types d’analyses
| |
| | |
| - Univariées : Fréquences, moyennes, médianes
| |
| | |
| - Bivariées : Tableaux croisés, comparaison de moyenne (Anova),
| |
| | |
| corrélation
| |
| | |
| - Trivarieés : Tableaux croisés, comparaison de moyenne (Anova)
| |
| | |
| - Multivariées : régressions linéaires, régressions logistiques
| |
| | |
| <nowiki>###</nowiki> Statistiques mobilisées :
| |
| | |
| - Univariées : n / %,moyennes (écart-type), médianes (ei)
| |
| | |
| - Bi-tri-variées : n / &, moyennes / association (gamma, etc) / sig
| |
| | |
| (p-valeur)
| |
| | |
| - Multivariées : n / association (b/B) et sig (p-valeur) / Variance
| |
| | |
| exp (R<nowiki><sub>2</sub></nowiki>)
| |
| | |
| - Synthèse : distribution, association, significativité, variance
| |
| | |
| expliquée
| |
| | |
| <nowiki>##</nowiki> Les questions que l’on se pose ?
| |
| | |
| 
| |
| | |
| <nowiki>##</nowiki> Identifier, interpréter, discuter
| |
| | |
| 1. Identifier : qu’est-ce que c’est ?
| |
| | |
| 2. Interpréter : expliquer, pourquoi ?
| |
| | |
| 3. Discuter : adéquation, est-ce que c’est adéquat ?
| |
| | |
|
| |
| | |
| 1. Points forts
| |
| | |
|
| |
| | |
| 2. Biais possibles et leurs impacts sur les résultats
| |
| | |
|
| |
| | |
| 3. Discussion réflexive
| |
| | |
| 
| |
| | |
| 
| |
| | |
| 
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Texte de référence – Andrews : The impact of social movements on the political process. The civil rights movements and black electoral politics in Mississipi
| |
| | |
| <nowiki>**</nowiki>Question de recherche **: quels sont les impacts des mobilisations
| |
| | |
| locales du Civil rights movement sur la politique électorale du
| |
| | |
| Mississipi ?
| |
| | |
| L’auteur distingue 4 impacts :
| |
| | |
| 1. Participation des afros américains au processus électoral
| |
| | |
| 2. Soutien aux candidats AA lors d’élections
| |
| | |
| 3. Candidats AA qui se présentent aux élections locales
| |
| | |
| 4. Candidats AA élus
| |
| | |
| <!-- end list -->
| |
| | |
| - Type d’impact =\> spécifie les variables dépendantes
| |
| | |
| <nowiki>**</nowiki>Cadre théorique et hypothèses**
| |
| | |
| - Mobilisation des ressources : force de mobilisation du mouvement
| |
| | |
| - Opportunités politiques : alliances politiques
| |
| | |
| - Stratégie de résistance : contre-mobilisation de la population
| |
| | |
| blanche
| |
| | |
| - Cycle protestataire : processus temporel
| |
| | |
|
| |
| | |
| - Relation entre facteurs changent dans le temps
| |
| | |
|
| |
| | |
| - Influence des facteurs en fonction du type d’impact
| |
| | |
| <nowiki>**</nowiki>Caractéristiques méthodologiques**
| |
| | |
| <nowiki><span class="underline">Corrélationnel :</span></nowiki>
| |
| | |
| - Analyse de la relation entre variables dans un groupe
| |
| | |
| - Le groupe : Etat du Mississipi
| |
| | |
| <nowiki><span class="underline">Quasi-expérimental</span></nowiki> :
| |
| | |
| - Analyse temporelle : impacts dans le temps du mouvement
| |
| | |
| - Comparaison dans le temps : 1964 (FV) à 1984 (élections AA)
| |
| | |
| - Trois phases : processus
| |
| | |
|
| |
| | |
| - Mobilisation du mouvement
| |
| | |
|
| |
| | |
| - Développement de structures électorales
| |
| | |
|
| |
| | |
| - Election de candidats
| |
| | |
| <nowiki><span class="underline">Corrélationnel et quasi-expérimental :</span></nowiki>
| |
| | |
| - Adapté à la question de recherche : variations et processus (temps)
| |
| | |
| - Force : 1964-1984
| |
| | |
| - Faiblesse : Cas du Mississipi
| |
| | |
|
| |
| | |
| - Force : Cas important dans l’histoire de la protestation CRM
| |
| | |
|
| |
| | |
| - Force : Variation dans la mobilisation (Variance)
| |
| | |
|
| |
| | |
| - Faiblesse : cas exceptionnel de l’Etat du Mississipi (Sud et
| |
| | |
| USA)
| |
| | |
|
| |
| | |
| - Limite la portée des résultats -\> Attention à la généralisation
| |
| | |
| Autre proposition de dessins de recherche ?
| |
| | |
| - Comparaison du Mississipi avec un autre Etat moins exceptionnel
| |
| | |
| - Limite : faisabilité
| |
| | |
| <nowiki>**</nowiki>Type de données et collecte**
| |
| | |
| <nowiki><span class="underline">Type de données et unité d’analyse</span></nowiki>
| |
| | |
| - Countries : n = 81
| |
| | |
|
| |
| | |
| - Country de Jackson supprimé : cas exceptionnel (mobilisation et
| |
| | |
| population)
| |
| | |
| - Données agrégées par country
| |
| | |
| - Données exhaustives (pas de sondages, échantillon)
| |
| | |
| <nowiki><span class="underline">Types de collecte de données</span></nowiki>
| |
| | |
| - Sources documentaires (archives)
| |
| | |
| <nowiki><span class="underline">Type de données et unité d’analyse :</span></nowiki>
| |
| | |
| - Countries : adaptées au questionnement
| |
| | |
|
| |
| | |
| - Variation du type d’impact au niveau collectif (par country)
| |
| | |
| - Exhaustives : pas d’autres solutions possibles
| |
| | |
| <nowiki><span class="underline">Type de collecte de données :</span></nowiki>
| |
| | |
| - Peu (pas) d’information pour évaluer problèmes, biais ?
| |
| | |
| - N = ensemble des countries (n=81) (Sauf Jackson)
| |
| | |
| - Force : exclusion du country de Jackson (cas exceptionnel)
| |
| | |
| <nowiki><span class="underline">Variables dépendantes =\> 4 types d’impact et 9</nowiki>
| |
| | |
| mesures :<nowiki></span></nowiki>
| |
| | |
| 1. Participation des AA
| |
| | |
|
| |
| | |
| 1. Nombre de voix au Freedom vote (1964)
| |
| | |
|
| |
| | |
| 2. Nombre de AA enregistrer pour voter (1967)
| |
| | |
| 2. Soutien aux candidats AA
| |
| | |
|
| |
| | |
| 1. % de vote pour Whitley (1966)
| |
| | |
|
| |
| | |
| 2. % de vote pour Evers (1971)
| |
| | |
| 3. Candidats AA participant au processus électoral
| |
| | |
|
| |
| | |
| 1. Nombre de candidats AA : 1967 – 1971
| |
| | |
| 4. Candidats AA élus
| |
| | |
|
| |
| | |
| 1. Nombre de candidats AA élus : 1974, 1979, 1984
| |
| | |
| <nowiki><span class="underline">Validité (opérationnalisation) :</span></nowiki>
| |
| | |
| - Mobilisation des AA = soutien au FV et inscription électorale
| |
| | |
| - Soutien aux candidats AA = % de vote des candidats AA
| |
| | |
| - Candidats AA participants = nombre de candidats AA se présentant
| |
| | |
| - Candidats AA élus = nombre de candidats AA élus
| |
| | |
| <!-- end list -->
| |
| | |
| - Pas de problème de validité
| |
| | |
|
| |
| | |
| - Force : temporalité prise en compte (t1, t2 etc.) de 1964 à 1984
| |
| | |
|
| |
| | |
| - Segmentation du processus pour cerner l’impact électoral
| |
| | |
| <nowiki><span class="underline">Fiabilité </span></nowiki>:
| |
| | |
| - Pas de problèmes apparents
| |
| | |
| - Pas d’information sur des comptages différents par country
| |
| | |
| <nowiki><span class="underline">Variables indépendantes -\> 3 effets et 5</nowiki>
| |
| | |
| mesures<nowiki></span></nowiki>
| |
| | |
| 1. Mobilisation du mouvement
| |
| | |
|
| |
| | |
| 1. Nombre de militants du Freedom Summer (1964)
| |
| | |
|
| |
| | |
| 2. Nombre de militants du NAACP (1966)
| |
| | |
| 2. Opportunités politiques (alliances politiques)
| |
| | |
|
| |
| | |
| 1. Présence d’examinateurs fédéraux)
| |
| | |
| 3. Contre-mobilisation (White Americains)
| |
| | |
|
| |
| | |
| 1. Résistance au Freedom Summer : attaques physiques (1964)
| |
| | |
|
| |
| | |
| 2. Résistance violente (indice) : attaques / assauts (1960-69)
| |
| | |
| <nowiki>**</nowiki>Caractéristiques méthodologiques – synthèse**
| |
| | |
| <nowiki><span class="underline">Dessin de recherche </span></nowiki>:
| |
| | |
| - Adapté : variation dans le groupe et dans le temps
| |
| | |
| - Attention à la généralisation (cas du Mississipi)
| |
| | |
| - Force : temporalité prise en compte par les mesures
| |
| | |
| <nowiki><span class="underline">Type de données :</span></nowiki>
| |
| | |
| - Adaptées : agrégées (countries) et exhaustives)
| |
| | |
| - Force : exclusion du county de Jackson (cas exceptionnel)
| |
| | |
| <nowiki><span class="underline">Mesures :</span></nowiki>
| |
| | |
| - Validité : pas de problème
| |
| | |
|
| |
| | |
| - Faiblesse : opportunités politiques = protection de l’Etat
| |
| | |
| - Fiabilité : pas de problème apparents (pas d’info.)
| |
| | |
| <nowiki>**</nowiki>Analyses**
| |
| | |
| - <nowiki><span class="underline">Type d’analyse </span></nowiki>: laquelle, pourquoi,
| |
| | |
| adéquat ?
| |
| | |
| - <nowiki><span class="underline">Utilité de l’analyse </span></nowiki>: hypothèse
| |
| | |
| testée, analyse adéquate ?
| |
| | |
| - <nowiki><span class="underline">Statistiques mobilisées </span></nowiki>:
| |
| | |
| coefficients, tests etc., notre interprétation, interprétation de
| |
| | |
| l’auteur (adéquat) ?
| |
| | |
| - <nowiki><span class="underline">Robustesse des résultats </span></nowiki>: problèmes
| |
| | |
| d’indicateurs (influences) ?
| |
| | |
| 
| |
| | |
| 
| |
| | |
| 
| |
| | |
| 
| |
| | |
| <nowiki>#</nowiki> Analyse multivariée : comparaison de populations
| |
| | |
| <nowiki>###</nowiki> Problématique
| |
| | |
| Un problème classique en recherche consiste à déterminer si plusieurs
| |
| | |
| populations sont significativement différentes les unes des autres. Ce
| |
| | |
| problème a déjà été abordé précédemment dans ce cours pour le cas de
| |
| | |
| deux populations (test de Student). Nous allons maintenant passer au cas
| |
| | |
| général et aborder la notion **d’analyse de variance** ou **ANOVA**.
| |
| | |
| L’objectif est de déterminer si l’appartenance à une population plutôt
| |
| | |
| qu’une autre permet d’expliquer les valeurs d’une variable quantitative.
| |
| | |
| Comme pour le test Student, le principe de base de l’ANOVA consiste à
| |
| | |
| comparer la moyenne de la variable quantitative dans les différentes
| |
| | |
| populations étudiées.
| |
| | |
| <nowiki>###</nowiki> Logique de l’ANOVA
| |
| | |
| <nowiki><span class="underline">Le chercheur contrôle 1 ou plusieurs</nowiki>
| |
| | |
| variables :<nowiki></span></nowiki>
| |
| | |
| - Appelées facteurs (parfois appelés traitements)
| |
| | |
| - Chaque facteur contient deux modalités ou plus (i.e parfois appelés
| |
| | |
| niveaux)
| |
| | |
| <nowiki><span class="underline">Le chercheur observe l’effet sur la variable</nowiki>
| |
| | |
| dépendante :<nowiki></span></nowiki>
| |
| | |
| - Réponses observées pour chacune des modalités
| |
| | |
| <nowiki><span class="underline">Plan d’expérience :</span></nowiki>
| |
| | |
| - But : maximiser la précision en minimisant le nombre d’observations
| |
| | |
| - Considérer un ou plusieurs facteurs pendant la constitution du
| |
| | |
| dessin expérimental
| |
| | |
| - Equilibré si toutes les modalités avec la même taille d’échantillon
| |
| | |
| <nowiki>##</nowiki> ANOVA à 1 facteur
| |
| | |
| Evaluer la différence parmi les moyennes de 3 ou plus populations (1
| |
| | |
| population par modalité du facteur)
| |
| | |
| Suppositions :
| |
| | |
| 1. Les populations sont normalement distribuées
| |
| | |
| 2. Les populations ont des variances égales
| |
| | |
| 3. Les échantillons sont indépendants, tirés aléatoirement
| |
| | |
| 4. La variable expliquée est quantitative
| |
| | |
| <nowiki>###</nowiki> Hypothèses : ANOVA à 1 facteur
| |
| | |
| H<nowiki><sub>0</sub></nowiki> : \(\mu\)<nowiki><sub>1</sub></nowiki> = \(\mu\)<nowiki><sub>2</sub></nowiki> =
| |
| | |
| \(\mu\)<nowiki><sub>3</sub></nowiki> = …= \(\mu\)<nowiki><sub>C</sub></nowiki>
| |
| | |
| - Il y a *c* populations
| |
| | |
| - Toutes les moyennes des c populations ont égales
| |
| | |
| - i.e. pas d’effet de facteur (traitement)
| |
| | |
| <nowiki>**</nowiki>H<nowiki><sub>1</sub></nowiki> : pas toutes les moyennes sont identiques**
| |
| | |
| - Au moins 1 moyenne est différente
| |
| | |
| - i.e il existe un effet de facteur (traitement)
| |
| | |
| <!-- end list -->
| |
| | |
| - Il faut donc *c* échantillons correspondants aux *c* populations.
| |
| | |
| Si rejet de l’hypothèse nulle
| |
| | |
| - Quelles populations ont des moyennes différentes ?
| |
| | |
| - On ne sait pas \!
| |
| | |
| Il faut donc effectuer d’autres tests pour le savoir : **tests Post
| |
| | |
| Hoc **qui viennent après. Il existe au moins une population qui diffère
| |
| | |
| des autres. On va aller plus loin en voyant quelle population est
| |
| | |
| distincte des autres.
| |
| | |
| <nowiki>**</nowiki>Exemple : clubs de golf**
| |
| | |
| Question : est-ce que les moyennes sont égales
| |
| | |
| entre les 3 clubs ? On a des moyennes par club et la moyenne globale.
| |
| | |
| 1 : La variable quantitative qu’on aimerait expliquer ? Ici, ce sera la
| |
| | |
| distance.
| |
| | |
| 2 : On a une variable dite facteur : le club de golf. Il comporte 3
| |
| | |
| modalités donc j’ai besoin de 3 échantillons pour dire des choses.
| |
| | |
| Si je veux savoir si les moyennes sont significativement différentes les
| |
| | |
| unes des autres ou au moins une, je procède par confirmer que les
| |
| | |
| moyennes sont différentes en fonction du club utilisé. On va aller vers
| |
| | |
| des notions proches de la variance.
| |
| | |
| <nowiki>##</nowiki>
| |
| | |
| <nowiki>##</nowiki> ANOVA à 1 facteur (simple)
| |
| | |
| <nowiki>###</nowiki> Décomposition de la variation
| |
| | |
| La variabilité totale est décomposée en deux parties :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Somme des carrés totale
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Somme des carrés résiduelle
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Somme des carrés expliquées
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Test
| |
| | |
| Pour arriver à une bonne discrimination entre les populations, les deux
| |
| | |
| conditions suivantes doivent être remplies :
| |
| | |
| 1. La variance doit être grande entre les moyennes de populations :
| |
| | |
| 
| |
| | |
| 2. La variance doit être petite au sein de chaque population :
| |
| | |
| 
| |
| | |
| <!-- end list -->
| |
| | |
| - En considérant le rapport de ces deux quantités, on peut tenir
| |
| | |
| compte simultanément des deux conditions.
| |
| | |
| Soit les carrés moyens :
| |
| | |
| 
| |
| | |
| <nowiki>La statistique de test s’écrit alors : </nowiki>
| |
| | |
| - **L’hypothèse nulle est rejetée lorsque F est grand**. On a
| |
| | |
| suffisamment d’évidences pour penser que les moyennes sont
| |
| | |
| distinctes. Si on rejette l’hypothèse nulle, il y a au moins une
| |
| | |
| valeur qui est différente des autres.
| |
| | |
| <nowiki>##</nowiki> Table ANOVA
| |
| | |
| Les résultats d’une ANOVA sont généralement présentés sous une forme
| |
| | |
| standardisée appelée table ANOVA :
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Hypothèses sous-jacentes à l’ANOVA
| |
| | |
| 1. Les populations sont normalement distribuées. La normalité peut être
| |
| | |
| testée par exemple à l’aide du test :
| |
| | |
|
| |
| | |
| 1. Test de Kolmogorov-Smirnov
| |
| | |
|
| |
| | |
| 2. Test de Shapiro-Wilk
| |
| | |
| 2. Les populations ont des variances égales. L’égalité des variances
| |
| | |
| peut être testés, par exemple à l’aide :
| |
| | |
|
| |
| | |
| 1. Test de Levene
| |
| | |
|
| |
| | |
| 2. Test de Hartley
| |
| | |
| 3. Les échantillons sont indépendants, tirés aléatoirement. Il est
| |
| | |
| préférable mai pas obligatoire que l’échantillon issu de chaque
| |
| | |
| population soit de même taille.
| |
| | |
| 4. La variable expliquée est quantitative.
| |
| | |
| Gold : homoscédasticité (variance homogène)
| |
| | |
| Test sur l’égalité des variances
| |
| | |
| Les variables semblent être homogènes.
| |
| | |
| Golf : normalité
| |
| | |
| Les données ne semblent pas provenir de
| |
| | |
| distributions normales, pour chacune des 3 populations.
| |
| | |
| 
| |
| | |
| Golf : ANOVA
| |
| | |
| <nowiki>###</nowiki> Tests post hoc
| |
| | |
| Lorsque l’hypothèse nulle de l’ANOVA est rejetée, nous savons qu’au
| |
| | |
| moins deux moyennes sont significativement différentes l’une de l’autre
| |
| | |
| mais l’analyse ne nous dit pas desquelles il s’agit. Il est donc
| |
| | |
| nécessaire d’effectuer des comparaisons supplémentaires entre les
| |
| | |
| populations. Pour comparer globalement 2 à 2 toutes les populations sans
| |
| | |
| que le risque de se tromper sur l’une des comparaisons ne soit trop
| |
| | |
| grand, des procédures particulières, les **tests post hoc**, existent.
| |
| | |
| Ces procédures répartissent le risque d’erreur total \(\alpha\) entre
| |
| | |
| les différentes comparaisons à effectuer.
| |
| | |
| <nowiki>###</nowiki> Test de Tukey
| |
| | |
| Le test de Tukey s’emploie lorsque nous voulons comparer 2 à 2 toutes
| |
| | |
| les populations. Pour *c* populations, il faut donc effectuer :
| |
| | |
| 
| |
| | |
| <nowiki>**</nowiki>Golf : Tukey**
| |
| | |
| On conclut entre le club 2, le club 1 et club
| |
| | |
| 3, les moyennes ne sont pas égales \!
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki>
| |
| | |
| <nowiki>###</nowiki> Test de Dunnett
| |
| | |
| Le test de **Dunnett** s’emploie lorsque l’une des populations sert de
| |
| | |
| témoin ou de contrôle et que nous voulons comparer toutes les autres
| |
| | |
| populations contre celle-ci. Pour c populations, il faut donc effectuer
| |
| | |
| <nowiki>*</nowiki>c*-1 tests de la forme :
| |
| | |
| 
| |
| | |
| **Golf : Dunnett**
| |
| | |
| Nous utilisons le groupe « club 1 » comme groupe témoin. La moyenne du
| |
| | |
| club 1 – moyenne club 2, la différence est significative. Si on avait 5
| |
| | |
| clubs de golf, on aurait 4 comparaisons.
| |
| | |
| <nowiki>##</nowiki> Développements
| |
| | |
| <nowiki>###</nowiki> Populations définis selon plusieurs critères
| |
| | |
| Exemple : Donnée GSOEP
| |
| | |
| Des populations peuvent être définies sur la base de plusieurs facteurs.
| |
| | |
| L’ANOVA permet alors de tester simultanément l’apport de chacun de ces
| |
| | |
| facteurs, ainsi que leur éventuelle interaction. Dans ce cas, la table
| |
| | |
| ANOVA regroupe plusieurs tests. Lorsqu’un facteur est significatif et
| |
| | |
| qu’il comporte plus de deux modalités, il est toujours possible de
| |
| | |
| faire ensuite des tests post hoc.
| |
| | |
| <nowiki>**</nowiki>Santé et service civil**
| |
| | |
| On peut voir que l’hypothèse nulle est rejetée
| |
| | |
| pour le genre, aussi pour le service civil. La dernière ligne, elle
| |
| | |
| signifie qu’entre les différents facteurs, il peut y avoir des
| |
| | |
| influences croisées appelées des interactions où les facteurs
| |
| | |
| interagissent entre eux. On en tient compte lorsqu’on crée le modèle. Si
| |
| | |
| on combine les deux facteurs, est-ce qu’il y a une influence ou pas ?
| |
| | |
| Ici elle n’existe pas. La p-valeur est supérieure à 0.05 et donc, on ne
| |
| | |
| rejette pas l’hypothèse nulle. Ainsi, cette p-valeur ne nous permet de
| |
| | |
| rejeter l’hypothèse nulle et genre et service civil ensemble n’ont pas
| |
| | |
| d’influence ensemble sur l’égalité des moyennes.
| |
| | |
| On voit qu’il n’y a pas d’influence dans ce
| |
| | |
| graphique. Il y a du parallélisme entre les deux droites.
| |
| | |
| <nowiki>**</nowiki>DOC.3M en fonction de GENRE, HANDI et C. BLANC**
| |
| | |
| 
| |
| | |
| Lorsqu’on a 3 facteurs, cela commence à devenir complexe parce qu’on a
| |
| | |
| le genre, le handicap et le col blanc. On voit l’interaction des
| |
| | |
| facteurs entre eux. Au fur et à mesure qu’on rajoute des facteurs, cela
| |
| | |
| devient compliqué à gérer. On <nowiki><span class="underline">évite d’avoir trop</nowiki>
| |
| | |
| de facteurs<nowiki></span></nowiki> en même sauf que le principe reste le même puisqu’on
| |
| | |
| regarde la p-valeur ; les moyennes sont-elles distinctes ou pas ?
| |
| | |
| <nowiki>###</nowiki> Analyse de données appariées
| |
| | |
| Lorsque les mêmes sujets sont observés à plusieurs reprises au fil du
| |
| | |
| temps (données appariées), l’intérêt est de savoir si une évolution est
| |
| | |
| présente entre les différents moments d’observation. Une telle analyse
| |
| | |
| est dite **facteur** **répété**. Si les sujets n’ont été observés qu’à
| |
| | |
| deux reprises, une version du test du Student peut être utilisé. Sinon,
| |
| | |
| il s’agit d’une ANOVA.
| |
| | |
| Evolution de DOC.3M entre 1984, 1988 et 1991
| |
| | |
| 
| |
| | |
| On fait la même chose qu’avant, on regarde la différence dans la moyenne
| |
| | |
| en prenant la p-valeur. Sauf qu’ici, on regarde aussi la comparaison
| |
| | |
| dans le temps.
| |
| | |
| <nowiki>###</nowiki> Analyse de covariance (ANCOVA)
| |
| | |
| En plus de dépendre de facteurs catégoriels, la variable numérique
| |
| | |
| étudiée peut aussi être influencée par une ou plusieurs variables
| |
| | |
| numériques (souvent appelées **covariables**). Le principe consiste
| |
| | |
| alors à supprimer l’influence de ces covariables avant d’étudier
| |
| | |
| l’influence des facteurs. En pratique, on suppose qu’il existe un lien
| |
| | |
| linéaire entre les covariables et la variable dépendante et les
| |
| | |
| covariables apparaissent comme des variables explicatives dans le
| |
| | |
| modèle. Ce modèle est une analyse de covariance (ANCOVA).
| |
| | |
| <nowiki>**</nowiki>Covariable AGE par rapport à la SANTE**
| |
| | |
| 
| |
| | |
| <nowiki>###</nowiki> Analyse de variance multiple (MANOVA)
| |
| | |
| Certains phénomènes difficiles à définir sont souvent représentés par la
| |
| | |
| combinaison de plusieurs variables (notion de bien-être, citoyenneté…).
| |
| | |
| L’analyse de la variance multiple (MANOVA) permet d’analyser la
| |
| | |
| répartition de sujets des groupes par rapport à plusieurs variables
| |
| | |
| numériques simultanément.
| |