Backup version complète

De Baripedia


Eléments généraux à propos de ce cours[modifier | modifier le wikicode]

Ce cours est écrit pour les étudiants souhaitant s'initier aux méthodes quantititaves. Ce cours essaie de permettre de comprendre les concepts généraux relatifs à ces méthodes, pour des personnes n'ayant pas nécéssairement un bagage technique ou mathématique. Les formules seront explicitées ainsi que appliquées avec des exemples concrets. Ce cours n'est pas une introduction à la statistique, mais souhaite pouvoir présenter les concepts et leur applications en vue de permettre par la suite à quelqu'un de pouvoir appliquer ces méthodes pour une recherche ou un projet personnel. Les calculs complexes ne seront pas toujours explicités en vue de pouvoir les reproduire à la main, mais plutôt d'offrir les outils pour des applications concrètes, le développement d'un esprit critique et la compréhension de ce qu'il se passe lors d'utilisation de comandes dans un logiciel de programmation statistique comme R, SPSS, Python etc...

Objectifs du cours[modifier | modifier le wikicode]

  1. Savoir interpréter les analyses quantitatives et statistiques
    1. Les comprendre et les interpréter correctement
    2. Déjouer leurs pièges et évaluer leurs apports
  2. Comprendre la production de ces analyses
    1. Elaboration et collecte de données
    2. Elaboration des analyses statistiques
  3. Connaître les outils statistiques
    1. Présupposée, leur application possible et nos usages
    2. Réflexivité et vigilance épistémologique
    3. Développer un esprit critique et autonomie (≠aveuglement vs relativisme)

Utilité d’une telle formation[modifier | modifier le wikicode]

  1. Former des citoyens citoyen.nes éclairées
    1. Consommateur de médias
    2. Citoyen.nes acteurs
  2. Futur professionnel
    1. Rapports mobilisant ce type d’analyse
    2. Formation en science sociales
  3. Comprendre la production intellectuelle en science sociale : comprendre diverses statistiques (but, points forts et faibles)
    1. Comprendre les études et la production du savoir
    2. Autonomie intellectuelle

Importance des méthodes[modifier | modifier le wikicode]

Exemple avec P. Bourdieu : les sciences sociales ne peuvent exister sans empirie. Une analyse empirique scrupuleuse du monde social qui permet de mettre en exergue des dimensions essentielles de la réalité sociale. L’analyse empirique du monde social est la clé de l’élaboration théorique.

Exemple avec R. Merton : il souligne également l’importance des méthodes quantitatives mais dans une vision opposée à celle de Bourdieu par rapport à l’empirie et à la théorie. Pour lui, la théorie sert de fondement logique et c’est à partir d’elle qu’on peut formuler des hypothèses. Néanmoins, il en oublie pas moins l’empirie et il attribue un rôle essentiel à la serendipity. C’est la découverte par chance ou sagacité de résultats que l’on ne cherchait pas. Il y a donc un va-et-vient entre la théorie et l’empirie.

  • Tous deux estiment l’importance de l’empirie pour le développement de travaux sociaux, et cela passe par les méthodes de recherche.

En science sociale, l’empirie est essentielle pour l’élaboration théorique (Bourdieu), pour la créativité théorique (Merton) et pour la théorie considérée comme le premier pilier de la production du savoir. Les méthodes ont aussi accès au terrain et elles sont le second pilier de la production du savoir. Ces méthodes rendent ainsi possibles l’accès au terrain.

Les éceuils à éviter en méthodes quantitatives[modifier | modifier le wikicode]

Dichotomie des méthodes et des techniques[modifier | modifier le wikicode]

Le terme de méthode vient du latin et signifie une direction qui mène au but ou un chemin à suivre. Cette notion n’est pas forcément claire. C’est au XIXème qu’il va obtenir une définition plus claire, à savoir un procédé ou une technique que l’on met en œuvre. Cela illustre la première tension qui se retrouve dans le métier du chercheur qui est souvent de substituer la compréhension. Cette compréhension des méthodes sous l’angles des méthodes est dangereux. Une compréhension technicienne ne rend pas compte du travail de construction et d’élaboration qui sont derrière tout travail de recherche. On a besoin de ce travail de construction et d’élaboration pour construire un objet de recherche. Cela va aussi influencer la manière dont on va regarder le monde social. Néanmoins, c’est souvent restreint en raison d’un faible budget. Derrière le choix d’une recherche, il y a un nombre élevé de contraintes. Si on prend les méthodes comme techniques, on ne se rend pas compte que les résultats découlent des choix du chercheur et donc, ce sont des constructions et non pas des statistiques « naturelles ». De plus, les méthodes nous écartent du chemin d’une vigilance critique à laquelle doit se soumettre tout chercheur. D’ailleurs, des innovations théoriques reposent sur des innovations méthodologiques.

  • Grâce aux méthodes quantitatives, on répond à un certain type de questions.

Dichotomie entre données et la construction statistique[modifier | modifier le wikicode]

Il n’y a pas de donnée qui se donnent à voir naturellement mais c’est toujours une construction du chercheur. Derrière les chiffres, c’est la même chose. Le terme de « donnée » veut étymologiquement dire « faire don », ce qui induit l’idée de données de recherche offerte aux chercheurs sur un plateau d’argent. A partir du 18ème siècle, les intellectuels rompent avec cette vision idéale pour conclure que les données correspondent avant tout à une construction du chercheur, construction sociale puisqu’elle est située dans le temps et dans l’espace. En effet, les débats sociaux, politiques, idéologiques… sont influents si bien que les données sont tout sauf données mais bien construites et mise en scène par le chercheur en fonction de l’époque et du lieu où il se trouve.

  • C’est pourquoi on parle de processus, la construction de donnée n’étant jamais définitivement terminée.

Dichotomie entre la statistique et les sciences sociales[modifier | modifier le wikicode]

Enfin, le passé commun des statistiques et des sciences sociales est à prendre en compte, bien qu’elles se soient progressivement différenciées puis institutionnalisées séparément. C’est pourquoi les statistiques ont dû importer des savoirs qu’il a fallu adapter au mieux pour l’usage nouveau qu’il en était lors fait. Par exemple, les chercheurs travaillent encore aujourd’hui sur le concept de base de l’échantillonnage, bien qu’il ait été complexifié depuis. Les statistiques se sont beaucoup développées si bien que maintenant, nous sommes dans un travail d’importation de connaissances depuis une autre discipline.

C’est pourquoi il est important de travailler sur les connaissances et leur histoire afin de mieux comprendre l’appropriation qu’il en a été fait. L’étude des méthodes est d’ailleurs possible uniquement sur la base de recherches spécifiques, comme l’explique Auguste Comte :

« La méthode n’est pas susceptible d’être étudiée séparément des recherches où elle est employée ; ou, du moins ce n’est là qu’une étude morte, incapable de féconder l’esprit qui s’y livre ».

En effet, il postule que les méthodes doivent être réfléchies en fonction du terrain d’enquête et que par conséquent, des méthodes abstraites, dénuées de tout fondements empiriques sont inutiles. C’est pourquoi les méthodes ne peuvent être développées que par le biais de recherches spécifiques. C’est également ce que plaide Pierre Bourdieu :

« Ceux qui portent un souci méthodologique jusqu’à l’obsession font en effet songer à ce malade dont parle Freud, et qui passait tout son temps à essuyer ses lunettes sans jamais les chausser ».

Unicité des buts, pluralité des chemins[modifier | modifier le wikicode]

Enfin, il ne faut pas penser que les méthodes qualitatives et les méthodes quantitatives sont opposées. Il existe une pluralité de méthodes, les méthodes quantitatives et qualitatives comme approches dominantes, mais également d’autres méthodes comme les méthodes exploratoires ou confirmatoires. Toutefois, chacune se différencie des autres au travers d’un aspect spécifique, comme les méthodes quantitatives reposant sur la statistique de base.

Histoire et développements des méthodes quantitatives en sciences sociales[modifier | modifier le wikicode]

On ne veut pas se laisser uniquement guider par les méthodes et les données. On n’a pas l’idée que les chiffres parlent d’eux-mêmes et qu’ils détiennent la vérité. D’autant plus, les observations ne sont pas suffisantes pour comprendre la réalité sociologique. Par exemple, les enfants de famille monoparentale aux USA réussissent moins bien leur parcours scolaire. Cela s’explique par différentes interprétations. Si on vise à trouver une hypothèse, il serait nécessaire de faire une comparaison avec l’Europe pour tenter d’en savoir plus.

  • Les chiffres ne parlent pas d’eux-mêmes et il est difficile de ne pas tomber dans ce piège surtout lors de grandes enquêtes.

Un grand nombre d’outils sont élaborés à l’extérieur des sciences sociales et cela pose problème. L’effet de cette externalisation est que les outils ne sont pas toujours adaptés aux problèmes.

  • Mise en perspective est nécessaire quant aux méthodes puisqu’elles construisent la réalité.

La relation entre les sciences sociales et les statistiques[modifier | modifier le wikicode]

On est face à un phénomène social complexe. La statistique donne des formules et des chiffres pour pouvoir interpréter la réalité. Sauf que les deux domaines sont intimement liés. Les sciences sociales et statistiques sont nées des préoccupations communes. Les statistiques, l’arithmétique politique et les mathématiques se sont développés puis, on voit émerger leur institutionnalisation sauf qu’au lieu de devenir une discipline spécifique des sciences sociales, elles se rapprochent des sciences mathématiques. Cela a des implications, à savoir que l’origine des statistiques ne peut être fixé à une date précise. Les données chiffrées proviennent de la Chine, d’Egypte et des Incas. En Europe, ces données deviennent centrales au XVIème et c’est à cette époque que les mathématiques commencent à dominer le monde. On commence à systématiser le phénomène de la nature et on souhaite la mesurer comme en astronomie. Quant aux statistiques, elles sont nées dans le contexte du XVIIème. A l’origine du mot, il y a le Staat et cela montre le lien entre la construction des Etats nations et le développement des statistiques. Du coup, compter les hommes et les ressources industrielles est central dans le processus de construction et de consolidation de l’Etat. La statistique descriptive était responsable de récolter des données économiques et démographiques de manière systématique.

Le contexte politique n’est pas le seul qui contribue au développement de la statistique. Le contexte scientifique est en explosion avec les mathématiques qui deviennent une discipline majeure des sciences. De plus, on est dans un contexte philosophique avec les Lumières qui apportent l’idée du progrès avec les sciences. Le contexte social et économique ; on est au début de l’industrialisation qui va apporter des changements profonds de la société. En même temps, l’industrialisation apporte des outils qui vont booster les statistiques comme l’imprimerie qui va permettre de diffuser l’information.

Empires, Etats et statistique[modifier | modifier le wikicode]

De plus, ces savoirs statistiques précoces sont différents de leurs préoccupations et de leurs domaines en fonction des différents Etats-nations où ils émergent. Ces savoirs sont d’origine et de formes différents selon les États et la manière dont ceux-ci sont construits et articulés dans la société. En Allemagne, la tâche principale est de connaître ces Etats, ces ressources et ses difficultés. On assiste à une tradition de description globale des Etats. En France, on souhaitait une administration forte et un pouvoir royal fort. Dans ce contexte, on souhaite avoir des statistiques descriptifs de l’Etat ; au service du pouvoir royal. En GB, on a un autre fonctionnement, à savoir qu’il y a une bourgeoise émergente qui est relativement autonome et du coup, la statistique vise à mesurer la population et le bien-être de la population (alcoolémie). Cela devient une statistique plus analytique qui essaie de comprendre ce phénomène et c’est focalisé sur des groupes spécifiques.

On est face à deux types de statistiques qui se développe :

  • Au service de l’Etat : aide à la décision politique avec une « comptabilité nationale » (ALL et FRA)
  • Au service de la société : montrer les inégalités et les difficultés sociales, exercer des pressions politiques (GB)

Dans les 2 cas, la statistique devient un instrument puissant qui sert comme en ALL et en FRA en tant qu’outil de rationnaliser la décision politique. Des décisions prouvées par les faits comme on pensait à l’époque et on développe la théorie des erreurs pour juger le degré de certitude d’un résultat trouvé. En GB, grâce à la statistique qui est au service de la société, l’arithmétique politique émerge. Elle est l’ancêtre des méthodes quantitatives puisqu’on commence à mesurer des phénomènes sociaux. C’est une constellation historique particulière qui favorise ce développement, marqué par des changements politiques et sociaux majeurs. Ces derniers sont combinés entre une bourgeoisie intellectuelle et plus autonome par rapport à l’Etat. Ce contexte provoque une curiosité intellectuelle pour comprendre la situation anglaise. Dans ce contexte, F. Bacon portait une vision humaniste et souhaitait améliorer la vision sociale de la société. Il avait une influence sur l’arithmétique politique car il prenait une observation rigoureuse dans toutes les disciplines, organisation systématique de recherche et une démarche inductive (qualitative) et il pensait toujours dans l’idée d’observation qui permettait selon lui de trouver la vérité. Encore, W. Petty est perçu comme le fondateur de l’arithmétique politique. Le principe de base de Petty était le suivant :

« La méthode que j’emploie n’est pas encore très commune car, au lieu de me servir seulement des termes, comparatifs et superlatifs, et d’arguments purement intellectuels, j’ai adopté la méthode qui consiste à s’exprimer en termes de nombres, poids et mesures ; et d’utiliser uniquement des arguments observables, et de considérer uniquement de telles causes comme ayant un fondement visible dans la nature ; laissant ceux qui dépendent d’idées variables, opinions, appétits intellectuels, et passions à la considérations des autres ».

Etude de la société et statistique[modifier | modifier le wikicode]

Arithmétique politique[modifier | modifier le wikicode]

Idée de base est passer par des observations quantifiées, rigoureuses et objectives. Donc on veut objectiver la réalité à partir de l’observation pour entrer dans le monde de la science. Avec cette démarche, l’anatomie sociale est utile pour cerner l’état de la population, la santé publique, alcoolémie et la criminalité au moyen d’enquêtes sociales. Le but de la recherche étant de découvrir des lois sociales par des observations neutres et des enquêtes. Donc on veut se rapprocher des sciences naturelles. On souhaite comptabiliser des phénomènes sociaux en découvrant des régularités et ce, en procédant par une démarche inductive dans une visée explicative.

Süssmilch était un pionner de la diffusion de l’arithmétique politique sur le continent : « observation des grandes masses est la voie de la connaissance des régularités de phénomènes paraissant aléatoires ».

Arithmétique : comptabiliser les phénomènes sociaux mais aussi tenter de les expliquer par l’inductif pour découvrir des régularités sociales, c’est-à-dire des lois sociales.

Puis, ces idées deviennent encore plus centrales et se développent. On assiste à une multiplication des descriptions sur toujours plus de groupes et de problèmes sociaux différents. Volonté d’entrer dans le domaine de la science par la production de vérité et d’information objective. Au sein de l’Etat, on se rend compte de la nécessité des statistiques dans tous domaines de l’activité des Etats : création d’offices statistiques et formation statistique des fonctionnaires pour répondre aux besoins de l’administration. Instauration de recensements réguliers et réflexion plus poussé sur la méthodologie, c’est-à-dire analyses et méthodes, innovations techniques pour collecter et présenter des données. On développe des questionnaires et des sondages ; la première utilisation du questionnaire date de la fin du XVIIIème quand Davis a mené une enquête sur le budget des travailleurs agricoles.

Sauf qu’il faut attendre encore 40 ans pour remarquer un début de volonté d’institutionnalisation des sciences sociales et de la statistique. Dans ce contexte se glisse l’idée de l’homme moyen développé par Quételet. On souhaite désormais étendre l‘usage des mathématiques à toute dimension de la société. Il note que pour beaucoup de phénomènes sociaux, les proportions restent stables dans le temps (suicide, alcool). Donc les phénomènes sociaux sont régis par des lois analogues à la physique et les méthodes statistiques permettraient de les découvrir en restant toujours dans une logique déterministe.

  • Idée centrale, c’est que l’homme moyen permet de caractériser et comprendre les lois régissant le système social. Donc les moyens deviennent des causes constantes tandis que les lois et les variations, des causes accidentelles. Quételet introduit les probabilités et les chances en sciences sociales.
  • Les sciences sociales et statistiques ont un destin commun, trouvé avec développement de l’arithmétique politique, se poursuit avec l’entrée toujours plus poussée de l’entrée des mathématiques.

Différenciation et institutionnalisation (fin 19ème)[modifier | modifier le wikicode]

Au terme de ce long processus, les statistiques s’institutionnalisent à la fin 19ème siècle, passant aussi par une complexification de l’outil, notamment les probabilités. C’est le début de la statistique moderne. C’est à ce moment-là que la statistique inférentielle, la régression, l’échantillonnage et les méthodes représentatives émergent, techniques toujours utilisées aujourd’hui. De plus, les biais cherchent à être compris et pris en compte pour qu’ils affectent au minimum les résultats obtenus. On assiste à la progressive séparation des diverses branches des sciences sociales, notamment avec Auguste de Comte, portant le projet de constituer la sociologie comme discipline à part et ce, en se basant sur la philosophie positiviste de Saint-Simon. 


Divorce consommé[modifier | modifier le wikicode]

On assiste alors au rejet de la mathématique sociale du passé afin d’adapter les mathématiques à la compréhension du social. En effet, la loi sociale, soutenue par certains chercheurs, fut vivement combattue par la majorité (Mill, Comte, Durkheim…). L’idée émerge alors que ce n’est pas les mathématiques qui pourront transformer la science du social en science dure. Pour Mill comme pour Comte, la sociologie est une science déductive et non inductive comme l’induisait la méthode chiffrée. Il s’agit dès lors de développer des théories au travers desquelles il est possible d’aller étudier le monde social. Max Weber, grand sociologue, explique que la sociologie se doit aussi d’être compréhensive, c’est à dire qu’elle est la science qui comprend par interprétation le monde social. Ainsi, la sociologie et la statistique se séparent. Malgré tout, les nombres restent utilisés dans les recherches sociologiques pour démontrer les faits avérés. C’est pourquoi on ne peut considérer ce divorce comme absolu. Toutefois, pendant des années, une véritable guerre a eu lieu entre les tenants des approches quantitatives et ceux des approches qualitatives. Aujourd’hui, cette opposition est révolue et les recherches sociologiques combinent alternativement les deux méthodes, chacune permettant de saisir et de comprendre des aspects différents de la réalité sociale.

Les chiffres ont ancré les sciences sociales dans les sciences. En effet, les chiffres ont permis aux sciences sociales d’acquérir un degré de scientificité, de positivisme leur permettant de prétendre à l’appellation de « sciences ». C’est aussi le chiffre qui a permis l’institutionnalisation de ces disciplines au sein des universités.

Un passé commun aux conséquences importantes[modifier | modifier le wikicode]

« Ancrage des sciences sociales dans les sciences »

  • Sciences sociales à l’image des sciences physiques
  • Arithmétique/Mathématique sociale : « Physique du social »
  • Philosophie positiviste (A. Comte) : Connaissance de phénomènes et de faits (≠science morale)
  • Moyenne, régularités, lois, probabilités

Logique de la démarche

  • Observation systématique
  • Objectiver des faits et phénomènes sociaux
  • Observation sur le grand nombre
  • Méthodes quantitatives : rôle particulier pour ancrer les sciences sociales dans le bastion des sciences

Développement des recherches empiriques[modifier | modifier le wikicode]

Développement sur sol étasunien et Ecole de Chicago (1920-1940)[modifier | modifier le wikicode]

Ce qu’il considère comme « données » sont les données chiffrées que l’on nomme « hard date » en opposition aux données issues des méthodes qualitatives, nommées « soft data ». Alors que les premiers débats sur les statistiques et ses premières avancées méthodologiques se développent en Europe, la guerre, entrainant la migration de nombreux penseurs, fera que la suite du développement des méthodes quantitatives se déroulera sur le sol étasunien. C’est le cas de Lazarsfeld, qui sera le détenteur de la première chair universitaire en méthodes quantitatives à l’université de Columbia. Premièrement, c’est l’Ecole de Chicago qui développe de grandes enquêtes sociales basées sur l’usage des méthodes qualitatives. Puis de nombreux chercheurs combinent les méthodes qualitatives et quantitatives pour mieux appréhender les phénomènes sociaux avant qu’une séparation nette n’intervienne. Paul Lazarsfled importera les statistiques dans les sciences sociales. En publiant son ouvrage majeur, « The people Choice », il illustrera l’importance de l’usage de ces méthodes en sociologie. C’est aussi à ce moment-là où le béhaviorisme se développe aux USA, théorie postulant que seuls les faits observables peuvent expliquer le monde sensible.

Demande forte de recherche en sciences sociales[modifier | modifier le wikicode]

Cet essor des méthodes quantitatives est dû à l’histoire. Après la seconde guerre mondiale, la demande pour comprendre ce qui s’est passé est énorme. Comment expliquer que l’Allemagne, pays de la culture, de la musique… est pu basculer dans cette horreur ? C’est également après la guerre que la psychologie expérimentée émerge, avec notamment Milgram et son expérience sur la soumission à l’autorité. En effet, les méthodes en sciences sociales doivent beaucoup à la psychologie. C’est aussi le moment où nait le sondage aux Etats-Unis, développant une méthodologie de constitution d’échantillonnage très fine avec pour but premier de prédire les résultats électoraux.

Enfin, le développement de l’informatique a joué un rôle important. Ce nouvel outil a fortement facilité le travail de dépouillement des sondages, en travaillant notamment sur de grandes bases de données. La démocratisation de l’informatique dans les années 1965, notamment avec des logiciels comme SPSS, a beaucoup aidé les méthodes quantitatives à se développer. On trouve alors les premiers ouvrages méthodologiques, notamment celui de Lazarslfed ou encore de Blacklock. Mais ce qui a le plus fait évoluer à la fois les méthodes qualitatives que les méthodes quantitatives, c’est la séparation nette qui avait été faites entre elles, devant perpétuellement surpasser sa rivale pour gagner en légitimité.

  • Toutefois, la colère gronde chez les sociologues pour qui l’usage exclusif des méthodes quantitatives dans les recherches était réducteur, voire catastrophique. Aujourd’hui, les méthodes quantitatives sont toujours prédominantes, surtout en politique et psychologie, bien que depuis les années 2000, la tendance est à une combinaison toujours plus équitable des deux approches.

Conclusion[modifier | modifier le wikicode]

  • Les méthodes quantitatives ont été utilisées en sociologie dans le but d’en faire une science à l’image des sciences naturelles d’où les termes parfois utilisés (corps social). 

  • Pour se faire, les chercheurs ont tenté de dégager des lois sociales absolues, comme la loi de la gravité de Newton. 

  • Cette crédulité totale sur le chiffre est toujours présente bien qu’il faille s’en méfier. 

  • Alors que de nombreux chercheurs des années 1950 étaient formés à la fois en statistiques et en sciences sociales, cette double formation est aujourd’hui très rare. C’est pourquoi un important travail d’importation des savoirs doit être fait de manière rigoureuse pour les adaptées à la discipline d’accueil.
  • Les méthodes quantitatives sont omniprésentes dans notre société, d’où l’importance de connaître ces méthodes pour développer un regard critique et échapper à l’illusion du chiffre.
  • Les méthodes quantitatives et qualitatives ont un passé commun.
  • Différenciation de ces deux branches avec l’intrusion des mathématiques. On ne parle plus d’arithmétique politique mais on l’appelle la mathématique sociale. La différence est l’idée de la probabilité et l’incertitude tout comme pleins d’outils techniques qui se complexifient.
  • Sciences sociales s’émancipent en établissant leur propre démarche, à savoir la déduction et puis appropriation des méthodes quantitatives au travers de la psychologie notamment.

Méthodes quantitatives et qualitatives : des épistémologies distinctes ?[modifier | modifier le wikicode]

Les méthodes vont au-delà de la simple récolte de données[modifier | modifier le wikicode]

L’épistémologie, à savoir la théorie de la connaissance s’intéresse à savoir de comment produire des connaissances scientifiques.

« Lorsque nous parlons de méthodologies « quantitatives » ou « qualitatives », nous sommes en train de parler d’un ensemble de postulats sur le monde social qui sont à la fois philosophiques, idéologiques et épistémologiques. Elles vont donc au-delà des simples techniques de récolte des donnée ». Cette citation de Rist explique que les méthodes quantitatives sont plus qu’une simple production d’informations qualitatives et qu’elles sont plus que des chiffres. Certes, il y a une production de données chiffres mais ce n’est que la pointe de l’iceberg. Avant tout, on construit des données et cela repose sur une conception particulière des sciences sociales et du monde et qui tente seulement de se rapprocher à la réalité. Avec n’importe quelle approche, les données récoltées montrent qu’un extrait de la réalité. Le plus souvent, les méthodes quantitatives prennent la démarche déductive en validant les données. Cette approche a une manière distincte de concevoir la réalité sociologique et de la reproduire.

Les méthodes reposent sur des postulats philosophiques spécifiques[modifier | modifier le wikicode]

Pour illustrer que les postulats et que les méthodes influencent notre regard, on prend comme exemple ces images. Les postulats des méthodes influencent notre regard, nos résultats et notre compréhension du monde social. Une description reste abstraite et on va l’illustrer par le biais d’un exemple. Pour sa thèse, le professeur a récolté des données de sondage et d’entretiens. Par la récolte de données quantitatives, les militants avaient la même vision du monde tandis qu’avec l’analyse qualitative des entretiens, chaque militant était singulier. Il y a donc des résultats distincts voire contradictoires entre ces deux types de données. Ainsi, les deux méthodes posent des questions distinctes et des buts différents pour dépasser cette frustration initiale.

Pilier structurant : quête des faits – positivisme

Quelles sont les lentilles particulières des types de méthode ?

Pour la démarche quantitative, le positivisme est un des piliers structurant. Le positivisme repose sur l’idée que la science peut atteindre des vérités et donc progresser dans la connaissance en observant des choses observables et en qualifiant ces choses comme réelles. Saint Simon ou Comte sont des représentants importants de cette démarche. A cette époque, les sciences sociales essaient de se rapprocher des sciences naturelles pour obtenir le statut de vraie science. Le positivisme qualifie ce qui est fondé sur l’expérience et sur l’observation comme des faits réels. Il s’oppose à la théologie et ce sont l’objectivité et la visibilité qui priment ; on veut se rapprocher d’une réalité objective et concrète. La théorie qui en découle se base uniquement sur la connaissance des faits et de l’expérience scientifique. A cette idée s’associe aussi que le chercheur reste neutre par rapport à son objet.

Le positivisme[modifier | modifier le wikicode]

Au 19ème, le positivisme est le standard de connaissance, c’est-à-dire que c’est le seul chemin « juste » de la science. C’est le cas pour les sciences naturelles sauf qu’à l’époque où Comte voulait élever les sciences sociales au rang de sciences, c’était la seule voie possible pour les sciences sociales. On voulait décrire les phénomènes sociaux comme des phénomènes naturels avec une description objective des faits (neutralité) et cet objectivisme est la voie unique des connaissances en passant par la régularité de phénomènes aléatoires (par exemple avec la criminalité pour voir si ce taux change dans le temps et pour prendre des mesures politiques par la suite). Pour l’arithmétique politique, on avait pour but de trouver des lois sociales au même titre que les sciences naturelles.

Pour Comte, « maintenant que l’esprit humain a fondé la physique céleste, la physique terrestre, soit mécanique, soit chimique ; la physique organique, soit végétale ou animale, il lui rester à terminer le système des sciences et d’observation en fondant la physique sociale. Tel est aujourd’hui le plus pressent besoin de notre intelligence. » Il a établi des caractéristiques dont les traces sont encore visibles. Les sciences sociales adoptent le langage des sciences naturelles, on commence à parler de variables, d’indices, de mesures, de l’expérimentation ou encore de systèmes causaux et bien d’autres concepts. Ce langage mais aussi la manière à conduire des recherches imitent le modèle des sciences naturelles.

Avec une démarche hypothético-déductive, on est dans une approche où la théorie prime, c’est-à-dire en construisant un modèle théorique puis en allant par la suite le confronter à la réalité. Par ce biais, on construit des outils de récolte de données qui sont informés par la théorie appliquée et qui laisse peu de place pour poser d’autres questions qui pourraient être importantes. Ce n’est qu’avec ce modèle que des connaissances peuvent être fiables et robustes, selon cette pensée.

  • A la base de cette démarche, on souhaite découvrir des vérités et atteindre l’objectivité. On voulait concurrencer le poids lourd des Eglises.

Problèmes spécifiques[modifier | modifier le wikicode]

Fortement inspiré par les sciences naturelles et cela génère des problèmes. Une des conséquences c’est que c’est un monisme méthodologique. Une seule approche est permise pour servir le monde social avec des méthodes et procédures de recherches des sciences naturelles qui sont importées dans les sciences sociales. Cette approche est problématique car l’objet d’études en sciences sociales n’est pas seulement abordable par des observations objectives puisqu’on regarde des individus et des groupes sociaux qui interagissent. Ceci est une particularité des sciences sociales qui nécessitent une autre démarche philosophique et méthodologique pour les appréhender. D’autres approches existent comme la démarche interprétative qui sont plus fiables.

Problème de l’empirisme ou le phénoménalisme : Le béhaviourisme veut analyser les comportements politiques des individus. Ceci est difficile en ne se basant que sur des phénomènes observables. La démarche positiviste exclut l’incorporation des notions métaphysiques comme l’expérience subjective par exemple. La construction du sens ou de structures invisibles sont exclues de la démarche scientifique. Mais comment expliquer l’abstention politique sans s’intéresser à la perception politique du citoyen ? De telles questions sont importantes actuellement où on voit des structures supranationales de plus en plus menacées comme l’UE.

Focus sur les régularités et la quête après les lois sociales. Si on se concentre uniquement sur les régularités, on néglige les variations. Si on dédit des lois sociales à partir de l’homme moyen comme Quételet, on écarte toutes connaissances sur des individus qui ne sont pas des hommes moyens. Par exemple, les salaires entre hommes et femmes ne sont souvent pas les mêmes. Donc on arrive à des conclusions qui ne sont pas vraies pour les uns et les autres. Si on ne prend en compte les variations, les lois sociales qui en découlent sont forcément erronées.

Déductivisme : Cette quête suite aux régularités et lois sociales est inscrite dans une démarche déductive pour trouver des relations causales. On développe des hypothèses en amont à partir de cadres généraux et théoriques qui sont ensuite testés empiriquement. L’approche déductive est la seule démarche scientifique à cette époque. C’était le chemin unique pour construire la connaissance et ça ressemble beaucoup à la démarche de Popper qui disait que les sciences ne pouvaient avancer que par validation/invalidation des paradigmes (Falsification des théories). Le problème de la démarche déductive, c’est que la recherche ne procède pas d’une manière linéaire mais plutôt circulaire. Ainsi, il y a des dimensions difficilement incluables dans la recherche. Dans la réalité, les théories s’élaborent aussi à l’aide de la démarche déductive.

Posture du chercheur : penser que la recherche et le chercheur sont neutres et objectives. Weber ou Popper pensaient que la recherche doit se distancier des valeurs et avoir une position neutre. Ils pensaient que la démarche scientifique est une démarche objective pouvant se distancier des jugements et de valeurs et que la recherche ne doit pas être contaminée par le profil personnel du chercheur. Sauf qu’une observation n’est jamais neutre car les chercheurs sont historiquement et socialement situés d’autant plus qu’ils appliquent des lunettes conceptuelles.

  • Le positivisme nous amène à une idée particulière de la science qui est fortement critiquée dès les années 1960.
  • Idée qu’il y a une seule et vraie méthode (monisme)
  • Idée qu’on observe uniquement des choses visibles
  • Phénomènes sociaux se comportement selon des régularités et que les lois sont identifiables
  • La démarche déductive est la seule voie scientifique

Déductivisme[modifier | modifier le wikicode]

A partir du modèle type du déductivisme, on récolte des données pouvant tester les hypothèses. Puis, l’analyse de ces données génère des résultats de recherche qui permettent de valider ou de réfuter des théories. Cependant, la réalité est nettement plus complexe et c’est le cas pour les processus de recherche qui sont moins linéaires que ce modèle. On est donc plutôt face à une circularité entre toutes ces cases.

Problèmes spécifiques[modifier | modifier le wikicode]

Dans une questionnaire ou entretien, on ne peut pas demander la classe sociale des citoyens. Ce qu’on demande c’est la profession, le fait d’avoir des responsabilités dans le travail ou sa propre perception de son appartenance de classe ou encore d’autres indicateurs. Par ce travail d’opérationnalisation, on peut avoir des résultats différents.

Autre problème de cette démarche est la volonté de mettre les concepts en relation, ceci avec l’idée des sciences naturelles. Or, hormis l’expérimentation, il est difficile d’évaluer empiriquement des relations causales pour des raisons évidentes : l’expérimentation en science sociale n’est souvent pas possible. En sciences sociales, on est souvent forcé d’argumenter théoriquement la direction de la causalité. Par exemple, est-ce que c’est l’intérêt pour la politique qui augmente la votation ? On ne sait pas exactement quel facteur influence l’autre. Heureusement, il existe des techniques pour arriver empiriquement à s’approcher d’une relation causale comme les panels d’une part ou les expérimentations d’une autre. Sauf que ces choses sont difficiles à mettre en place en raison de coûts ou de questions éthiques. Avec certains, on peut faire des corrélations.

La causalité est centrale dans la démarche quantitative, puisqu’il s’agit d’illustrer et d’expliquer un phénomène social. Cette volonté découle de la vision durkheimienne du monde social, selon laquelle les phénomènes sociaux doivent être traités comme des choses. Toutefois, il est impossible d’atteindre une causalité véritable, corrélation n’étant pas égal à causalité. Si on postule un lien de causalité entre X et Y, ce qui est réellement important, c’est la flèche ! Et donc le lien social qui relie deux éléments.

Un des points forts des méthodes quantitatives est la généralisation et donc l’idée qu’à partir des échantillons représentatifs, on peut tirer des informations sur l’ensemble de la population. Cette idée est importée des sciences naturelles sauf que cette force est surestimée. Dans la réalité, on est face à des échantillons spécifiques qui ont des biais influencés par le tirage d’échantillon mais surtout la manière dont les répondants participent. En science sociale, on utilise souvent l’étude de cas à la base de laquelle il est difficile de généraliser même avec une démarche quantitative. Une solution pour diminuer ce problème est de multiplier les ancrages empiriques et comparer les résultats similaires mais distants dans le temps et l’espace.

Multiplier les ancrages empiriques veut dire réplication. C’est un autre concept importer des sciences naturelles où la même expérience peut être facilement appliquée dans les laboratoires. Dans la perspective de la recherche quantitative, cette dimension est impliquée. La réplication permet d’être plus proche de la réalité sauf qu’une réplication parfaite n’est pas possible puisqu’on n’est pas dans des laboratoires en sciences sociales. La réplication est utile pour l’étude des variations et de regarder si on retrouve les mêmes processus sociaux dans des contextes étant différents.

Enfin, un dernier problème à prendre en compte lors de l’usage des méthodes quantitatives, c’est le fait que l’individu représente le point focal, l’unité d’analyse par excellence. Les faits sociaux sont donc déduits par le biais de l’agrégation de tous les individus. Mais selon Durkheim, cette approche est problématique puisque le tout est distinct de la somme de ses parties. En négligeant le contexte, les normes sociales en vigueur mais aussi les interactions, les résultats peuvent en être gravement affectés. Pour résoudre ce dernier problème, les chercheurs tentent actuellement de trouver un modèle d’opérationnalisation pertinent.

En conclusion[modifier | modifier le wikicode]

Les méthodes sont basées sur des présupposés qui orientent notre regard social et la manière dont la démarche est faite aujourd’hui est toujours influencée par cette approche. Cela permet d’avoir un regard réflexif. Tous ces points critiques touchent de loin tous ces chercheurs. La recherche quantitative connaît ses difficultés. Les problèmes de la généralisation, de la réplication et de l’individualisme sont aujourd’hui acceptés et fortement discutés. Il existe des réflexions et des mesures sur les processus de recherche.

En résumé :

  • Il représente toutefois le pilier des méthodes quantitatives, ayant permis leur émergence.
  • Le positivisme a grandement influencé la pratique des méthodes quantitatives en sciences sociales, bien que cette influence diminue avec le temps. On essaie actuellement de prendre en compte les interactions, les relations, les normes… pour complexifier les modèles et s’approcher toujours plus près de la réalité sociale. 

  • Bien que l’ambition première du positivisme fut la neutralité dans les méthodes, cela n’existe pas empiriquement. C’est pourquoi le chercheur doit prendre conscience de ses présupposés pour ne pas tomber dans une analyse de type « loi sociale ».
  • Le positivisme appliqué à la pratique de la recherche en sciences sociales entraine de nombreux problèmes à résoudre.
  • L’opérationnalisation est au centre de méthodes quantitatives. Il s’agit de créer des catégories au sein du monde social, de mesurer les phénomènes sociaux et d’y apposer des chiffres …
  • La démarche hypothéticodéductive, bien qu’aujourd’hui dépassée, a jouer un rôle prépondérant dans l’émergence de ces méthodes.
  • Il faut donc prendre en compte les forces et les limites de cette approche.

Traditions sociologiques[modifier | modifier le wikicode]

Méthodes qualitatives[modifier | modifier le wikicode]

Observation participant développée par Malinowski, les interviews non-structurées, les récits de vie ou des focus group ont introduit une plus forte variété dans le type de collectes de données que la démarche quantitative qui est plus uniforme (positivisme). Les méthodes qualitatives reposent sur deux piliers ; la quête du sens et l’analyse de structures invisibles. Le développement de cette approche se nourrit de réflexions critiques pré-existantes chez Comte, Sorokin etc. mais c’est dans les années 1960 qu’on retrouve une dimension plus critique des méthodes quantitatives. Les méthodes qualitatives reposent sur une autre conception de la réalité sociales grâce à des épistémologues qui ont décortiqué la démarche de recherche. On est face à un virage intellectuel important en défrichant les structures invisibles du monde social en prenant le point de vue du sujet. Il n’y a plus d’idée de la neutralité.

Interprétation des acteurs[modifier | modifier le wikicode]

Pour interpréter les acteurs, d’autres démarches que la démarche positiviste et quantitative sont nécessaires. Pour Weber, la sociologie est la science qui se propose de comprendre par l’interprétation l’activité sociale et par là, d’expliquer causalement ses causes et ses effets. Il voulait saisir le sens et la subjectivité de l’acteur et il se demande comment l’acteur comprend la situation sociale. C’est dans cette démarche que s’inscrivent d’autres auteurs comme Foucault ou Derrida.

Structures invisibles du monde social[modifier | modifier le wikicode]

La tradition wébérienne met l’accent sur l’interprétation tandis que la tradition phénoménologique a ses sources en Allemagne avec Hegel ou Husserl. Ce dernier propose un programme qui souhaite analyser les bases du monde social. La phénoménologie signifie de saisir par description l’expérience subjective du monde et des acteurs sociaux. L’étude des structures de sens et de construction que les individus ou groupes sociaux utilisent pur rendre le monde social intelligible est chargé de sens. Ce sont ces constructions qui permettent de comprendre le monde social, de se situer en tant qu’individus ou groupes puis d’agir en fonction de cette interprétation. C’est le contraire du béhaviorisme qui cherche des stimuli externes aux groupes et aux individus ainsi qu’aux observations visibles pour comprendre l’observation.

Interactionnisme symbolique[modifier | modifier le wikicode]

C’est une approche d’origine des sciences sociales et elle est fortement associées à George Herbert Mead. C’est une approche proche de la démarche wébérienne et de la phénoménologie. Pour Mead, il faut saisir la définition de la situation avant l’acte et ainsi comprendre l’interprétation que les individus s’en font. Il faut également saisir la définition comme acteur social en comprenant la définition et l’interaction. Ces interprétations changent en fonction des interactions sociales et en fonction des interactions entre les individus eux-mêmes.

Goffman montre comment la présentation de soi peut varier selon le cadre. Cela change en fonction des situations d’interactions. Les interactions transforment le sens.

Oppositions au positivisme[modifier | modifier le wikicode]

Beaucoup de chose oppose les méthodes qualitatives des méthodes quantitatives. Les méthodes qualitatives…

  • Postule que l’individu est pensant, et c’est cette subjectivité mais aussi l’intersubjectivité qui en découle qu’il faut saisir.
  • En effet, l’individu est en interaction constante avec lui-même et les autres, et c’est de l’intersubjectivité produite que découle l’action. Le but de la démarche est de comprendre les structures mentales subjectives des individus.
  • Le contexte joue un rôle important puisqu’il façonne l’interaction.

Ainsi, les méthodes qualitatives travaillent principalement sur le monde subjectif vécu par les acteurs sociaux. C’est pourquoi on adopte davantage une démarche compréhensive et interprétative. Toutefois, les méthodes qualitatives se sont distancées des postulats de Weber, selon qui il fallait réussir à appréhender le monde au travers des yeux des individus étudiés. La neutralité axiologique n’existante pas, la description des faits sociaux (à la Geertz) joue alors un rôle fondamental, tout comme les efforts de contextualisation, permettant de comprendre les acteurs sociaux dans leur milieu. Alors que les méthodes quantitatives sont à la traine sur ce point, les méthodes qualitatives permettent d’élaborer des concepts au fur et à mesure et donc permettent une meilleure compréhension des phénomènes dans le temps. En effet, la flexibilité théorique est au cœur des méthodes qualitatives (exemple : La Grounded Theory).

Logique de la démarche qualitative[modifier | modifier le wikicode]

Examiner les structures de sens, examiner ce qu’il y a derrière la réalité sociale. L’idée est également à l’opposition du regard neutre de regarder avec les yeux de celui qui est étudié, c’est-à-dire étudier les actions et les normes en partant de la perspective des gens qu’on étudie. Il n’y a pas de processus de distanciation entre le chercheur et son objet d’étude mais il doit s’immerger dans la réalité de son objet de recherche. Pour faire émerger les structures de sens, il nous faut une description détaillée du phénomène social qu’on veut étudier. On veut déterminer les structures de sens. On définit les contextes pour des systèmes d’interprétations et d’actions. C’est une démarche holistique qui veut expliquer la situation en la situant dans son contexte social, culturel et historique.

Elle est moins guidée par la théorie. Au contraire, on refuse d’élaborer un cadre théorique strict mais on le voit comme un guide se structurant tout au long de la recherche. On ne veut pas guider une vision du monde au départ mais on la laisse émerger. C’est une structure théorique plutôt ouverte et visible. Cela permet une certaine liberté dans la façon d’observer les phénomènes sociaux. Ceci est également le cas pour les concepts qui ne sont que rarement définis au début de la recherche mais sont établis dans le cours de la recherche.

Problèmes et limites[modifier | modifier le wikicode]

Analyse et l’interprétation montent le cadre donc des théories pouvant nous amener vers un but précis. Il y a un risque d’éparpillement et on risque de refaire la même chose et de se noyer dans un vague terrain d’information. Idée de décrire de manière détaille la complexité sociale, cela nous amène à exagérer et à se perdre dans un descriptivisme social où on oublie le but de chercheur, à savoir d’expliquer et de comprendre. De plus, le fait que le chercheur n’est pas guidé par des théories est un mythe. Tout chercheur est guidée par des théories. L’idée d’absence théorique est ainsi un mythe.

Reproduction de la complexité : descriptivisme / excès d’empirisme on peut mieux décrire les choses. En analysant les attitudes d’une personne, on pose des indicateurs. Ou lorsqu’on fait des entretiens, on a plus d’informations. Donc c’est plus détaillé. Sauf qu’on a trop d’informations et on reste dans le descriptif.

Explication : on peut mieux expliquer le processus sauf qu’on se perd dans l’explication.

Mythe du « chercheur enfant » : le chercheur est aveugle, sans théorie préalable. Il y a l’idée qu’on peut venir libéré de quelconque théorie préalable sauf que cela n’est pas possible en tant que tel parce qu’on est toujours guidé d’une manière ou d’une autre.

Généralisation : La généralisation représente la préoccupation centrale des méthodes quantitatives, bien qu’elle soit limitée. En effet, il serait abusif de généraliser des conclusions à une population entière sur la base d’un échantillon régional par exemple. Pour éviter ce type d’abus, les chercheurs multiplient les ancrages empiriques, permettant d’identifier de possibles variations entre les différentes mesures sur des territoires différents, permettant dès lors de mieux appréhender les phénomènes sociaux.

Conclusion[modifier | modifier le wikicode]

Les méthodes qualitatives et quantitatives reposent chacune sur des piliers différents. Etant très différentes et permettant d’appréhender le monde social au travers de lunettes épistémologiques différentes, le terrain n’est pas du tout appréhendé de la même manière par ces approches. Toutefois, on ne peut conclure à une réelle opposition entre elles. Pour de nombreux chercheurs, ces deux méthodes doivent se compléter pour offrir à voir une réalité plus complexe en se posant des questions différentes, caractéristiques de chacune de ces approches.

Pratiques de la recherche et causalité : théorie et empirie sous tension[modifier | modifier le wikicode]

Pratiques de la recherche[modifier | modifier le wikicode]

Ces pôles nous aident à prendre une distance critique avec notre objet. Ces pôles ne sont pas forcément dans la tête de tout chercheur ou tout étudiant. Ces pôles sont des espaces de recherche posant des questions spécifiques pour avoir un projet de recherche cohérent. Il demande au chercheur à se questionner différemment. Les mêmes pôles existent pour la méthode quantitative ou qualtive puisque les deux sont soumises aux mêmes types de questions sauf que les pôles sont plus au moins importants dans l’une ou l’autre démarche.

Quatre pôles structurent la recherche[modifier | modifier le wikicode]

  1. Pôle épistémologique -> pertinence de l’objet et de la question de recherche. On se pose des questions comme « pourquoi faut-il répondre à cette question ? Qu’est-ce que ça nous apporte comme pertinence ? Pourquoi c’est un problème social ?
  2. Pôle théorique -> Explication/compréhension. Permet de conceptualiser les concepts et les mettre en relation. Il permet de délimiter l’objet de l’étude lui-même et les causes explicatives en plus de mettre en amont un ensemble de facteurs pour expliquer le phénomène à expliquer. Ceci se fait par la formulation de l’hypothèse.
  3. Pôle méthodologique -> Cohérence : définir le dessin de recherche et le cadre d’analyse. Il assure cohérence entre le pôle théorique et technique. Il peut être enrichi par notre propre lecture. Il permet par la suite de tester nos relations causales.
  4. Pôle technique -> Faisabilité : Il demande comment on va faire notre collecte de données ?
  • Chaque pôle se réfère à une étape distincte de la recherche et ce sont des moments analytiquement séparés mais en réalité inséparable. Il y a un va-et-vient constant entre eux puisque leur existence et conditionnée par celles des autres.

Implication de l’interdépendance des pôles[modifier | modifier le wikicode]

Les choix méthodologiques découlent du problème posé antérieurement et notamment du cadre théorique élaboré. De plus, les choix techniques découlent du cadre méthodologique élaboré ainsi que du problème et du cadre théorique. Ainsi, les choix méthodologiques sont sous contraintes des pôles antérieures et des connaissances préalables du chercheur.

Pensée causale : au cœur de la démarche quantitative[modifier | modifier le wikicode]

La causalité se pose d’une manière transversale pendant tout le processus de recherche. On a déjà vu apparaître cette question à plusieurs endroits dans les pôles de la recherche. La causalité est au centre des recherches quantitatives. On essaie donc de développer un outil statistique qui nous permet de mettre en évidence des structures sociales. On est dans une logique positiviste importé des sciences naturelles voulant expliquer des phénomènes visibles comme la criminalité. On veut donc mettre en évidence des causes sociales. Tandis que dans les méthodes qualitatives, on veut générer un ensemble d’explications probables ou potentielles. On délimite des causes dans le pôle théorique. En d’autres termes, on a la recherche d’un effet d’une variable indépendante sur la variable dépendante (du X au Y). A cette logique se pose plusieurs problèmes étant liés à cette logique. Il y a des problèmes philosophiques qui questionnent la possibilité de pouvoir trouver des causes universelles par exemple. Un modèle causal exige de contrôler la causalité et de mettre en évidence la structure sociale. Ceci n’est pas toujours facile et parfois même, ce n’est pas faisable. Finalement, il y a des problèmes techniques parce qu’on ne peut pas contrôler toutes les causes concurrentes possibles.

Où est le problème ? La tension entre théorie et empirie[modifier | modifier le wikicode]

On est face à une tension entre le langage théorique et celui de la recherche. Ceci est bien résumé par la citation de Blalock : « Si X est la cause de Y, nous avons en tête que X produit un changement de Y et non simplement qu’un changement de X est suivi, ou associé, à un changement de Y ». La logique de la pensée causale veut qu’on évalue l’effet de X d’une variable ou de plusieurs variables indépendantes sur Y, à savoir une variable dépendante. Par exemple l’effet du niveau d’éducation sur la participation politique. Dans le langage de la théorie, on va utiliser des termes comme causes, poids ou rôle d’une variable sur l’autre. Dans la recherche empirique, si on veut tester ces relations, on parle de co-variation ou de corrélation. Si on parle de co-variation, on parle d’une variation d’un changement en même temps ou si corrélation, on parle d’une association d’une variable à une autre mais on ne parle pas de sens. Du coup, ni la corrélation ni la co-variation sont des causes. On pourrait admettre que la pensée causale se situe uniquement au niveau théorique et qu’on ne peut pas le tester au niveau de la recherche empirique. Sauf qu’Einstein n’est pas d’accord avec cette affirmation puisque « correlations does not prove causality ». Pourquoi est-il difficile d’identifier les causes ? Il y a 2 raisons majeures à cela :

  • Asymétrie temporelle entre la cause et l’effet. Forcément, la cause doit venir avant les faits. Si on veut évaluer la présence des immigrés sur la xénophobie, il faut trouver un endroit où il y a une présence immigrée antérieure à un renforcement d’attitude xénophobe sinon on ne peut pas dire qu’il y a causalité. Pour résoudre ce problème de temporalité au niveau empirique, le dessin de recherche doit incorporer cette notion du temps. Idéalement en mesure de 2 temps minimum sauf que cela est difficilement atteint. Par exemple les sondages se font souvent en un seul moment et les s sont relativement rares car très couteux. On peut encore se rapprocher à cette idée du temps avec certaines astuces telle que le fait de poser des questions sur le passé. L’autre astuce est de se sauver avec la réflexion théorique, en expliquant théoriquement ce qui vient avant ou après.
  • Contrôle de toutes les causes concurrentes : pour prouver qu’une cause génère un effet, il faut contrôler toutes les autres causes possibles en éliminant celles qui peuvent établir une relation entre une variable indépendante et une variable dépendante. Il faut en plus maîtriser totalement l’environnement et travailler avec système clos qui est libéré de toutes les causes concurrentes.

Exemples : Si on veut examiner l’effet des campagnes sur la participation électorale, on est face à un postulat causal au niveau théorique sauf qu’on ne va jamais trouver toutes les causes structurelles.

Par conséquent, on peut prouver une causalité seulement dans un système fermé selon Russel ou Heisenberg. Un système isolé nous permet de contrôler toute autre cause concurrente et de varier seulement la cause qui nous intéresse. Sauf que c’est très difficile en sciences sociales.

  • L’asymétrie temporelle est un problème soluble soit par l’introduction de la notion du temps comme dans les études de panel ou par le choix de dessin expérimental. Sauf que ce type d’étude n’est pas toujours faisable puisque c’est très cher. Il reste alors l’appui théorique en argumentant logiquement la causalité.

Une possible solution : la reconceptualisation de la cause[modifier | modifier le wikicode]

Le contrôle de toutes les causes concurrentes et l’aspect le plus difficile à réaliser parce qu’on ne peut pas isoler complètement un système et de déterminer toutes les causes concurrentielles. Donc la causalité au sens strict du terme ne s’applique pas à la recherche. Sauf qu’on est face à un problème insoluble. Comme on ne peut pas cerner la causalité au sens philosophique du terme et donc on ne peut pas tester empiriquement des lois sociales on est censé reconceptualiser la causalité au sens étroit du terme et on parle d’une causalité limitée. Selon Simon, on doit conserver le modèle de cause en modèle simplifié. La meilleure solution est de partir avec un nombre fini de causes qui sont en opposition avec la philosophie. Sauf que ce modèle ne peut jamais être complètement faux au sens philosophique du terme. Cette causalité limitée peut être visible à différents endroits de la recherche ; sur le niveau théorique avec les hypothèses, en statistiques, avec les termes d’erreur et en méthodologique, avec l’expérimentation.

Comme au niveau théorique, une relation entre deux variables ne peut pas être analysée empiriquement et on doit donc émettre des hypothèses simplifiées sur la relation entre deux variables. Donc l’énoncé causal est purement hypothétique. Les phrases sont formulées : « si toutes les causes connues sont égales, alors il y a un effet de campagne sur la participation électorale ». C’est la solution théorique. Au niveau empirique, on peut construire une causalité limitée avec l’introduction des termes d’erreur. Cela se fait avec les analyses multiples comme la régression : « Quand un facteur X prédit Y, il peut toujours y avoir d’autres causes qui prédit … ». Cela prend en compte la variation de la variable dépendante qui n’est pas causée par la /les variables indépendantes.

Finalement, la logique d’expérimentation nous permet d’établir une causalité limitée. L’idée derrière est la création d’un système isolé ce qui n’est pas forcément possible en sciences sociales parce qu’on est tout simplement rarement dans un laboratoire. Toutefois, on peut voir dans la recherche qu’il y a des expérimentations qui essaient de se rapprocher de cet idéal. Par exemple, si on veut évaluer l’effet de la lecture d’un journal dans la formation des opinions pendant une campagne électorale, on peut s’approcher d’une situation d’expérimentation en créant un groupe A et un groupe de contrôle B. Sauf que les personnes peuvent être impactés par d’autres causes externes. Ainsi, l’expérimentation reste difficilement applicable et on doit rester dans un modèle hypothétique.

  • Un modèle (causal) restera toujours une représentation simplifiée de la réalité.

Difficulté dans l’élaboration de modèles causaux[modifier | modifier le wikicode]

Il faut sélectionner les causes qu’on intègre dans notre modèle en choisissant celles qui sont les plus déterminantes. Ainsi, on parle des causes principales qui sont celles qui sont les plus fondamentales. Puis, il faut identifier les causes concurrentes qui pourraient être concurrentes à notre explication. On parle aussi de variable de contrôle qui signifient la même chose. Ces causes, on les trouve souvent dans la littérature. Avec toutes ces causes concurrentes, il faut faire un choix qui va influencer notre résultat. Ce choix consiste à éliminer certaines causes pour avoir un modèle théorique faisable. Le plus grand danger dans ce processus de sélection, c’est la création de fausses relations. Par exemple, on fait un modèle théorique où on prend le sexe et la participation politique. On trouve que les hommes participent plus que les femmes sauf qu’on a oublié de prendre en compte une variable explicative. Elle va éliminer notre thèse principale ; la participation politique est surtout influencée par le niveau d’éducation et la classe sociale. Si on intègre ces deux variables dans une régression, on ne trouve plus de relation entre sexe et participation politique.

Difficulté de l’élaboration de modèles causaux[modifier | modifier le wikicode]

On peut expliquer un problème social en trouvant toutes les variables. C’est le cas dans les méthodes qualitatives. La seconde approche est d’essayer d’expliquer l’effet d’une cause sur un effet. La différence entre les deux approches est que dans le deuxième exemple, on est dans une logique de sélection de causes au sein d’un modèle théorique. On prend un nombre limité de causes.

Il existe différents types de causes :

  • La cause principale : C’est la cause que l’on postule influencer le plus un phénomène donné.

  • La cause concurrente : C’est la cause qui peut influencer également le phénomène étudié mais dont on postule qu’elle est moins prégnante que la cause principale.

  • La cause fallacieuse : Alors que l’on pensant que X influençait fortement Y, ayant identifié une co-variation, il s’avère que c’est une variable cachée, Z, qui influence en réalité Y. Il s’agit donc d’une cause fallacieuse.
Par exemple, on a longtemps pensé que ce qui faisait que les femmes votaient moins que les hommes, c’était leur genre. Toutefois, on a compris plus tard qu’en vérité, ce qui influençait le plus, c’était le niveau d’éducation, qui variait également selon le genre !

Cause et théorie[modifier | modifier le wikicode]

On dit que X a une influence sur Y sauf qu’il ne faut pas oublier de comprendre et d’expliquer ce lien social. Il faut toujours essayer de comprendre la flèche sinon on pourrait créer des artefacts ou de fausses relations. Quand on parle du niveau d’éducation qui affecte la participation des individus, parle-t-on des ressources intellectuelles ? d’un sentiment de légitimité ? que cela peut-il dire ? Pour ne pas tomber dans le positivisme sauvage (ce que je vois est parce que je le vois), la théorie est cruciale pour comprendre ce lien et non pas simplement le constater.

Conclusion[modifier | modifier le wikicode]

Le monde réel est hors de notre portée. On ne peut pas tester des relations causales au sens strict du terme. Ainsi, le chercheur doit construire son objet de recherche. Il passe d’un objet perçu à un objet de connaissance. On construit notre objet de recherche avec des lunettes méthodologiques et théoriques. D’ailleurs, on travaille avec des objets interactifs puisqu’ils peuvent se transformer. On doit prendre en compte l’asymétrie temporelle, on doit contrôler les causes concurrentes. Finalement, on a vu qu’on est plutôt dans des systèmes de co-variations et non dans des systèmes de causes.

Les Dessins de recherche ou comment maîtriser la causalité ?[modifier | modifier le wikicode]

Pour saisir l’idée des dessins de recherche, il faut comprendre deux notions clés sur laquelle la démarche causale est basée ; l’idée de la variation et celle de la comparaison. L’étude de la variation veut saisir la question suivante : comment la variation de X est associée à la variation Y ?

  • Exemple : xénophobie : effet de la présence immigrée a un effet sur la xénophobie. Donc l’idée c’est que la présence d’immigré fait varier des facteurs de misanthropie. Sauf qu’il faut prendre différents cas où il y a une variation du degré de présences d’immigrés pour voir si la xénophobie change en fonction de ces variations.

Selon Durkheim, la variation ne peut être faite sans comparaison. C’est le cas pour la démarche quantitative et qualitative. Ce n’est qu’en comparant des Etats-nations qu’on peut évaluer un modèle de citoyenneté par rapport à la pression migratoire.

Le dessin de recherche est important pour maîtrise la causalité. Ce n’est pas toujours évident de parler de dessins de recherche de manière théorique. Comme pour chaque concept, il existe plusieurs définitions. On peut distinguer entre une définition plus large et une définition plus étroite :

  • Large : elle englobe tous les enjeux impliqués dans la planification et l’exécution de la recherche. Ça part de la construction de la problématique (pôle épistémologique) jusqu’à la présentation des résultats de recherche (englobe tous les pôles de recherche).
  • Etroite : manière dont le chercheur va écarter ou maîtriser les hypothèses concurrentes. C’est le cœur du pôle méthodologique. Il s’agit d’établir un plan d’exécution de la recherche pour exécuter le plan de recherche. Le dessin de recherche doit répondre à la manière dont on va contrôler.

Les dessins de recherche sont cruciaux car ils permettent de situer le chercheur dans le volet empirique de sa recherche. Il permet une articulation entre la théorie et l’empirie ainsi qu’une articulation entre le pôle épistémologique et théorique. Les dessins d’une recherche sont centraux du pôle méthodologiques : comment on procède pour tester nos hypothèses ? Comment maîtriser notre système causal ? La notion de contrôle signifie comment on va maintenir constantes les autres causes afin de déterminer le poids de la cause déterminée.

Exigences des dessins de recherche[modifier | modifier le wikicode]

Pour que les résultats obtenus soient le plus fiables possible, le chercheur doit :

  • Contrôler la causalité en s’assurant d’une asymétrie temporelle et d’une clôture maximale du système. Il est nécessaire de maintenir constantes les causes concurrentes et ce, en élaborant par la connaissance un certain nombre de variables de contrôle.
  • Choisir un dessin approprié en maîtrisant au mieux la causalité. De plus, le dessin de recherche sert également à mettre à l’épreuve les modèles théoriques construits par le chercheur et à assurer la faisabilité de la démonstration empirique.

Analyse de la co-variation[modifier | modifier le wikicode]

  • Présuppose une logique de comparaison (Durkheim)
  • Comparer entre groupes
  • Comparer à l’intérieur des groupes

Deux logiques de contrôle : deux chemins possibles

  • Contrôle externe : dessins expérimentaux avec une comparaison entre groupes
  • Contrôle interne : dessin corrélationnel avec une comparaison dans un groupe

Contrôle externe[modifier | modifier le wikicode]

Il applique un contrôle externe, c’est-à-dire qu’on veut maintenir constantes les autres variables ou les causes concurrentes. On est dans logique de comparaison entre groupes et cela nécessite que le groupe soit identifiable en amont. Ici, c’est une logique de l’éprouvette comme dans un laboratoire où il faut dessiner un groupe expérimental qui a ce traitement et un groupe de contrôle qui n’a pas ce contrôle. L’attribution d’un groupe reste toutefois aléatoire. L’idée ici est de maîtriser la causalité ex-ante, c’est-à-dire avant l’analyse de données. Les analyses vont être centrées sur les cas ou les groupes. Pour mener une expérience, il faut que le groupe soit clairement identifiable en amont. Par exemple avec l’immigration et les abus xénophobes, dans une logique d’un dessin expérimental, on devrait comparer des cantons avec une forte/faible population migrante.

Exemple

  • Connaissance des religions et des philosophies conduit-elle à une plus grande tolérance à l’égard de l’altérité ?

On peut prendre deux groupes distincts identifiables (groupe de contrôle et groupe expérimental). Donc on peut comparer les groupes entre eux dans la logique du dessin de recherche. On identifie deux groupes distincts sauf qu’on peut en même temps maintenir constants d’autres facteurs (la même école, la même classe, le même âge…). Au contraire, si on veut saisir les influences de l’usage du vote par internet ou par correspondance, sur la pratique du vote, on ne peut pas identifier en amont les utilisateurs d’un ou de l’autre usage donc on doit appliquer une autre logique.

Contrôle interne[modifier | modifier le wikicode]

Cette autre logique est appliquée par le dessin corrélationnel. Au lieu de comparer entre groupe, on fait un contrôle dans le groupe, c’est-à-dire le contrôle interne en faisant varier aléatoirement les variables. Dans le dessin expérimental, on essaie de contrôler un maximum de paramètres tandis que dans le dessin corrélationnel, on veut libérer les paramètres. Les groupes ne sont pas identifiables en amont donc pour construire notre échantillon, on tire au sort des observations. On garde l’aspect aléatoire pour garder l’effet spécifique de chaque variable indépendante. Au lieu de comparer des groupes, on prend dans l’analyse toute la population et on introduit toutes les variables indépendantes. Donc on ne regarde pas seulement l’effet d’une variable indépendante sur une variable dépendante mais on introduit toutes les variables.

Dans la logique du dessin corrélationnel, on maîtrise la causalité ex-post, c’est-à-dire au niveau des analyses. Les analyses ne sont pas centrées sur les cas mais sur les variables.

Exemple :

  • Est-ce que le soutien électoral au parti d’extrême droite, est-il lié au statut économique de la personne, à son rejet des élites politiques ou à ses attitudes à l’égard des autorités ?

Ce qu’on va faire, c’est qu’on va prendre toute la population (ensemble des votants) et faire varier cette variable dans l’ensemble de la population. Cela va nous permettre ensuite de voir si le statut économique est lié par exemple. On va appliquer une logique de comparaison à l’intérieur du groupe en évaluation la relation entre les variables.

Deux chemins : contrôle vs aléatoire[modifier | modifier le wikicode]

Il y a donc deux chemins pour maîtriser les variations et maîtriser les systèmes de causalité. On peut soi maîtriser la causalité avant les analyses et la comparaison dans le groupe. Ou bien, on ne peut pas identifier les groupes en amont donc on mise sur des relations entre variables en s’approchant des causalités au niveau des variables. Ce sont des chemins opposés :

« L’aléatoire est dans un sens le processus opposé du contrôle. Tandis que contrôler veut dire maintenir la valeur de certaines variables constantes, l’aléatoire veut dire libérer la valeur » (Spector)

Sauf que cette distinction n’est pas toujours décisive. Dans la réalité de la recherche, on peut retrouver ces deux chemins dans un dessin de recherche.

Contrôle externe[modifier | modifier le wikicode]

Ces groupes peuvent comprendre différentes choses telles que des individus, des Etats etc. Le dessin expérimental est le contrôle de base de la causalité. C’est rare que ce soit possible d’avoir un tel dessin en science sociale. Néanmoins, on voit de plus en plus l‘utilisation de dessins expérimentaux. Le chercheur va manipuler artificiellement une/plusieurs variables dans un groupe. Puis, il évalue l’effet de cette variable entre les deux groupes. La différence que le chercheur peut trouver entre ces deux groupes, lui permet de tirer une conclusion sur l’effet de la variable indépendante sur la variable dépendante et donc il ne doit pas contrôler les variables concurrentes. C’est l’idée qu’on a deux éprouvettes contenant la même solution liquide, puis on les compare et on étudie leurs effets. Les principes ou les conditions de base d’un dessin expérimental sont :

  • Les groupes soient composés de la même manière. Le groupe expérimental et le groupe de contrôle doivent avoir la même composition. Il ne doit pas y avoir de variations entre eux. Pour évaluer une variation sur une variable, il faut obtenir les autres variables constantes sinon on ne peut pas évaluer les effets de la manipulation et donc de la causalité. Ainsi, l’effet qu’on observe pourrait être dû par d’autres variables.
  • Pour avoir des groupes identiques, il faut procéder à un tirage aléatoire. L’idée derrière est qu’une allocation aléatoire est le seul moyen d’avoir un groupe identique parce qu’on ne connaît par les caractéristiques de chaque cas.
  • Puis, on peut procéder à la manipulation d’une/plusieurs variables indépendantes. Cela permet d’asseoir cette variable sur le groupe expérimental. C’est pour cela que l’expérimentation est privilégiée par rapport à d’autres dessins de recherches. Ainsi, on a une base solide.

La logique[modifier | modifier le wikicode]

Exemple : Si un chercheur souhaite évaluer l’influence de l’information quant à l’écologie sur le vote vert des individus, il sépare des individus en deux groupes, auxquels il a préalablement demandé quelles
étaient leurs inclinaisons à voter écologiste.

Ensuite, le chercheur donne des informations à l’un des groupes, alors que l’autre reste neutre. Le chercheur finit l’expérience en demandant, suite à cette manipulation, quelle est l’inclinaison des individus de chaque groupe à voter écologiste. Sur le tableau (fictif), on voit que le lien est vérifié puisque les individus ayant obtenu de l’information se déclare prêts à voter écologiste bien davantage que le groupe n’ayant pas reçu d’information. Toutefois, on ne sait pas si cette inclinaison durera dans le temps. Il est aussi possible de tester l’influence de plusieurs variables, comme l’information « papier » et l’information directe (des individus nous expliquent, parlent…).

Un autre exemple de ce qu’est un dessin de recherche expérimental (contrôle externe) est l’expérience de Milgram portant sur la soumission à l’autorité.

Dessin expérimental : ses forces[modifier | modifier le wikicode]

On arrive presque à fermer un système et c’est le dessin de recherche privilégié en termes de causalité. Il a une très forte validité interne au sein de la recherche parce qu’on a un contrôle sur l’intervention et ils ne sont pas coûteux parce qu’on a besoin d’un petit échantillon.

Ses problèmes[modifier | modifier le wikicode]

Il a des faiblesses :

  • La faisabilité : pas toujours facile de manipuler une variable indépendante.
  • La même composition du groupe n’est pas évidente.
  • Possibilité de généralisation : beaucoup de recherche expérimentale ont une faible validité interne. Si on veut l’appliquer à la validité externe, c’est plus difficile. Souvent, les échantillons utilisés ne sont pas représentatifs. Les individus réagissent différemment dans un contexte de laboratoire que dans un cadre naturel.
  • On doit faire face aux problèmes éthiques : les règles de base sont que la participation doit être volontaire, les participants doivent être informés, on ne doit pas faire du tort aux participations et on doit respecter les participants. Sauf que souvent les expérimentés ne connaissent pas le but de la recherche ou ils ne sont que vaguement informés pour ne pas biaiser leurs comportements.

Dessin quasi-expérimental[modifier | modifier le wikicode]

Le principe de comparaison entre groupes est maintenu sauf que ce dessin se déroule en dehors du laboratoire. Le rôle du chercheur est aussi différent car il n’y a pas de manipulation du chercheur puisque le changement intervient naturellement. Il doit avoir la caractéristique de séparer clairement deux groupes d’individus. On retrouve la logique du groupe expérimental et la logique du groupe de contrôle.

On ne peut pas manipuler des variables sont leurs modalités dans la nature. La notion de la temporalité est centrale ici. Ce type de dessin est particulièrement adapté pour les changements tel que des changements de valeur entre les générations ou les changements liés au parcours de vie (un enfant, changement d’études etc). Ce dessin peut également prévoir un changement dans l’espace tel que l’étude d’Ingelhart qui a montré qu’on a trouvé des fonctions distinctes en fonction de la santé de l’Etat.

Expériences naturelles[modifier | modifier le wikicode]

On doit prendre la situation existante. Ici, le contrôle est moindre que dans la situation expérimentale précédente. Ces écoles peuvent être situées dans des quartiers ayant des niveaux économiques différents ou les enseignements peuvent varier donc on n’a pas l’entièreté du contrôle.

En prenant un exemple réel d’une expérience naturelle, on voulait vérifier l’accès à la citoyenneté sur la mobilisation de l’extrême droite. Ils ont fait une comparaison entre pays (comparaison dans l’espace), ils ont catégorisé les différentes conceptions de la citoyenneté et ils ont étudié les pays en Europe pouvant être classés dans ces différentes cases. Puis, ils ont tiré des exemples sélectionnés pour l’analyse et donc ils les ont comparés. C’est un exemple de comparaison dans l’espace. Ils ont récolté des données pendant 10 ans et ils voulaient être sûrs que cette classification soit sûre sauf que ce n’était pas en lien avec la question de recherche. Il faut toujours refaire le lien avec la question de recherche. La logique ici est simplement la comparaison dans l’espace.

Nécessité d’avoir des données temporales et spatiales :

Temps longs : un siècle

Espace : pays européens

Unité d’analyse : vote des individus

Dessin comparatif[modifier | modifier le wikicode]

Quais comme un dessin expérimental. La comparaison est ici centrale dans sa logique ; elle peut se faire dans l’espace ou dans le temps. Sa place parmi les autres stratégies de recherche, dans une recherche qualitative, on a beaucoup de variables avec peu de cas et avec la méthode quantitative, c’est l’inverse. Tandis que la recherche comparative est située théoriquement au milieu.

Dessins longitudinaux[modifier | modifier le wikicode]

Un cas spécifique de la comparaison dans le temps. On est toujours dans des dessins quasi-expérimentaux. Ils sont de plus en plus en vogue dans les sciences sociales. Il y a 3 types dessins longitudinaux :

  • Panel : la spécificité est la comparaison du même groupe dans le temps. On compare le même groupe à des moments différents. Les principes de base sont qu’on utilise les mêmes échantillons d’individus. L’intervention entre la première et la deuxième fois est naturelle et il n’y a pas d’intervention du chercheur. Un exemple classique est le panel suisse des Ménages donc toutes les personnes qui vivent dans un ménage. Ce sont des études d’opinions, de comportements ou de valeurs et ces personnes sont sondées chaque année. Son avantage : très bonne traçabilité de la cause ; on peut tracer les changements dans les comportements politiques parce qu’on a toujours les mêmes individus. Sauf qu’il y a des problèmes : comme c’est toujours le même groupe, il faut lutter contre « la mortalité d’un panel », c’est-à-dire que les gens arrêtent de participer. La moralité d’un panel, c’est que la durée de vie d’un échantillon est limitée. Très vite, on peut se retrouver avec un problème important de représentativité. La solution pour y remédier est de réintroduire de nouvelles personnes ou de nouveaux échantillons complets. Un autre problème se situe au niveau que le chercheur doit attendre longtemps pour pouvoir analyser ces données. Finalement, c’est un dessin coûteux en ressources parce qu’on utilise des incitations importantes, le mode de récolte des données est coûteux et de grands groupes travaillent.
  • Semi-panel : il applique la même démarche que dans le panel classique. La différence principale est que le groupe change à chaque fois. On utilise cette technique quand les chercheurs ont la difficulté de reprendre le même échantillon que dans la première vague donc on a des difficultés à suivre les personnes dans le temps. L’avantage clé par rapport au panel est que ce dessin augmente clairement la faisabilité de cette recherche. On garde en plus la comparaison dans le temps et l’évaluation de la causalité reste assez fiable. Il permet de regarder des individus au niveau agrégé.
  • Panel rétrospectif qui essaie de combler une autre faiblesse de l’étude panel classique. Un panel commence toujours dans une année spécifique et il n’est pas possible de remonter dans le temps. Pour ce faire, on peut soit utiliser des données secondaires récoltées par d’autres ou utiliser des données rétrospectives. L’avantage de ce dessin est la faisabilité de l’étude. Par exemple, pour l’engagement dans des organisations sociales, il est difficile d’identifier des personnes quand elles ne sont pas encore engagées. Donc on peut tracer la causalité dans une certaine mesure. Sa première difficulté est inscrite dans son nom puisque la rétrospective des problèmes est problématique car la mémoire est sélective. La sélectivité de la mémoire ne se fait pas au hasard et on est face à des biais sélectifs. De plus, on est face à une réinterprétation ou une reconstruction de la part des individus. Il y a aussi un problème de différence entre individus. Une solution pour y remédier est d’utiliser des moments épiphaniques (moments centraux) et on a tendance à mieux s’en souvenir. Sauf qu’il n’est plus vraiment un dessin quasi-expérimental car on ne peut plus identifier des groupes en amont. On bascule sur des dessins corrélationnels ayant une logique différente.

Contrôle externe de la causalité : synthèse[modifier | modifier le wikicode]

Dessins expérimentaux : avec intervention du chercheur

Dessins quasi expérimentaux : sans intervention du chercheur / expérimentation naturelle / dessin comparatif (coût faible) / panel, semi-panel dessin rétrospectif.

Contrôle interne : Dessin corrélationnel[modifier | modifier le wikicode]

On choisit ce dessin quand une comparaison entre deux groupes en amont est impossible. On étudie la société telle qu’elle est. Le dessin corrélationnel ou cross-sectional est une étude des variations à l’intérieur d’un groupe et non entre les groupes. Il y a toujours une logique de comparaison et de variation. Pour choisir un échantillon de la population, on utilise une logique aléatoire en procédant à un tirage au sort au sein d’une population. Avec ce procédé, toutes les caractéristiques sont censées être représentées permettant une analyse entre les variables.

Contrôle de la causalité : synthèse[modifier | modifier le wikicode]

Les dessins expérimentaux et quasi-expérimentaux : logique de contrôle externe, maîtriser sources de variation et groupes identifiables en amont, procède à un contrôle ex-ante de la causalité, logique du contrôle avec des paramètres constants.

Dessins corrélationnels : logique de contrôle interne (à l’intérieur de groupe), maîtrise la causalité au moment de l’analyse avec régressions, logique derrière est de défricher la causalité en contrôlant la relation entre les variables (variable indépendantes et variables dépendantes).

Conclusion[modifier | modifier le wikicode]

Dessins expérimentaux peuvent contrôler la causalité en amont de la collecte des données car on maîtrise les effets des autres facteurs. On peut contrôler les variables concurrentes.

Contrôle faible dans les dessins corrélationnels ; logique du tirage au sort et on veut libérer au maximum les paramètres et assurer une distribution aléatoire de ces paramètres au sein de la population étudiée. Le contrôle se fait après par le biais de l’analyse qui prend plein de causes concurrentes. La maîtrise des variables se fait soit avant entre les groupes soit après entre les variables. Il s’agit de la maîtrise de la variable indépendante sur la variable à expliquer. Il s’agit d’un continuum de contrôle par le chercheur. La force du contrôle peut se faire sur deux choses :

  • Manipulation : chercheur intervient et amène un changement ; il a un contrôle sur la variable dépendante. C’est le cas dans l’expérimentation et grâce à une telle constellation, le chercheur peut comparer le groupe expérimental et le groupe de contrôle.
  • Corrélationnel : chercheur ne contrôle pas ces paramètres donc libère au maximum la variation, on est face à une situation similaire pour la variable dépendante. Dans l’expérimentation, on a faible contrôle.

Comment choisir son dessin de recherche ?

Toujours en lien avec le pôle théorique de la recherche ; quelle cause à contrôler ? Plusieurs dessins de recherche peuvent être pertinents et il faut penser aux apports et aux limites de chaque dessin. Souvent, il est conseiller de combiner des dessins de recherche (SELECTS).

Les dessins de recherche doivent être guidés par des théories sauf qu’on est soumis à des contraintes temporelles, soumis à des contraintes financières, soumis à nos propres compétences.

Des concepts aux mesures, un travail d’opérationnalisation[modifier | modifier le wikicode]

L'opérationnalisation : qu’est-ce que c’est ?[modifier | modifier le wikicode]

L’opérationnalisation consiste à rendre les concepts mesurables. Il s’agit de passer d’un très haut niveau d’abstraction conceptuelle à des indicateurs concrets adaptés à la recherche empirique. Par exemple, comment mesurer la participation protestataire ? Ce concept abstrait doit être, en plus de toutes les variables indépendantes permettant de mesurer notre variable dépendante, opérationnalisés. Cette étape est très importante car elle constitue le point de relais entre la théorie et l’empirie.

A la base de chaque recherche sont des questions théoriques. Mais le but de la recherche est de tester les hypothèses formulées ainsi que le modèle théorique plébiscité. Pour se faire, le chercheur agit sur deux axes distincts :

  • Il construit un dessin de recherche adapté et pertinent pour sa recherche.
  • Il opérationnalise tous les concepts afin de pouvoir les mesurer.
  • Ces deux composantes centrales de toutes recherche font donc le pont entre la partie théorique et pratique.

Dans toutes méthodes quantitatives, il faut toujours faire passer des concepts au statut d’indicateur, les mots au statut de chiffres. Durant cette phase cruciale, il s’agit de concrétiser les concepts théoriques imaginés en amont puisque les concepts théoriques n’existent pas dans la réalité sociale ! Pour mesurer un concept abstrait comme le racisme, le chercheur pose des questions préalablement élaborées avec soin à des individus. En effet, demander directement aux individus s’ils sont racistes ne produira, premièrement, pas de résultat fiable à cause du biais de désirabilité sociale, mais surtout cette question ne mesure pas le racisme, mais la possibilité d’exprimer le racisme pour les individus. Ce travail de réflexion se fait en amont de la recherche empirique afin qu’aucune maladresse ne puisse mettre en péril la validité de la recherche.

L’enjeux de l’opérationnalisation[modifier | modifier le wikicode]

L’opérationnalisation doit pouvoir permettre de tester ses hypothèses en descendant dans l’échelle de l’abstraction. Les divers choix effectués par le chercheur tout au long de sa recherche ont pour but de conférer à la recherche un validité interne. Toutefois, aucun résultat n’est accepté unanimement, justement à cause de ces choix potentiellement discutables. De plus, il faut faire attention aux erreurs de mesure pouvant remettre en question la validité de toute la recherche. En effet, le chercheur doit réussir à combler de manière adéquate le fossé existant entre théorie et empirie tout en prenant en compte les différents niveaux d’abstraction de ses concepts. Enfin, les données secondaires doivent être utilisées avec précaution, l’indicateur devant parfaitement convenir à l’item étudié. En tant que lecteurs, il faut toujours faire attention à la manière dont les indicateurs sont sélectionnés.

« Les sociologues utilisent souvent des concepts qui sont formulés à un niveau plutôt haut d’abstraction. Ils sont assez différents des variables élaborées au niveau empirique. Le problème lié au fossé entre la théorie et la recherche est celui de l’erreur de mesure ». (Blalock)

Deux erreurs de mesure[modifier | modifier le wikicode]

Il existe deux types d’erreurs de mesure, elle intervient soit au niveau théorique, soit au niveau empirique. Pour ce qui est de la partie théorique, le chercheur doit faire attention à la validité de sa mesure. Par exemple, conclure à une différence entre le pays X et le pays Y sans prendre en compte les diverses techniques de contact serait une erreur de mesure. De plus, le chercheur doit opérationnaliser avec soin pour ne pas induire d’erreur au moment des mesures. Au niveau empirique, la formulation des questions, la fiabilité des mesures ainsi que la reproductibilité de la mesure doivent être considérés avec attention pour ne pas induire d’erreur.

Validité d’une mesure[modifier | modifier le wikicode]

Pour qu’une mesure soit valide, elle doit utiliser des indicateurs fiables permettant de mesure le concept étudié.

  • Exemple d’une mesure valide : Utiliser la fréquence de participation aux votations et aux élections pour mesurer la participation conventionnelle.
  • Exemple d’une mesure non valide : Utiliser comme indicateur du bien-être individuel le salaire de l’individu !

Mais comment faire en sorte de ne produire des mesures valides ? Cela tient grandement à la rigueur de la démarche mais aussi à la créativité du chercheur. Lazarsfeld a standardisé un processus de déconstruction conceptuelle en quatre temps à cet effet :

  1. La première étape est conceptuelle : le chercheur part de concept abstrait, non directement mesurables. Souvent polysémique, le concept doit être défini précisément et de manière univoque. Cette étape est cruciale car pour obtenir des mesures fiables, il faut être au clair avec le concept que l’on cherche à mesurer. Pour se faire, le chercheur doit s’aider de la littérature pour combler ses potentielles lacunes théoriques, mais aussi pour ne pas refaire un travail qui aurait déjà été préalablement effectué. Par exemple, le concept de compétence politique est défini de manière très variée selon les chercheurs ! Pour Dahl, il s’agit de l’autonomie du citoyen se structurant autour de la connaissance du champ politique et de la verbalisation de préférences claires, pour Kriesi, il s’agit de l’intérêt subjectif et objectif porté à la politique, pour Gaxie, la capacité à se situer dans l’univers politique… Ainsi, on voit que la définition du concept de base est cruciale. 

  2. La deuxième étape implique de spécifier les dimensions et les sous-dimensions du concept étudié. En effet, un concept est toujours multidimensionnel. Ainsi, il s’agit d’identifier chaque facette du concept étudié et d’en extraire le sens de chacune. Pour les concepts simples, le chercheur décomposera son objet en dimensions telles que l’âge, le sexe, le lieu de résidence…
Toutefois, les concepts complexes seront eux décomposés en dimensions mais aussi en sous-dimensions pour rendre compte
de l’entier du phénomène. Mais
attention, tout comme pour le concept, chaque composante doit
être définie précisément et de
manière univoque. Cette étape est
très importante puisqu’elle
permet de descendre sur l’échelle de l’abstraction. Sur ce schéma, on voit comment Gaxie a décomposé le concept de la participation politique, préalablement défini comme la capacité de se situer dans l’univers politique. 

  3. La troisième et ultime étape de la partie de l’opérationnalisation est celle de la sélection des indicateurs pertinents pour la recherche. Chaque dimension du concept peut être représentée par un ou plusieurs indicateurs. Un indicateur est une variable qui elle-même correspond à une mesure qui provient elle-même d’une question (Indicateur à Variable à Mesure à Question). Mais encore une fois, pour ce faire, le chercheur doit préalablement avoir parfaitement défini la (sous-)dimension en question. Un indicateur est créé par le chercheur afin de lui permettre de mesurer directement une dimension ou sous-dimension issue d’un concept abstrait. C’est pourquoi il est toujours bien de mesurer un concept à l’aide de plusieurs indicateurs pour minimiser les risques d’erreur. Mais l’agencement des différents indicateurs sélectionnés par le chercheur doivent ensemble reconstituer le concept ! Ainsi, le nombre d’indicateurs ne doit pas être trop petit pour éviter tout effet discriminant. Le chercheur doit donc sélectionner les bons indicateurs conférant à sa recherche une validité et une cohérence interne. Les deux questions ci-jointes sont issues d’un sondage ayant pour but de mesurer l’islamophobie. Toutefois, on remarque qu’elles consistent en de très mauvais indicateurs ! Premièrement car le concept très complexe de l’islamophobie est ici saisi au travers de seulement deux indicateurs, mais aussi parce que la seconde question a grandement influencé la réponse des femmes, voulant défendre leurs droits.

Ainsi, cette étape pose la question du nombre d’indicateurs nécessaires pour rendre compte au mieux de la réalité mais aussi de la manière de poser les questions pour que celles-ci suscitent les réponses attendues.

Ces trois étapes représentent l’opérationnalisation, pouvant être définie comme une toujours plus grande descente dans l’échelle de l’abstraction. Alors qu’elles interviennent en amont de la recherche, avant la partie empirique, la quatrième étape du processus mis en place par Lazarsfeld s’effectue en aval de la recherche, après la récolte des données.

  1. Enfin, c’est lors de la quatrième étape que le chercheur forme ses indices. Il s’agit pour le chercheur de reconstruire les dimensions de ses concepts après la récolte des données. C’est lors
de cette étape que le chercheur crée des échelles d’indices, lui permettant d’effectuer une analyse factorielle. Cette étape fait le chemin inverse des trois précédentes puisqu’il s’agit de remonter l’échelle de l’abstraction et ce, pour s’assurer que les indicateurs pris rendent bien compte du concept premier.

Sélection des indicateurs[modifier | modifier le wikicode]

Ultime étape de l’opérationnalisation[modifier | modifier le wikicode]

Il faut se demander si on prend un ou plusieurs indicateurs pour une dimension. Il faut identifier des indicateurs pour chacune de nos dimensions puisque chaque dimension est mesurée par des indicateurs précis. Pour faire un bon travail, on dépend du travail en amont (étape 1 et 2). Il faut être bien au clair sur le sens de la dimension et si le sens reste ambigu, cela veut dire qu’il y a encore d’autres dimensions qui se cachent derrière donc il faut revenir à l’étape 2. Ce n’est pas un processus linéaire mais bien circulaire qui englobe des allers-retours !

Si la dimension est clair, il faut 2 clés :

  • Notre inventivité et la tester
  • Reprendre des mesures élaborées par d’autres chercheurs

Pour arriver à une validité interne, il faut plusieurs indicateurs. Il faut des concepts latents. Toutefois, la relation entre indicateurs et concepts reste probabiliste, c’est-à-dire qu’il ne couvre jamais entièrement le concept. Un indicateur indique et ce n’est pas une reproduction parfaite. Chaque indicateur doit avoir la même relation à la dimension. Dans l’idéal, ils pourraient devenir interchangeables. En théorie c’est facile mais pas en réalité. Un indicateur indique toujours un aspect d’une dimension c’est pour cela qu’il en faut plusieurs. Si on met ensemble tous les items d’une dimension, on peut reconstruire empiriquement un concept.

La règle de base pour le choix des indicateurs : plus d’indicateurs mieux c’est mais pas trop. Moins il y a d’indicateurs, plus on a d’effet discriminant.

Exemple avec l’islamophobie : les chercheurs ont pris deux indicateurs pour indiquer l’islamophobie ; autoriser les pratiques religieuses en Suisse et le port du voile. Le problème avec le second indicateur est que les femmes soient plus islamophobes. Mais au final, le sont-elles vraiment ou est-ce un effet de mesure ? Dans ce cas, la multiplication des indicateurs aurait été souhaitable surtout qu’ici, on est face à un concept complexe.

Un 2ème effet discriminant est quand 2 indicateurs produisent deux résultats différents. On est face à une discrimination voulue parce qu’on veut créer de la variation entre individus.

Comment éviter ou produire ces effets discriminants ?

Avec des données primaires, on peut faire des pré-test tandis que pour les données secondaires, il faut passer impérativement par l’analyse descriptive avant de les mettre en relation. On va voir ainsi comment notre variable est distribuée selon les réponses et cela va juger la qualité de notre indicateur.

En résumé

Pour les concepts simples ou périphériques, un indicateur suffit. Par exemple : l’âge, si ce n’est pas un concept clé dans notre recherche, un indicateur suffit.

Pour les concepts complexes et centraux, il faut plusieurs indicateurs comme la compétence politique. Attention à la variable dépendante ! Il faut faire attention à l’opérationnalisation et on prend rarement le risque d’avoir qu’un indicateur pour la variable dépendante. Pour les causes principales, on prend rarement qu’un seul indicateur.

  • Ainsi, l’opérationnalisation, c’est une descente dans l’échelle d’abstraction !

Formation des indices[modifier | modifier le wikicode]

Elle se fait après la récolte des données au moment de l’analyse. La formation d’indices et la reconstruction du concept à partir des indicateurs. On va faire la synthèse des indicateurs pour chaque concept et c’est une étape qui se déroule après la récolte des données au moment de l’analyse. Concrètement, on construit une mesure unique à partir de ces informations numériques car au moment de l’analyse, on veut travailler avec nos concepts et tester nos relations causales. On construit nos concepts à la base de plusieurs indicateurs et on peut apprendre différentes techniques (additionner). Attention ! cette étape de la formation des indices n’est pas toujours nécessaire. Si nos indicateurs mesurent la même chose, on peut en prendre qu’un seul ! Pour la formation des indices, on prend les résultats et on monte en abstraction pour mettre nos concepts en relation.

Opérationnalisation a un intérêt vital pour la théorie car elle permet d’avoir une implication de la théorie et de l’empirie en spécifiant les cadres théoriques. Cela permet d’éviter les deux mesures majeures ; la fiabilité et la validité. La validité de la fiabilité permet de juger de la qualité de nos mesures. La validité est la manière dont on juge l’opérationnalisation d’un point de vue théorique. Une mesure non-valide est celle qui ne mesure pas le concept qu’on a voulu mesure. L’idée de la validité est simple mais difficile à réaliser ; elle dépend directement du travail d’opérationnalisation. S’il n’est pas fait de manière rigoureuse, on a de fortes chances d’avoir des mesures non-valides.

Exemple : mesurer la participation politique en suisse avec un indicateur de participation, il manque le pan de votation ou le pan de la participation protestataire.

Deux erreurs de mesure[modifier | modifier le wikicode]

La fiabilité est liée à la formulation et l’élaboration des questions.

Double stimuli (inputs)

Imprécision (jamais de question avec un « ou »)

Jamais bien de supposer les pratiques mais directement les demandées parce que si on le suppose, les gens pensent qu’ils sont censés le faire et ne répondent pas comment c’est effectivement.

On voit que la validité se situe au niveau de l’opérationnalisation même donc au processus qui lie les concepts aux indicateurs pendant que la fiabilité regarde le lien entre les indicateurs et la question.

Conséquence de ces erreurs : introduisent des biais qui peuvent être systématiques (confronté à un problème de validité), les biais systématiques sont des erreurs qui ont une structure et ne sont pas distribuées au hasard. Elles ne sont pas intégrées dans les analyses en termes d’erreur. Le biais systématique implique souvent un problème de validité même s’il y a des problèmes de fiabilité qui sont de cette nature mais ils sont plus rares.

Lien entre fiabilité et visibilité : pour avoir une mesure valide, elle doit être fiable mais le contraire n’est pas forcément le cas. La fiabilité est une condition nécessaire mais pas suffisante pour juger de la robustesse de la mesure.

Pour faire un bon travail d’opérationnalisation et maximiser la validité, il faut des concepts clairs, une déconstruction maximale des concepts on multiple les indicateurs pour éviter les effets discriminants. Ce travail d’opérationnalisation est très important car il nous permet de nous approche de la réalité.

Introduction Enjeux de la collecte et types de données[modifier | modifier le wikicode]

On laisse derrière nous le pôle méthodologique où on a établi un dessin de recherche adéquat et on a opérationnalisé nos concepts afin de le rendre réalisable. On va porter notre attention sur la récolte de données individuelless en passant par le sondage qui sera l’outil principal.

L’enjeu principal dans la récolte de données est d’arriver à être systématique. Les données sont des éléments d’information qui sont récoltés de façon systématique que ce soit sous forme quantitative ou qualitative. Ceci est également exprimé dans la citation de King et all. :

« Data are systematically collected elements of information about the world ». (1994)

Enjeux de la collecte de données[modifier | modifier le wikicode]

Récolte systématisée[modifier | modifier le wikicode]

Il est nécessaire de trouver des supports qui permettent une telle systématicité et d’éviter des biais potentiels. Par exemple, si on veut connaître le volume de participants aux manifestations de rue, on se rend compte que les chiffres varient selon la source (police, organisateurs de la manifestation, médias). Il existe toujours différentes stratégies possibles pour en rendre compte sauf qu’il est important de justifier notre choix de source de données.

Une stratégie pour faire une collecte systématique est de prendre systématiquement la même source d’information. Une autre serait de faire une moyenne des sources disponibles. Le point essentiel est d’avoir toujours le même indicateur dans l’espace et dans le temps sinon la collecte n’est pas systématique. Ceci est facile en théorie mais en pratique, ce n’est pas toujours possible. Dans la pratique, il faut essayer de minimiser deux types de biais :

  • Biais aléatoires ou structurels
  • Biais systématiques : variations structurelles

Exemple : nombres de participants dans une manifestation

Si on prend comme source les chiffres de la police, on est confronté à un biais systématique, c’est-à-dire une tendance à sous-estimer le nombre de participants. Si on prend comme source les chiffres des organisateurs d’une manifestation, on est aussi confronté à un biais systématique et il y a une surestimation du nombre de participants. Par contre, si on prend comme source les chiffres des médias, on risque d’avoir un biais aléatoire, c’est-à-dire une fois une sous et l’autre fois une surestimation. On est confronté à des variations aléatoires qui ne sont pas systématiques et qui sont dues à un problème de fiabilité de la mesure. Ainsi, il faut changer l’indicateur pour éviter des résultats non fiables.

Objectifs[modifier | modifier le wikicode]

Pour avoir des données de bonnes qualités, on doit se fixer comme objectifs de récolter des données de manière systématique. Il faut éviter les biais aléatoires puis identifier les biais systématiques et les prendre en compte dans l’analyse des résultats. Dans la recherche comparative, pour éviter les biais aléatoires, il faut garder le même support ou le même indicateur. On parle notamment de critères et indicateurs invariants, c’est-à-dire des indicateurs qui ne changent pas dans le temps et l’espace.

Pour évaluer la classe sociale dans laquelle un ménage se trouve, on peut utiliser plusieurs indicateurs. Certains indicateurs (possession d’une télévision en couleur) ont été créés vers 1980 sauf est-ce qu’il faut le garder, le supprimer ou le modifier ? Dans un panel, on veut toujours garder les mêmes indicateurs pour éviter des biais aléatoires mais ceci n’empêche pas l’introduction d’autres problèmes de mesure comme dans cet exemple. Les biais aléatoires et systématiques sont un enjeu dans le temps, comme dans le panel, mais d’autres exemples peuvent être trouvés dans la comparaison entre pays comme le taux de chômage qui peut être mesuré selon des critères différents dans l’espace. Particulièrement dans la recherche comparative, on est dans le besoin de combiner différentes bases de données pour comparer la population.

Exemple : la controverse autour du votant américain

Cette controverse se jouait par beaucoup de publications (1960-2000) mais notamment autour de deux ouvrages, à savoir The American Voter et The Changing American Voter. Le modèle de Michigan a été critiqué 16 ans après par le second ouvrage sauf que ce sont des différents indicateurs qui ont été pris pour formuler la critique. Donc le second ouvrage a lui-même été critiqué.

Qualité des données[modifier | modifier le wikicode]

Pour obtenir une qualité des données, il faut trouver les biais. Il est notamment nécessaire de cerner les biais potentiels. Il faut toujours être l’affût de ce problème sinon on pourrait être confronté à un artefact statistique qui est un faux résultat puisqu’on n’a pas utilisé les bons indicateurs ou on a oublié de regarder les relations avec des variables concurrentes.

La règle d’or est de maximiser la validité des mesures et de maximiser la fiabilité des mesures. Au moment de l’opérationnalisation, on peut maximiser la validité des mesures. Il est impératif d’être scrupuleux dans l’opérationnalisation de nos concepts et de prendre plusieurs indicateurs pour les concepts clés.

Par exemple : une mesure du chômage pour évaluer l’état de l’économie

Il faut être conscient et transparent sur les limites potentielles de nos mesures. Le taux de chômage peut être corrélé à l’état de l’économie sauf qu’ils ne sont pas synonymes.

Une fois que la validité est assurée, il faut également s’assurer que nos mesures sont fiables. Ce contrôle se fait au moment de la sélection des indicateurs et on évalue si la mesure produit le même résultat dans l’espace et dans le temps. Une technique pour s’en assurer est de reprendre des mesures existantes qui ont déjà été testées. On va également essayer de collecter un maximum de données, notamment pour les variables dépendantes et indépendantes centrales. Dans la réalité, ceci se fait toujours sous contrainte de temps et il faut trouver un équilibre dans l’idée de maximiser des informations sur les choses qui nous intéressent.

Dans une recherche sur l’opinion publique, 4 indicateurs sur l’environnement ont été choisis. Dans cet exemple, on peut s’imaginer que chaque indicateur mesure quelque chose de légèrement différent et cela pourrait générer des résultats différents. Pour augmenter la robustesse des analyses, il faut analyser chaque indicateur avant de développer des résultats. Généralement, plusieurs indicateurs nous permettent de renforcer la consistance de la recherche car plus d’indicateurs vont dans la même sens, plus notre résultat est robuste et le teste de notre analyse n’est pas due au hasard.

Anticiper les problèmes[modifier | modifier le wikicode]

Si on est systématique et qu’on veille à une bonne qualité de données, on devrait être capable d’anticiper les problèmes avant la collecte des données et donc de les déjoués en amont. Ces problèmes sont propres à chaque recherche.

Par exemple : il faut être conscient qu’on aurait pour chaque recherche des populations sous-représentées tel que les jeunes.

Un autre problème dont il faut être conscient est la fiabilité des codeurs, c’est-à-dire que si on analyse les articles dans la presse, on utilise plusieurs codeurs pour déterminer la chose dont ils parlent. Il faut s’assurer et mettre des stratégies en place pour que chaque personne identifiée les sujets de la même manière.

Il faut toujours voir s’il y a des différences linguistiques dans une variable (confidence – trust / pas de distinction en français).

Si on regarde dans la temporalité, on pourrait avoir des données manquantes comme c’est le cas lors de la 2ème guerre mondiale. Faut-il écarter ce temps de notre analyse ou en d’autres termes, comment le gérer ?

  • Si on anticipe les problèmes avant la collecte, on peut trouver les problèmes en amont.

Réplicabilité[modifier | modifier le wikicode]

Répliquer des études quantitatives est difficile mais en répliquant le processus de données, on diminue cette difficulté. C’est le cas avec The American Voter où on reprend les données actuellement mais on ne le réplique pas entièrement. Il est nécessaire de tenir un journal de bord sur le processus de récolte de données puisqu’on aura une transparence sur le processus de récolte. Cela va nous permettre d’expliquer comment on a procédé dans les détails et les problèmes qu’on a rencontré au fil de notre recherche. Cela nous permet aussi d’identifier les biais qui se sont introduits. Si on prend compte de ces biais au moment de l’analyse et de l’interprétation des résultats, on peut augmenter la qualité de nos résultats. Un journal de bord est aussi utile pour éviter les artefacts statistiques. Les métadonnées sont des données sur nos données comme par exemple expliquer comment s’est passé notre entretien. Le journal de bord et les métadonnées permettent d’expliciter le processus de récolte de données.

  • Pour avoir une bonne qualité de données, il faut :
  1. Etre systématique et éviter les biais
  2. S’assurer de la validité et de la fiabilité de nos données
  3. Essayer d’anticiper des problèmes
  4. Permettre la réplicabilité le plus possible

Différents types de supports[modifier | modifier le wikicode]

Beaucoup d’informations peuvent être trouvées sur des supports textuels comme des interventions parlementaires. Un support textuel majeur est la presse ou les médias plus généralement pour saisir les débats publics comme la migration pour évaluer la structure des débats avant des élections par exemple. Ces exemples devraient montrer qu’il existe pleins de données textuelles qui peuvent être converties en données chiffrées.

Ceci est également le cas pour des données orales pouvant venir de la TV, de la radio, d’internet etc.

En plus des supports textuels et oraux, il y a la technique d’enquêtes par questionnaire qui implique de récolter des données directement auprès des acteurs. C’est une technique fortement standardisée puisqu’elle est très utilisée en science sociale. Néanmoins, ce n’est pas la seule technique pour collecter des données.

Créativité et imagination[modifier | modifier le wikicode]

Il n’est pas facile de récolter des données en raison de la non-disponibilité ou de la difficulté d’accès à des supports de collecte. On nous apprend des outils de base dans ce cours mais il faut compter sur notre créativité et notre imagination. La recherche de Zuccato a proposé d’analyser les eaux usées pour déterminer le taux de cocaïne que les gens prennent.

Il existe différents processus de récolte de donnée et donc différents types de données qui ont par conséquent différentes types d’application.

Différents types de données[modifier | modifier le wikicode]

Primaires vs secondaires[modifier | modifier le wikicode]

Il faut toujours réfléchir si on veut récolter des données primaires ou utiliser des données secondaires. Les données primaires sont les données que le chercheur récolte lui-même et elles sont spécifiques à une recherche. Ses avantages sont nombreux et substantiels :

  • Elles sont le fruit d’un dessin de recherche qui correspond à la problématique de la recherche.
  • Ce sont des données dont la chercheuse a besoin et elles sont adaptées pour répondre à la question de recherche et pour tester les hypothèses.
  • On peut partir du postulat que la validité est bonne et que les indicateurs sont adéquats.

La raison pour laquelle les chercheurs n’utilisent pas ce type de données est qu’il y a des désavantages considérables. Ce type de données est coûteux en temps en argent. De plus, on peut ne pas avoir la formation requise pour bien récolter les données primaires.

A cause de ces désavantages, les chercheurs utilisent des données secondaires, à savoir des données récoltées par d’autres chercheurs. Leurs avantages sont qu’elles :

  • Soient disponibles et il n’y a pas de coût ni en temps, ni en argent ni en formation.
  • Elles permettent de faire des comparaisons plus facilement.

Sauf que leur désavantage est que ce sont des données qui :

  • Ne sont pas toujours adaptées à notre recherche.
  • On n’a pas toujours les bons indicateurs
  • On est plus confronté à des problèmes de validité.
  • La récolte de données peut comporter des biais qu’on ne connaît pas forcément.
  • Question : Comment choisir entre ces deux types de données ?

Avant de se lancer dans une collecte de données, il faut s’assurer qu’il n’existe pas des données secondaires utilisables. Et si c’est le cas, on peut essayer d’améliorer certains indicateurs en combinant les indices. On privilégie les données secondaires dans la mesure où elles sont adaptées. Sauf qu’il faut être attentif aux problèmes de validité des mesures. Il faut également bien regarder les métadonnées parce qu’elles nous donnent beaucoup d’informations.

Exhaustives vs échantillonnées[modifier | modifier le wikicode]

Les données exhaustives sont les données collectées par l’Etat. Ce sont des données sur l’ensemble de la population qui suppose une énumération complète comme pour les recensements de la population ou pour saisir le flux de migrants. L’avantage principale de ces données apparaît dans son nom puisque l’exhaustivité implique qu’il n’y a pas de bais en termes de représentativité donc il n’y aurait pas d’erreur d’échantillonnage. Toutefois, elles ne sont pas forcément de bonne qualité :

  • Par exemple, si c’est la police qui collecte des données sur la violence, ce sont eux qui déterminent les indicateurs et ce n’est pas forcément en cohérence par rapport à notre recherche. Donc l’exhaustivité n’est pas assurée !
  • De plus, ces données contiennent très peu de variables différentes.
  • Elles coûtent au niveau de l’argent et au niveau de la lourdeur de la collecte
  • Recensements sont en voie de disparition

Dans la plupart des cas, on travaille avec des données échantillonnées qui sont des données tirées d’une portion de la population appelée la « population mère ». Ce peut être la population suisse, des éditions de journaux etc. L’idée d’utilisée un échantillon à la place d’une population est une idée révolutionnaire. Cela consiste à prendre un échantillon représentatif de l’ensemble de la population. A partir de cet échantillon, on fait des inférences statistiques sur la population qu’elle représente. C’est Kiaer qui a eu cette idée au 19ème. Ce type de données ont des avantages puisqu’elles :

  • Augmentent les possibilités de collecte de données dans plusieurs domaines.
  • Augmentent la faisabilité des recherches
  • Rendent le travail de recherche plus facile.
  • En plus de cette flexibilité, elles nous donnent une plus grande importance en tant que chercheur puisqu’on dépend moins de l’Etat. Ceci ne veut pas dire qu’on est complètement indépendant puisque les recherches coûtent cher.
  • La majorité des outils techniques a été élaborés pour ce type de données. Finalement, ce type de données permet une gestion plus facile des données car on a un plus petit fichier de données.

Les désavantages sont que :

  • Les chercheurs nécessitent une expertise puisque la sélection de l’échantillon est un vrai enjeu car il faut assurer la qualité et la représentativité des inférences.
  • De plus, chaque échantillon est confronté à la question de la représentativité. Cela signifie qu’il y a généralement une structure dans les non-réponses qui rend l’échantillon non représentatif.
  • Question : comment choisir entre ces deux types de données ?

On privilégie les données échantillonnées à cause de leur flexibilité. On opte pour l’exhaustivité pour de petites populations. Dans les deux cas, il faut être attentif. Pour les données exhaustives, même si elles sont appelées comme ça, il faut toujours faire attention au biais de sélection. Ceci se fait par exemple sur les groupes qui sont sondées ; les migrants, oui mais lesquels ? Pour les données échantillonnées, il faut toujours analyser la qualité et le taux de non-réponse pour avoir une bonne représentativité.

Individuelles vs agrégées[modifier | modifier le wikicode]

La différence majeure est l’unité d’analyse sur laquelle on collecte des informations. Les données individuelles collectent des données sur les individus comme pour la participation politique, les valeurs ou les aptitudes. L’unité d’analyse sont les individus avec leurs caractéristiques. Cela permet d’analyser la variation, c’est-à-dire la différence entre les individus.

Les données agrégées sont des données sur des agrégats tels que des Etats, des villes, des quartiers, des organisations. Ces données sont utilisées au niveau macro comme pour l’analyse spatiale du politique. Ce sont les caractéristiques des régions par exemple et pas des individus qui y habitent. Par contre, la logique analytique des données agrégées est partagée avec celles des données individuelles ; la logique d’étude des variations sauf que c’est entre les agrégats et pas les individus : Est-ce que la taille des communes a une influence sur la participation électorale ?

Erreur écologique[modifier | modifier le wikicode]

Il est important de distinguer ces deux niveaux pour ne pas faire des erreurs écologiques.

Au niveau individuel, on peut trouver empiriquement que les individus avec des difficultés financières tendent à voter à gaucher mais cela ne signifie pas qu’en période de crise, les partis de gauche ont les scores les plus élevés. Si on confond le niveau macro et micro, on fait une erreur écologique.

On peut distinguer entre hypothèses et données. Les deux peuvent être de niveau individuel ou agrégé. Tant qu’on teste les hypothèses avec les données récoltés au même niveau, il n’y a pas de problème. L’erreur écologique consiste à analyser les hypothèses avec les données récoltes qui ne sont pas du même niveau (agrégé avec individuel). En d’autres termes, c’est le fait de tester des hypothèses au niveau individuel avec des données agrégées. Ou encore, le fait d’analyser des propriétés individuelles inférées sur la base d’observations faites au niveau agrégé.

Exemple : l’étude de Pisa a trouvé que la Suisse est forte en mathématique mais cela ne signifie pas que tout écolier est fort en mathématique. Il y a ainsi une forte variance et donc pas d’homogénéité !

A l’origine de cette erreur, il y a l’étude de W. Robinson qui s’intéresse au lien entre le taux d’analphabétisme et le taux d’immigré dans un Etat américain.

Conclusion[modifier | modifier le wikicode]

Il faut faire attention à l’unité d’analyse de la recherche ! On peut agréger des données individuelles mais l’inverse n’est pas possible ! Une manière pour combiner les deux niveaux sont les analyses multiniveaux qui est une analyse poussée mais même ici, on conserve chaque niveau séparément. On analyse la relation à un niveau en étant sous le contrôle de l’autre. Néanmoins, on analyse toujours les interactions entre les différents niveaux.

Elaboration d’un questionnaire standardisé : Principes généraux[modifier | modifier le wikicode]

Construction d’un questionnaire[modifier | modifier le wikicode]

L’enjeu principal autour de la construction d’un questionnaire est la fiabilité des mesures. En effet, Kalton et Moser explique bien « qu’aucun sondage ne peut être meilleur que son questionnaire ». Chaque question correspond à une mesure devant être utilisable pour répondre à nos hypothèses premières. Pour la recherche, on dit souvent que la qualité du questionnaire est primordiale. Ainsi, une mauvaise question entrainera la récolte de mauvaises mesures.

Deux types d’erreur[modifier | modifier le wikicode]

  1. Il peut y avoir une erreur au niveau théorique
    1. Problème de la validité de la mesure : évaluation de la mesure au niveau théorique
    2. Opérationnalisation
  2. Erreur au niveau empirique
    1. Problème de fiabilité de la mesure : évaluation de la mesure au niveau empirique (idée de la consistance de la mesure)
    2. Fidélité, robustesse, reproductibilité
    3. Formulation des questions

Fiabilité des mesures[modifier | modifier le wikicode]

L’idée de la fiabilité est simple en théorie mais difficile à mettre en œuvre. Il y a des questions qui peuvent être comprises de manière différente que ce qu’on le croit. La reproductibilité correspond au fait qu’un même output sera produit si un même input est appliqué. C’est en lien avec la reproductibilité qu’il n’est pas toujours possible de comparer entre elles des données, devant pour ce faire avoir été produites de la même manière. C’est pourquoi les questionnaires doivent être construits de sorte à ce que les réponses données proviennent toutes d’un même input. C’est pourquoi les questions doivent être précises, simples… Afin que tous les répondants les comprennent de la même manière et se positionnent par rapport à des inputs précis. Cet exercice est d’autant plus difficile si le questionnaire doit être passé auprès d’une population hétérogène (langue, culture, religion…) différentes, les mots pouvant être socialement situés. En plus des questions devant être intelligemment conçues pour être comprises de manière uniforme au sein de la population cible, le questionnaire doit également être uniformément transmis ! En effet, les intervieweurs ne doivent pas inclure dans la question posée leur interprétation propre.

Il existe plusieurs sources de non-fiabilité des mesures. Comme nous l’avons dit, les questions peuvent être comprises différemment selon l’enquêté. Il faut encore noter que les mots peuvent changer de sens au fil du temps mais aussi dans l’espace. Cette dimension est importante à prendre en compte notamment lorsqu’il s’agit de répliquer une étude ancienne. Il faudra alors se demander si les questions doivent être traduites dans un vocabulaire plus actuel pour obtenir le même type de réponses que jadis ou ces mots avaient des connotations différentes. De plus, si la question contient deux inputs, c’est à dire si la question demande aux répondant de se positionner sur deux éléments de question à la fois, le chercheur ne pourra savoir à quel stimuli l’enquêté a répondu. Il faut également être vigilant au fait que la désirabilité sociale joue un rôle important lors de la passation de questionnaire. La désirabilité sociale est une sorte d’autocensure lorsque l’enquêté craint d’être jugé négativement s’il donne une réponse particulière à une question. Elle évolue dans le temps si bien qu’il est aujourd’hui tout à fait commun de dire être divorcer, contrairement à avant. Par contre, dire aujourd’hui que l’on est raciste est très difficile, terme fortement déprécié. Enfin, il faut s’assurer que tous les enquêteurs posent les questions de la même manière lors de la passation du questionnaire et ce, pour n’induire aucun biais de compréhension.

Source de non-fiabilité des mesures[modifier | modifier le wikicode]

Ce n’est pas seulement les questions en soi qui peuvent poser problèmes mais également les répondants. En plus, ce sont souvent des groupes différents qui répondent à nos questions. Ils ont des ancrages sociaux différents et des différenciations générationnelles ce qui fait qu’ils peuvent comprendre les questions différemment. De plus, il est nécessaire de prendre les contextes en compte ; cela change en fonction du temps et de l’espace. Par rapport, ce ne sont pas seulement les personnes âgées qui posent des problèmes mais tout répondant confondu lorsqu’il s’agit de questions délicates. Cela rend compte à la désirabilité sociale où les gens répondent en fonction de ce qui est perçu comme « bien » socialement ; personne n’est raciste et tout le monde participe politiquement. Finalement, les enquêteurs peuvent poser des questions différentes jusqu’au point où la compréhension de la question varie.

  • Toutes ces sources nous montrent que la fiabilité se travaille au moment de l’élaboration du questionnaire. Cela ne signifie pas seulement au moment d’écrire et de penser des questions mais qu’il faut également faire des pré-tests pour identifier des biais potentiels.

Questionnaire standardisé : de quoi s’agit-il ?[modifier | modifier le wikicode]

On récolte des informations de manière systématique. L’idée est de passer le même questionnaire à tout l’échantillon. L’approche de cette démarche quantitative est de fermer au maximum l’espace d’expression pour l’individu. Pour la grande majorité, le questionnaire utilise des questions fermées, c’est-à-dire des questions avec des réponses déjà pré-codées. On va donc maximiser la standardisation entre le répondant avec un input et un même output. Le résultat de cette démarche est de recevoir peu d’informations sur un grand nombre de personnes pour pouvoir les analyser de manière systématique les statistiques et les covariances. L’entretien qualitatif quant à lui veut ouvrir au maximum l’espace d’expression de l’individu et on laisse simplement parler l’interviewé. Avec une approche qualitative, la logique est différente. Pour le questionnaire, il y a peu d’informations pour beaucoup de personnes tandis qu’avec une approche qualitative, on reçoit beaucoup d’informations sur peu de personnes. Puis on va analyser ces informations par une démarche interprétative.

Les deux techniques sont complémentaires et il est possible de les utiliser mais pas de les mélanger ! Il faut d’abord en réaliser une puis l’autre en suivant chronologiquement les procédures.

Difficultés[modifier | modifier le wikicode]

Le fait que les personnes ne comprennent pas toujours de la même manière les questions sauf qu’on peut minimiser ce problème. Un autre problème, moins évitable, est qu’on force des réponses sur des enjeux sur lesquels les personnes n’ont que peu de connaissance. La conséquence est que les gens vont répondre « on the top of the head » ; ils ne vont pas réfléchir de par eux-mêmes. Les politologues sont les experts pour poser des questions trop difficiles. Cela peut être frustrant et c’est pour cela que les sondages peuvent avoir mauvaise presse.

Il faut prendre pour ce faire les questions pour ce qu’elles sont, c’est-à-dire des approximations. Cela permet d’éviter les plus gros biais. Ce problème d’ailleurs n’est pas seulement valable pour les questionnaires mais pour toute enquête de terrain. En dépit de ces problèmes, le questionnaire reste un instrument intéressant pour les connaissances sociologiques.

Une fois les questionnaires remplis, il y a une irréversibilité de la mesure parce qu’in ne peut pas retourner auprès des répondants. Ces réponses vont nous permettre de mettre en discussion nos hypothèses et notre théorique. Avec une démarche qualitative, on peut toujours compléter nos informations.

Que mesure-t-on au moyen d’un QS ?[modifier | modifier le wikicode]

  1. Ce que les individus pensent avec leurs attitudes, leurs croyances et leurs valeurs
  2. Ce que les individus font : leurs comportements et leurs expériences passées
  3. Ce que les individus sont : leurs attributs personnels

Cette distinction est impérative car ces 3 catégories ne posent pas les mêmes difficultés dans l’élaboration des questions :

Il est important de distinguer ces trois catégories puisqu’elles sont toutes des sources potentielles de non fiabilité mais pour des raisons différentes. En effet, tout ce qui provient directement de l’esprit des individus n’est pas facile à saisir et source de non fiabilité. En effet, le contexte de passation du questionnaire, la formulation des questions… aura un grand impact sur les réponses données, bien plus que lorsque les personnes parlent de faits plus objectifs comme leur agissements (font) ou leur statut social (sont). De plus, il faut prendre en compte les efforts de cohérence individuelle dont les individus font preuve pour conter leur vie, mais aussi de problèmes de mémoire pouvant biaiser les réponses. Pour ce qui est des questions liées à « l’être» des individus, il est très fréquent de les placer en fin de questionnaire puisque ces questions, potentiellement intrusives, peuvent rebuter des répondants en début d’étude. 


Voici maintenant un exemple montrant à quel point la formulation des questions est important et influence les réponses données :

Exemple de Rugg et Cantril 1944 :

Q1 : Des gens disent que depuis que l’Allemagne est en train de battre la Russie et bientôt l’Angleterre, il est nécessaire que les USA viennent en aide à l’Angleterre, qu’en pensez-vous ?

Q2 : Des gens disent que depuis que l’Allemagne va probablement vaincre la Russie dans quelques semaines et bientôt diriger toute sa force armée contre l’Angleterre, il est plus important que jamais que les USA viennent en aide à l’Angleterre, qu’en pensez-vous ?

La différence peut être dû au fait de l’influence de la question mais aussi à l’hétérogénéité des groupes.

Exemple de Zaller 1992 :

Questions rétrospectives : Continuer à penser à la question à laquelle vous de répondre, j’aimerais que vous me dites quelles sont les idées qui vous viennent à l’esprit lorsque vous répondiez à cette question.

Questions Stop-and-think : Avant de répondre à la question, j’aimerai que vous me dites ce que vous ressentez, ce qui vous viens à l’esprit lorsque vous pensez à cette question.

  • Il se trouve que lorsque les gens réfléchissent après avoir donné la réponse, on trouve moins d’ambivalence dans la réflexion que s’ils formulent la question avant.

Elaboration d’un questionnaire[modifier | modifier le wikicode]

Trois axes :

  1. Formulation des questions : parfois un travail artisanal surtout pour la construction de questions nouvelles. Dans ce processus, l’inventivité et l’ingéniosité du chercheur est importante car on n’a pas mal de liberté dans ce processus. Sauf qu’elle est limitée dans un certain nombre de pièges à éviter. Puis, il faut acquérir l’expérience qui nous permet d’éviter les mesures pour avoir une bonne fiabilité et validité des mesures.
    • Peut-on y répondre (à ma question) ? Pour chaque question, on doit se demander si mes répondants ont les connaissances nécessaires pour répondre aux questions. Sauf que les gens ne vont souvent pas admettre leur ignorance. De plus, ils ne vont pas utiliser la coche « ne sait pas ». Ainsi, toutes les personnes ne peuvent pas répondre aux questions.
    • Veut-on y répondre ? Il faut être sensible au fait que les gens ne veulent pas répondre à nos questions. Cela a deux incidences ; au niveau de non-réponses ou au niveau de qualité des réponses livrées. Il faut informer les répondants de notre recherche et les assurer de leur anonymat.
    • Accroître la fiabilité : Pour accroitre la fiabilité et la validité des questions présentées dans un questionnaire, il est important de proscrire les leading questions, c’est à dire une question amenant un élément extérieur pouvant influencer la réponse de l’enquêté. Il s’agit, par exemple, de demander simplement : Etes-vous pour une augmentation des impôts ? Et non pas : Etes-vous pour une augmentation des impôts pour améliorer la protection sociale des citoyen-e-s ?

Un autre moyen d’accroitre la fiabilité d’une question est d’éviter les questions aprioristiques. En effet, il s’agit de remettre dans le contexte la question pour éviter les biais ou encore d’appliquer un filtre. Un exemple de questions aprioristiques serait : Qu’avez-vous voté lors des dernières élections ? Ainsi, pour éviter tout biais, il faudrait plutôt construire la question en utilisant un filtre comme suit :

Les Biais[modifier | modifier le wikicode]

Désirabilité sociale[modifier | modifier le wikicode]

Ainsi, cette deuxième question associée permet de vérifier que la première réponse est correcte. Enfin, la désirabilité sociale peut introduire de nombreux biais dans une recherche. Il faut donc être attentif que l’acceptabilité sociale de la réponse potentiellement donnée à la question posée soit suffisamment grande pour que les individus puissent se permettre de le dire. Ainsi, les questions de type : Etes-vous raciste ? Sont évidemment à proscrire. Comme le montre cet exemple, la désirabilité sociale affecte considérablement les résultats. Pour rétablir cela, il est intéressant d’appliquer un filtre afin de trier les personnes répondant sous la pression de la désirabilité sociale.

Ainsi, on voit que sur les questions sensibles pour lesquelles les répondants ont peur d’être jugés ou mal vus par l’enquêteur, les réponses données peuvent être différentes de ce qu’il en est en réalité. Pour contrer ce biais de désirabilité sociale, plusieurs options s’offre au chercheur. Premièrement, il peut s’agir de déculpabiliser le répondant, notamment en incluant dans la question un stimuli déculpabilisant. Par exemple, pour une question portant sur le taux de participation, il s’agirait de demander non pas « avez-vous voté » mais plutôt «lors des votations, environ la moitié des personnes se rendent aux urnes. En ce qui vous concerne, avez-vous voté ? ». Une autre solution réside dans le fait de libérer la parole, ce que l’on appelle communément l’effet pommade. Il s’agit par exemple d’utiliser la sympathie pour que le répondant se sente plus à l’aise de s’exprimer sincèrement. Voici un exemple tiré d’une enquête effectuée par Mayer en 2002 qui illustre cette méthode de prévention du biais de désirabilité sociale :

Désirabilité sociale – solutions[modifier | modifier le wikicode]

Bradburn propose trois solutions différentes pour annihiler le plus possible les biais de désirabilité sociale, en opposition à l’approche habituelle qui consisterait à poser directement et sans détour une question. En effet, l’approche usuelle consisterait à demander au répondant : Avez-vous tué votre femme ? Mais cette question, très sensible, risque de ne produire des résultats que peu concluants. C’est pourquoi il propose trois approches plus fines, destinées à libérer la parole de l’enquêté :

  • L’approche des cartes : Plusieurs cartes sont présentées au répondant qui doit rendre à l’enquêteur celle correspondant à sa réponse. Ce procédé a pour particularité de ne pas demander au sujet de verbaliser sa réponse, ce qui peut avoir être plus facile lorsque des sujets difficiles sont abordés. 

  • L’approche « tout le monde » : Cette approche consiste à déculpabiliser le répondant en lui faisant sentir qu’il n’est pas le seul à penser/agir/être… ainsi. Cela permet au répondant de se sentir moins seul et isolé dans sa situation et donc de libérer sa parole. 

  • L’approche « les autres » : Cette approche consiste à demander, en préambule, au répondant s’il connaît quelqu’un dans une situation peut avouable avant de lui demander si lui-même s’y trouve. Cela permet encore une fois de déculpabiliser le répondant en lui montrant qu’il n’est pas le seul dans cette situation.

C’est toujours avec le même souci d’accroitre la fiabilité des mesures que les questions rétrospectives doivent être considérées avec attention. En effet, il faut tenir compte que les individus peuvent avoir oublié ou réinterprété des évènements passés si bien que la fiabilité peut être mise à mal. De plus, la validité s’en voit aussi menacé puisque le risque est de ne pas mesurer ce que le chercheur souhaite. Voici un exemple de question rétrospective : 


[[File:./media/image35.emf]]

Comme on le voit sur cet exemple, un bon moyen de contrôler les biais que peut induire ce type de questions est de poser des repères temporels (cette année, durant le mois de…).

Formulation des questions synthèse[modifier | modifier le wikicode]

En résumé, lorsque l’on construit les questions d’un sondage, il faut penser :

  • Si les répondants sont en mesure de répondre aux questions posées. C’est pourquoi il faut bannir les pratiques aprioristes et ne jamais postuler que les répondants savent, la connaissance n’étant pas socialement répartie de manière homogène. 

  • Si les répondants vont être d’accord de répondre aux questions posées. Pour 
ce faire, il faut respecter les enquêtés et établir un lien de coopération avec l’enquêteur. C’est pourquoi les questions intrusives doivent être placées en toute fin du questionnaire. 

  • A la fiabilité du questionnaire, c’est à dire si le stimuli présent dans chaque question produira le même type d’output, c’est à dire si tous les enquêtés comprendront la question de la même manière et répondront en fonction de cette compréhension commune. C’est pourquoi il faut poser des questions précises, claires, accessibles et courtes, ne postulant jamais que les individus savent. 

  • A la validité du questionnaire, c’est à dire si le questionnaire permet au chercheur de mesurer ce qu’il souhaite. C’est pourquoi il faut faire très attention aux « leading questions » qui peuvent influencer les réponses données.
  • A prendre en compte les potentiels biais que peuvent induire chaque question. Ainsi, il faut être attentif aux biais que la désirabilité sociale peut induire dans chaque enquête en formulant finement les questions, mais aussi se méfier des questions rétrospectives faisant appel à la mémoire potentiellement approximative des répondants. 


Format des questions[modifier | modifier le wikicode]

Comme nous l’avons préalablement expliqué, il est très rare que des questionnaires de type quantitatifs n’intègrent de questions ouvertes. C’est pourquoi il faut également réfléchir attentivement à la formulation et au format de réponse proposés aux enquêtés. Ainsi, trois enjeux principaux sont à considérer lors de cette étape. 


  1. Il faut se demander si les réponses proposées permettent aux enquêtés de répondre à la question posée.
  2. Il faut se questionner quant à la qualité statistique désirée par le chercheur. En effet, selon les formats de réponses, le chercheur ne pourra pas effectuer les mêmes procédés statistiques sur ces données ni même recueillir le même type d’informations.
  3. Il faut se demander si les réponses proposées sont statistiquement discriminantes. En effet, ce que l’on cherche dans une recherche, ce ne sont pas des constantes mais bien des variations permettant une réelle analyse statistique ! 


Peut-on y répondre ?[modifier | modifier le wikicode]

La formulation des réponses standardisées sont primordiales puisqu’elles vont permettre au répondant de répondre à la question posée d’une manière particulière. C’est un véritable enjeu pour la fiabilité du questionnaire ! En effet, se pose alors la question de proposer, ou non, aux répondants de ne pas se positionner. Il faut se demander que faire des sans-opinions ou des positions centrales qui sont des catégories particulières et problématiques. Certains chercheurs décident de ne pas proposer de telles catégories de réponse lors de leurs questionnaires, ce qui correspond à forcer les individus à répondre ! Cette considération est directement reliée au fait qu’un sondage impose une problématique aux répondants qui peuvent ne jamais avoir préalablement pensé à cette thématique. Ainsi, les sans-opinions (ou les positions centrales) sont parfois de vraies réponses pleines de sens, signifiant que la personne n’a réellement pas de préférences nettes quant au sujet traité ! Mais il faut aussi considérer la tendance humaine à choisir la position centrale lui permettant de s’économiser une réflexion couteuse en temps et en énergie (rationnel). C’est pourquoi les sans-opinions et les positions centrales posent problème lors de l’interprétation des réponses, ces catégories étant constituées de personnes n’ayant réellement pas d’opinion et d’autres ayant choisi cette modalité de réponse pour s’économiser les couts d’une réflexion approfondie. Certains chercheurs choisissent donc de considérer ces catégories de réponses comme des données manquantes, alors que d’autres attachent une grande importance à l’analyse de ces modalités. Ce graphique montre que la catégorie centrale est bien plus souvent choisie par les individus que les autres modalités de réponse. Reste à savoir si les individus ont répondu ainsi car ils se considèrent réellement au centre de l’échiquier politique ou simplement car ils ne savaient pas ou se positionner et ont choisi de s’économiser les couts de la réflexion.

Cet exemple permet d’atténuer l’effet de la catégorie centrale. En effet, cette catégorie moyenne existe mais du fait qu’on lui ait attribué un sens, elle devient plus évidente à interpréter.

De plus, la construction des modalités de réponses implique de se questionner quant à la formulation des réponses mais aussi quant à leur nombre. En effet, le chercheur peut décider d’offrir à ses répondants une modalité de réponse dichotomique (oui / non, d’accord / pas d’accord…) ou plusieurs catégories de réponses. Plus les catégories de réponses sont nombreuses, plus les informations collectées seront riches. Toutefois, elles deviennent également plus difficilement interprétables. Dans de très rare cas, le chercheur choisit d’offrir aux répondants de s’exprimer librement quant à la question posée (qualitatif). Cette modalité de réponse est choisie lorsque le chercheur ne parvient pas à constituer lui-même des catégories de réponse pertinentes
relatives à la question posée (si le
sujet est mal connu par exemple).
Généralement, aucune question
ouverte n’est présente dans les
enquêtes quantitatives.
Toutefois, ce tableau montre que
ces deux types de réponse
(ouverte ou fermée) ont chacune
des avantages et des
désavantages. Il est toutefois
possible de mobiliser les deux types de réponses (ouverte et fermée) en les combinant entre elles. Il s’agit de demandé à l’enquêté de répondre librement à la question posée et l’enquêteur rapporte ensuite lui-même la réponse à des catégories standardisées en fonction de ce qu’aura exprimé l’enquêté. Voici un exemple de ce type hybride :

Quelle qualité statistique ?[modifier | modifier le wikicode]

La qualité statistique est donnée par le format de réponse choisie par le chercheur. En effet, cela dépend du type de variables pour lequel le chercheur a opté. Elles peuvent être quantitatives (variables à intervalles ou variables dichotomiques) ou qualitatives (variables nominales ou variables ordinales). Il est aussi possible de combiner entre elles différentes questions pour obtenir des échelles, c’est d’ailleurs ce qui est fréquemment fait avec les variables ordinales. Toutefois, ces échelles correspondent parfois davantage à une réalité statistique que sociale, c’est à dire qu’elles font plus sens mathématiquement que pour les répondants eux-mêmes. Comme le montre ce schéma, les différentes variables permettent chacune de prendre en compte des éléments différents. Très peu de variables permettent de considérer le point 0 dans les réponses.

Les variables nominales sont considérées comme des variables catégorielles. En effet, les choix de réponse ne sont pas chiffrés si bien que c’est au chercheur de recoder lui-même les réponses au moment de l’analyse statistique. Voici un exemple de variable nominale :

Les variables ordinales sont des variables quantitatives puisque les réponses, bien que correspondant à une définition écrite, sont des réponses chiffrées que le chercheur peut directement utiliser lors de l’analyse statistique (exemple 1). En effet, il est bien plus facile pour un répondant de se positionner sur une échelle chiffrée lorsque les chiffres sont associés à une définition faite de mot, contrairement aux échelles numériques n’indiquant qu’une gradation dans les préférences de l’individu. Comment savoir si l’on se situe plus entre le 3 ou le 4, qui ne corresponde à rien d’explicite (exemple 2) :

Exemple 1 :

Exemple 2 :

De nombreuses recherches préfèrent actuellement utiliser des variables nominales, faisant plus de sens auprès des individus, bien que cela soit plus difficile à utiliser lors des analyses statistiques. Car en effet, choisir l’un ou l’autre de ces types de réponse est un enjeu important puisque lors de l’analyse statistiques, il ne sera pas possible d’utiliser les mêmes outils analytiques !

Sont-elles discriminantes ?[modifier | modifier le wikicode]

Toute analyse statistique a pour but de mettre en évidence des variations. En effet, les constantes sont peu intéressantes puisque la base de tous calculs statistiques repose sur les variances ! Il est toutefois utile d’utiliser les constantes dans la phase descriptive de la recherche, mais les analyses intéressantes ne portent pas sur elles. Ainsi, le premier graphe cherche à être éviter par les chercheurs, ne pointant aucune variation alors que le deuxième est statistiquement beaucoup plus intéressant.

  • Ainsi, il est important de proscrire les variables qui débouchent sur des constantes. On parle de discrimination en ce qu’il s’agit de ne considérer, pour l’analyse, que les variables donnant lieu à des variations pouvant être statistiquement analysées.

La structure du questionnaire[modifier | modifier le wikicode]

Une fois que les questions et les réponses ont été définies par le chercheur, il faut encore réfléchir à l’agencement de ces questions (associées à leurs réponses possibles) au sein du questionnaire. Il s’agit de définir l’ordre dans lequel les questions seront posées, la structure des sections composant le questionnaire et leur ordre entre elles mais aussi la longueur du questionnaire total. Ces considérations sont importantes car il s’agit ici d’éviter au maximum les effets de structures, c’est à dire que les questions s’influencent entre elle en ce qui concerne les réponses des répondants.

L’ordre des questions[modifier | modifier le wikicode]

Il est important de réfléchir à l’ordre dans lequel les questions seront présentées et ce, afin d’éviter au maximum l’interdépendance entre questions. Il est fréquent que les questions concernant un même objet soient présentées groupées dans un questionnaire. Toutefois, il faut faire attention à ce que les réponses données par les répondants ne soient pas influencées par l’ordre dans lequel les questions sont posées. Car il est vrai que l’influence entre question est bien plus grande lorsque les questions sont présentées en batterie, par rapport à un questionnaire ou elles seraient réparties dans toute sa longueur. C’est toutefois pour rendre le questionnaire plus cohérent et pratique que les batteries de questions sont fréquemment utilisées par les chercheurs. C’est donc dans le but d’éviter les distorsions que l’ordre des questions doit être réfléchi. Il faut toutefois être attentif au fait que s’il on décide de reprendre une batterie de questions d’une enquête déjà effectuée dans le but de comparer les résultats obtenus, il faut que les questions restent dans le même ordre et ce, pour ne pas créer des effets de structures différents pouvant influencer les réponses et donc induire de fausses variations. Voici un exemple d’interdépendance entre question qui pointe très clairement que le fait de répondre en premier à la question 1 influence la réponse donnée à la question 2 :

La structure des sections[modifier | modifier le wikicode]

L’enjeu premier de la structure des sections du questionnaire est de laisser les structures de sens des individus remonter. Ainsi, une section doit être une séquence logique permettant à l’individu se structurer progressivement sa pensée. C’est pourquoi on commence toujours avec les questions les plus faciles, demandant le moins de réflexion possible. Ensuite, on place les questions plus difficiles, le répondant pouvant s’appuyer sur ses précédentes réponses pour structurer un avis, avant de terminer par les questions les plus intrusives. En effet, il est très important de les placer à la fin et non au début, au risque de faire fuir un certains nombres de répondants.

La longueur du questionnaire[modifier | modifier le wikicode]

La longueur du questionnaire est aussi un enjeu important. Un questionnaire trop long risque de perdre tout une partie des répondants n’ayant pas suffisamment de temps à y consacrer. C’est pourquoi il est communément admis qu’un questionnaire ne dois pas durer plus de 30 à 45 minutes. C’est pourquoi les questions présentées au sein du questionnaire, en plus de comporter tous les précédents points discutés, doivent être efficaces et utiles. Toutefois, cela ne représente qu’un ordre de grandeur qu’il faut adapter à la population étudiée. En effet, il sera possible de questionner plus longtemps certaines populations, comme des gens intéressés par la politique, et bien moins longtemps d’autres populations, comme des personnes âgées. De plus, la longueur du questionnaire doit prendre en compte le mode de passation utilisée. Un questionnaire passé en face à face durera plus long qu’un questionnaire administré par téléphone, qui lui-même sera plus long que les questionnaires auto-administrés (internet, papier…).

Conclusion[modifier | modifier le wikicode]

Lorsque l’on agence un questionnaire, il faut être attentif à l’ordre des questions afin de limiter au maximum les effets de structures. De plus, réfléchir à la structure des sections au sein du questionnaire est un enjeu important puisqu’elle doit servir à faire remonter les structures de sens des répondants et ainsi, éviter les réponses « de surface » (répondre la première chose qui nous vient à l’esprit). Enfin, la longueur du questionnaire doit être adaptée à la population cible ainsi qu’à la méthode de passation et ce, afin de ne pas décourager de répondants.

Passation du questionnaire[modifier | modifier le wikicode]

Comme nous l’avons préalablement dit, il existe trois types d’administration de questionnaire. Choisir l’un plutôt que l’autre implique une réflexion importante puisque la manière de faire passer le questionnaire aura une influence sur les réponses récoltées. Un questionnaire peut être passé : 


  • En face à face, c’est à dire que l’enquêteur et l’enquêté se retrouve lors d’un entretien au cours duquel l’enquêteur fait passer le questionnaire au répondant. Cela peut influencer les réponses de l’enquêté et ce, en fonction des propriétés sociales de l’enquêteur (femme, personnes de couleur, handicap…). 

  • En face à face indirect, c’est à dire que l’enquêteur fait passer le questionnaire à l’enquêté sans être physiquement présent. C’est le cas des études par téléphone par exemple. Ce mode de passation annihile un certain nombre de biais, le répondant ne pouvant pas, de par ses propriétés sociales influencer le répondant puisque ce dernier n’a pas de contact direct avec lui. 

  • Par auto-administration, c’est à dire que le répondant répond seul au questionnaire. C’est la technique la moins couteuse mais aussi la moins fiable. 

  • Ainsi, le chercheur choisira l’une ou l’autre de ces méthodes de passation de questionnaire en fonction de la population cible, du taux de réponse désiré, de la longueur du questionnaire mais surtout en fonction des ressources à disposition (temps mais surtout argent). Chaque type de passation de questionnaire comporte des avantages et des inconvénients, comme le résume bien les deux tableaux suivants : 


Les pré-tests[modifier | modifier le wikicode]

Une fois les questions, les modalités de réponses et le questionnaire agencé dans son ensemble, les chercheurs lui font passer des pré-tests. Jamais un questionnaire n’est directement soumis à la population cible. Les pré-tests permettent de déceler tous problèmes induit pas le questionnaire. Cela permet également de détecter si certaines questions débouchent sur des variables qui sont peu pertinentes pour l’analyse statistique. Le but est de voir si les personnes participant au pré-test…

  • Comprennent uniformément les questions 

  • Si les catégories de réponses proposées font sens pour eux 

  • Si les catégories de réponses sont exhaustives 

  • Si les effets de structures ne sont pas trop grands 

  • Si le questionnaire leur semble cohérent 

  • Si la longueur du questionnaire n’est pas trop grande

La plupart du temps, les pré-tests se font auprès de 25 à 75 personnes au sein de la population sondée. Le nombre de pré-tests n’est préalablement pas connu puisque cela s’effectue de manière circulaire et ce, jusqu’à ce qu’un nouveau pré-test ne décèle plus aucun problème au sein du questionnaire. C’est pourquoi on peut dire qu’au minimum, deux pré-tests doivent être effectués avant la passation véridique du questionnaire. 


Conclusion[modifier | modifier le wikicode]

Ainsi, lorsque l’on construit les réponses proposées aux répondants, il faut tout d’abord se demander si les individus pourront, par ce biais, répondre à la question posée. La formulation des questions doit être réfléchie et ce, afin de garantir la fiabilité des mesures obtenues par ce biais. Il s’agit également de décider d’inclure, ou non, une catégorie de réponse permettant aux répondants de ne pas se prononcer sur un objet. En effet, savoir si oui ou non on force les répondants à se positionner est un réel enjeu pour l’analyse statistique. De plus, bien que les réponses dichotomiques soient très simples à analyser, elles ne permettent pas de récolter des informations riches quant aux répondants si bien que le nombre de réponses proposées aux individus doit également être réfléchi. Enfin, la forme même des questions est primordiale puisqu’elles impliquent d’analyser les données de manière particulière. Par souci d’efficacité, très peu voir aucune question ouverte n’est posée dans les enquêtes quantitatives. Pour ce qui est de la qualité statistique visée par le chercheur, elle dépend directement du type de réponses proposées. Elles peuvent être nominales, ordinales, à intervalles ou dichotomiques. Selon le type choisi, l’analyse des données s’en verra affectée. Il faut toutefois être attentif au sens sociologique de la réponse ! En effet, bien que les échelles chiffrées soient très pratique d’un point de vue statistiques, elles peuvent manquer de sens pour les répondants. Enfin, il faut se demander si les réponses sont statistiquement discriminantes. C’est toujours avec le même souci d’observer des variations que le chercheur tente de récolter par le biais de questions posées des différences entre les individus. C’est pour cela qu’avant chaque enquête, on effectue des pré-tests !

En résumé, on peut dire que l’élaboration d’un questionnaire standardisé est un travail minutieux. Chaque étape est essentielle et nécessite une réflexion approfondie pour assurer la qualité des données récoltées. C’est pourquoi l’élaboration d’un questionnaire représente une étape difficile dans la mise en place d’une recherche quantitative.

Analyses uni-,bi- et tri-variées, Quelles utilités pour la recherche ?[modifier | modifier le wikicode]

Introduction générale[modifier | modifier le wikicode]

L’analyse univariée nous permet de décrire des variables et comment une variable est distribuée. L’analyse univariée est aussi importante quand on fait la plausibilité d’un jeu de données. Par exemple, quand on récolte nos données, on regarde toutes les fréquences de toutes les variables pour voir s’il y a des problèmes. A chaque recodage, il est utile de tirer des fréquences pour voir s’il n’y a pas de missing.

Au niveau bi-varié, on peut regarder des corrélations ou associations entre deux variables mais on doit toujours veiller au risque de fausse relation.

Analyse univariée[modifier | modifier le wikicode]

C’est l’analyse la plus basique. Elle sert à décrire une variable d’où le nom univariée tel que combien de femmes on a dans notre échantillon ? Cette analyse permet de regarder la distribution, la fréquence et le pourcentage d’items dans une variable. Elle permet également de regarder la centralité et la dispersion d’une variable à travers la moyenne et la médiane et pour d’autres types de variables, à travers la moyenne et l’écart-type.

Utilité de l’analyse univariée[modifier | modifier le wikicode]

Ce sont des informations clés qu’on veut savoir. Par exemple, si on travaille sur l’action protestataire, je veux savoir si je travaille sur un phénomène marginal ou important de notre société. Elle permet aussi d’expliquer un processus. La description peut se faire dans le temps et l’espace mais dans le cas de l’explication qui est un cas plutôt rare dans la recherche, elle a lieu quand la variable n’est pas mesurée ou qu’on ne peut pas mesure la variable indépendante. Ainsi, l’analyse descriptive est capable de nous faire connaître un objet ou un phénomène. Comme le dit Bunge, pour accroître la connaissance sur un phénomène, il faut pouvoir le décrire et l’expliquer.

  • Exemple : protestation politique dans les démocraties

L’analyse univariée ne permet pas seulement de décrire une variable dans une base de données mais aussi de suivre une variation dans le temps et l’espace. Avec ce type d’analyse, on peut répondre aux questions comme « est-ce que le protestation politique est stable ou fluctuante dans le temps ? », « Est-ce qu’on retrouve plus/moins de protestation en Suisse depuis 1968 ? ». On peut également tenter d’expliquer une variation à travers des moments qui ont eu lieu à un moment donné. On peut également analyser si la protestation politique varie dans l’espace. Cette comparaison peut aider à expliquer la variation à travers les institutions politiques. Par exemple, Kriesi a montré pourquoi il y a beaucoup de grèves en France et comparativement, peu en Suisse ? Leur hypothèse c’est que c’est lié aux institutions politiques des pays respectifs.

  • Exemple : stabilisation des conflits politiques et démocratie (Bartolini et Mair)

L’objectif majeur de leur étude est de tester la thése de Rokkan et Lipset qui dit que les conflits majeurs dans une société sont organisés autour de 4 grands clivages politiques qui sont entre le capital et le travail, entre l’Eglise et l’Etat, entre la ville et la campagne et entre le centre et la périphérie. Ces clivages sont représentés par les partis politiques majeurs dans un pays. Du coup, les partis politiques majeurs reflètent les conflits politiques les plus importants et permettent ainsi de stabiliser et représenter ces conflits au niveau politique. Le clivage de classe est le conflit politique le plus célèbre et il est traditionnellement représenté par un parti précis. Grâce à ce processus d’intégration politique de ces conflits sociaux, on assiste à une organisation t à un déclin de ces conflits et ainsi à une stabilisation de la démocratie puisque l’électorat a pu s’aligner derrière les partis représentatifs traditionnellement pour ce genre d’intérêts.

Bartolini et Mair utilisent un dessin de recherche qusi-expérimental de groupes identifiées en amont (pays) Ils font cette comparaison dans le temps et l’espace. Ils utilisent un temps très long (un siècle) et ils comparent 13 pays européens. L’unité d’analyse sont les individus ou plus précisément, le vote des individus agrégés par période de 5 ans et par pays. Ils utilisent des données exhaustives donc pas de sondage et d’échantillon de toutes les élections ayant eu lieu dans chaque pays. Avec ces données, ils ont créé une mesure de « volatilité » qui mesure combien de gens ont changé de camp politique d’une période à une autre. Comme on n’a pas à faire à des mesures de ce que les gens pensent ou disent ce qu’ils ont fait mais à des chiffres officiels, donc ce sont des bonnes mesures en termes de validité. De mesure similaire, pour augmenter la fiabilité, on se retrouve avec deux indicateurs pour la volatilité du clivage de classe :

  1. Une moyenne sur 5 an : meilleure lisibilité des courbes
  2. Moyenne sur 5 ans et 1 an : pour voir s’il n’y a pas de biais (variations erratiques)

[[File:./media/image134.emf]]Leur hypothèse est affirmée puisqu’une stabilisation politique signifie qu’il y a moins de volatilité. Sauf qu’il y a des controverses liées à la volatilité électorale et clivage. On assiste à une émergence de nouveaux clivages puisque de le clivage de classe n’existe plus et à une hausse de la volatilité électorale à partir des années 1990.

  • Exemple : citoyenneté contestée (Koopmans, Statham, Giugni, Passy)

Question de recherche : Les migrants arrivent-ils à se mobiliser politiquement dans leur pays d’accueil ? Cette étude fait le constat en 2005 que le sujet de la migration est des relations ethniques sont des enjeux vivement débattus dans nos sociétés. Ce débat tourne autour de la question de l’Etat-nation, c’est-à-dire que c’est l’Etat-nation qui définit les paramètres du fait « d’être suisse » donc il joue un rôle important tout comme la migration. Donc les auteurs essaient de lier l’Etat-nation à la migration. Comme la nation et surtout l’accès à la nation est au cœur de ce débat, ce sont des débats qui varient en fonction de l’Etat. Les auteurs appellent cela des débats à géométrie variable qui varient dans leur contenu qui est discuté mais également dans le type d’acteurs et le mode d’action utilisé dans un pays différemment. Dans chaque pays, ce débat a des caractéristiques spécifiques. L’accès à la nation ne signifie rien d’autre que la conception de la citoyenneté qui est au centre de ce débat. A nouveau, cette conception varie d’un pays à l’autre et par conséquent, les enjeux migratoires peuvent être placés de manière variée sur l’agenda politique.

L’opérationnalisation des régimes de citoyenneté ou de l’accès à la nation se fait sur 2 dimensions :

  1. Accès individuel : entrée dans l’espace national. L’accès civique contre l’aspect ethnique (le droit du sol VS le droit du sang).
  2. Accès collectif : mesure le fait de vivre ensemble et plus précisément si dans un pays on accentue plutôt la diversité ou une assimilation culturelle.

Conséquences de régimes de citoyenneté sont fortes et multiples. Les auteurs soulignent deux impacts majeurs, à savoir que ces régimes exercent une influence sur l’intégration/exclusion de migrants et d’autres part, ces régimes posent des structures contraignantes pour participer au débat politique et la mobilisation politique.

Pour la Suisse, cela a créé du débat ! A partir de ce cadre théorique, ils choisissent leur cas d’étude : Suisse, France et GB :

L’étude et ses analyses[modifier | modifier le wikicode]

On se retrouve dans une comparaison de groupes (pays) qu’ils ont pu identifier en amont. Donc on est dans un dessin de recherche quasi-expérimental. L’unité d’analyse sont les acteurs collectifs et notamment leurs actes de paroles et de mobilisation. Les chercheurs ‘s’intéressent à qui parlent dans un acte de parole ou qui se mobilisent, comment ils se mobilisent (type d’action) et avec quel message. Pour mesurer cela, ils utilisent la presse écrite et ils ont codé une édition sur deux pendant 10 ans. Attention, on pourrait croire que les 10 ans impliquent une comparaison dans le temps mais ce n’est pas le cas ! Ils ne regardent pas une comparaison dans le temps puisque les 10 ans ne doivent pas être pris en compte dans le dessin de recherche. Ils ont choisi de récolter des données pendant 10 ans pour augmenter la validité de leurs mesures et d’éviter des variations conjoncturelles. S’ils avaient pris une année particulière, il y aurait eu un biais sur leurs résultats censés être généralraislb.es Ils présentent surtout des fréquences qui comparent les actions d’acteurs publics dans différents pays. C’est une analyse centrée sur le cas, typiquement pour un dessin quasi-expérimental. Sauf qu’ils ne peuvent pas mesurer directement le régime de citoyenneté.

Résultat : les migrants sont-ils porteurs de leur propre revendication ? Si oui, est-ce le cas dans tous les pays ? La Suisse dispose d’un des régimes les plus contraignants avec un accès à la citoyenneté civique et un monisme culturelle. La conséquence serait-elle que les migrants ne se mobilisent pas ou qu’ils sont exclus de l’espace public ?

[[File:./media/image136.emf]]Si on compare ce pourcentage relatif entre les différents pays, on constate qu’il y a une moindre mobilisation en Suisse qu’en GB. Il semble qu’il y a peu de différence entre la France et la Suisse. Donc il se pourrait que ce ne soit que l’accès collectif qui tranche cette différence. Donc le régime de citoyenneté est plus contraignant en Suisse que dans les deux autres pays.

Conclusion : concernant le régime en Suisse, il y a double contrainte. En tout cas, pour ce qui concerne la mobilisation des migrants eux-mêmes en suisse pour des revendications destinées à la Suisse. EN même temps, l’enjeu de migration est essentiellement porté par des acteurs collectifs de solidarité et d’autres acteurs qui s’engagent sur plusieurs enjeux (UNIA). Ces acteurs « suisses » semblent fonctionner comme des relais politique pour les revendications des migrants.

Migrants en Suisse : que conclure ?

AU niveau thématique, les résultats semblent indiquer que les institutions de citoyenneté excluent fortement la mobilisation de certains acteurs et notamment des migrants eux-mêmes mais également le relais politique privilégié. Ceci fait la lutte pour la voix des migrants et contre le racisme, une des luttes les plus compliquées de nos jours.

Au niveau méthodologique, les analyses descriptives ne servent pas seulement à décrire mais également à comprendre et expliquer des processus sociaux.

Analyse bi-variée[modifier | modifier le wikicode]

Elle constitue un premier pas dans l’analyse causale et met en relation deux variables. Les outils statistiques qu’on utilise sont les tableaux croisés, la comparaison des moyennes et les corrélations.

Utilité de l’analyse bi-variée[modifier | modifier le wikicode]

Dans ce cours, on nous apprend l’analyse statistique par étape et on passe du simple au complexe. Cela est nécessaire pour déjouer les problèmes si on passe directement à l’analyse multivariée. L’analyse bi-variée nous montre s’il y a une association entre deux variables aussi elle permet de visualiser la nature de la relation : est-elle linéaire ou plurilinéaire ou une autre forme de relation entre deux variables. Ceci est crucial puisque dans une analyse univariée, on ne peut pas le voir et du coup, ça peut donner des relations non-significatives et donc inexistantes mais c’est juste parce que la relation est inexistante. Par exemple, l’âge est plurilinéaire. L’étape bivariée est une étape incontournable de l’analyse statistique mais rarement suffisante parce qu’on ne peut pas contrôler les causes concurrentes et donc éviter les relations fallacieuses. On ne peut s’arrêter au niveau bivariée.

Analyse tri-variée[modifier | modifier le wikicode]

C’est le premier pas vers le contrôle et on met en relation deux variables sous le contrôle d’une 3ème variable. Les outils statistiques utilisés sont les mêmes que pour l’analyse bivarée. On utilise également des tableaux croisés, des moyennes comparées, des corrélations partielles et des régressions multiples (linéaires, logistiques). L’analyse tri-variée n’a pas de propre outil statistique.

Utilité de l’analyse tri-variée[modifier | modifier le wikicode]

Elle joue un rôle clé vers une approximation de la causalité parce qu’elle permet de contrôler si une relation au niveau bivariée subsiste au contrôle d’une troisième variable. Dans l’analyse tri-variée, on peut détecter ce qui se cache derrière. Cependant, pour avoir un petit retour de l’analyse causale, ce n’est pas seulement par l’analyse multivariée qu’on peut contrôler pour la causalité. L’enjeu pour ce niveau d’analyse est le contrôle de la causalité et donc de déceler les fausses relations et d’identifier les causes concurrentes. C’est pourquoi la théorie joue un rôle essentiel, permettant de déjouer en amont les causes concurrentes ou les fausses relations. Ainsi, le contrôle peut s’effectuer à divers moments de la recherche en fonction du dessin de recherche plébiscité par le chercheur (expérimentaux = contrôle ex-ante, corrélationnels = contrôle ex-post).

Logique et analyse du contrôle[modifier | modifier le wikicode]

  • Si X a véritablement un effet sur Y, cet effet devra perdurer malgré l’introduction de causes concurrentes |R.
  • Si X à Y n’est pas une relation fallacieuse, alors l’effet de X devra perdurer après l’introduction d’une cause concurrente |R.

Logique du contrôle ex-post[modifier | modifier le wikicode]

Ainsi, le contrôle ex-post tente de déterminer si l’introduction d’une nouvelle variable influence la relation postulée entre X et Y. Si la relation ne se maintient pas, quatre explications sont possibles :

Nous nous trouvons dans une relation fallacieuse : C’est à dire que la relation supposée est une fausse relation car un autre effet se cacher derrière elle. La relation X1 à Y ne se maintient pas lorsque X5 est introduit. Ainsi, c’est X5 qui se trouve être la véritable cause de la relation entre X1 et Y. C’est par exemple le cas lorsque l’on observe pour ce qui est de l’acceptation de la légalisation de l’avortement. Les jeunes acceptent plus grandement cela par rapport aux vieux si bien que l’on pourrait conclure à une relation entre âge et acceptation de l’avortement. En réalité, c’est l’éducation qui se trouve être la cause de cela.

On peut se trouver dans un cas de multicolinéarité. C’est à dire que les deux causes appliquées à la variable dépendante ne sont pas indépendantes l’une de l’autre ! L’effet de X1 est restreint pas X5 , qui est corrélé à X1 et diminue son pouvoir explicatif. Ainsi, X1 n’explique pas un élément et X5 un autre mais bien le même de manière associée. Sur le schéma, on voit que les deux causes associées diminuent par la même
leur pouvoir explicatif contrairement au cas où ces deux
causes auraient été indépendantes.
Voici un exemple. X1 et X2 explique
Y, les deux ont un effet mais le poids explicatif des deux est diminué de par cette association.

On peut également assister à un effet médiatisé, c’est à dire que l’effet de X1 sur Y est médié par une seconde variable. Ainsi, l’effet de X1 est réduit par le présence de X5 , c’est pourquoi on peut parler d’effet indirect. Sur l’exemple, on voit comment un effet médiatisé peut exister entre la confiance gouvernementale, la participation électorale et l’efficacité politique.

Enfin, on peut être en présence d’un effet d’interaction. Il en existe deux types. Il peut être conditionnel, c’est à dire que l’effet X1 ne s’exerce sur Y que si la variable X5 est présente, ou variable, c’est à dire que l’effet de X5 sur X1 varie selon les catégories considérées. Par exemple, on sait que l’impact d’une manifestation dépend de l’opinion publique sur elle. Un autre exemple peut être l’impact du genre sur la participation électorale. Bien que l’on voit que les femmes participent moins que les hommes, le genre n’est pas la variable explicative première puisque c’est avant tout le niveau d’éducation qui influence la participation électorale. Ainsi, on voit que cette variable influence différemment selon le groupe socioculturel d’appartenance comme le montre ce graphique.

Une analyse importante[modifier | modifier le wikicode]

Ainsi, l’analyse tri-variée est très importante puisqu’elle permet de rendre compte des relations sous-jacentes et constitue le premier pas du contrôle (exclure des relations fallacieuses, examiner l’interdépendance des VI (multicolinéarité), réfléchir aux éventuels effets médiatisés, détecter les effets d’interactions. Toutefois, ce niveau n’est toujours pas suffisant pour ce qui est de l’analyse statistique. En effet, le niveau multivarié est très fréquemment utilisé pour contrôler l’effet de plusieurs causes concurrentes sur une variable dépendante. C’est ce que l’on appelle les analyses de régression multiple. De plus, cette analyse constitue le premier pas du contrôle où on peut contrôler les effets des causes concurrentes tel que l’effet de l’âge sur la législation de l’avortement ; relation fallacieuse ? (contrôlé par l’éducation), multicolinéarité (entre intérêt politique et éducation) et relation additive ?

Conclusion[modifier | modifier le wikicode]

L’analyse uni-variée est très importante puisqu’elle permet de décrire les variables et de commencer à les expliquer. L’analyse bivariée est tout aussi cruciale bien que problématique, ne permettant d’avoir aucun contrôle sur nos variables. C’est pourquoi on passe à un niveau d’analyse plus complexe que représente l’analyse tri-variée. Elle consiste en le premier pas du contrôle et permet de vérifier si l’intervention d’une cause concurrente impacte ou non la relation premièrement observée. Toutefois, elle n’est également pas suffisante, c’est pourquoi on passe alors au niveau mutli-varié. On a besoin de méthodes d’analyse plus puissantes telle que l’analyse de la régression multiple. Ainsi, on va toujours du niveau le plus simple au niveau le plus complexe lorsque l’on effectue des analyses statistiques.

Analyses multivariées : leur utilité pour la recherche[modifier | modifier le wikicode]

Rappel[modifier | modifier le wikicode]

  • Analyses univariées
    • Description de la distribution d’une seule variable
    • Fréquences, tendance centrale (moyenne, médiane etc) et dispersion (écart-type, écart interquartile etc.
  • Analyses multivariées

C’est une mise en relation de plusieurs variables pour voir comment elles sont associées. Les analyses bi-variée et tri-variée sont des cas particuliers. L’usage voudrait qu’on parle d’analyse multivariée dès lors qu’on analyse plusieurs variables.

  • Analyse bivariées

Mise en relation de 2 variables. On utilise des corrélations, des comparaisons de moyennes, des tableaux croisés et des régressions simples dans ce cas d’analyse. Sauf qu’on n’est pas à l’abri d’une relation fallacieuse, à savoir qu’on peut avoir une corrélation entre deux variables mais il n’y a pas de sens en termes de causalité.

  • Analyses trivariées

C’est une mise en relation de 2 variables sous contrôle d’une 3ème. On utilise les mêmes outils statistiques pour une analyse bivariée et de plus, il y a la régression multiple. Néanmoins, si le contrôle est limité, quelles sont les causes concurrentes ?

  • Autres analyses multivariées

C’est une mise en relation de plus que 3 variables. On utilise des régressions multiples et d’autres méthodes plus complexes dont on ne va pas triater.

Régression multiple[modifier | modifier le wikicode]

La logique, on cherche à expliquer/prédire un phénomène et c’est une variable expliquée/dépendante notée Y. A côté de ça, on a une série de variables indépendantes ou explicatives notées X. On cherche à trouver leur effet sur la variable dépendante.

Variable de contrôle VS indépendante : mathématiquement, il n’y a pas de différence. C’est une distinction théorique, c’est le chercher qui décide ce qui l’intéresse vraiment, les variables dont l’effet l’intéresse et les variables de contrôle sont là pour contrôler.

2 usages de la régression multiple[modifier | modifier le wikicode]

  • Expliquer un phénomène social dans son ensemble
    • Objectif d’expliquer un maximum de la variance de ce phénomène (variable dépendante) et c’est pour ça que l’examen du R2 nous donne l’indice de combien de variance on explique de ce phénomène.
    • Avantage par rapport aux autres types d’analyse : on peut tester des choses plus complexes. On peut introduire plus de facteurs explicatifs et par définition, on a plus de chance de cerner le phénomène qu’on cherche à expliquer (notamment par le R2).
  • Expliquer l’influence de certains facteurs en particulier
    • On est moins intéresser à expliquer un phénomène dans son ensemble mais on a un intérêt en se demandant quel est l’influence d’une variable en particulier.
    • Avantage c’est ce fameux toute chose égale par ailleurs – ceteris paribus qui nous permet de dire qu’en contrôlant tout un paquet de facteurs, la variable qui nous intéresse a un effet. Si on garde tout le reste constant, on peut dire qu’une variable a un effet. En gros, l’avantage de la régression multiple est qu’elle permet de contrôler l’effet des causes concurrentes.
  • Coefficients (standardisés et non-standardisés) sont plus importants, R2 est moins intéressant sauf si comparaison de modèles « avec/sans » la variable clé. Le R2 : de combien de variance supplémentaire on peut expliquer en ajoutant cette variable explicative.

Différents types de régression multiple[modifier | modifier le wikicode]

Le type de régression utilisée dépend du niveau de mesure de la variable dépendante (Y).

Interprétation[modifier | modifier le wikicode]

B = coefficient de régression / e = terme d’erreur (estimation statistique) / H0 = hypothèse avec pas d’effet

Interprétation[modifier | modifier le wikicode]

Régression logistique binaire[modifier | modifier le wikicode]

Dans l’absolu, le R2 ajusté est difficile à interpréter par contre pour comparer des modèles, le R2 ajusté peut être utile en disant que celui qui a le R2 ajusté le plus grand, c’est le meilleur modèle.

Le logit, c’est une quantité mathématique qui est difficile à interpréter. Raison pour laquelle on utilise le plus souvent les odd ratios. Le coefficient, la valeur de référence est 0 pour voir la relation est + ou -. Pour les odd rations, la valeur de référence est de 1. Si on est entre 0 et 1, on a une relation négative, si on est au-delà de 1, la relation est positive.

Les cotes = on est à 1 contre 3 ; en gros, sur 4 situations, il y a 1 dans laquelle on gagne et 3 dans laquelle on perd. Dire la côte est de 1 contre 3, on a 1 chance sur 4 de gagner.

Vu que la valeur de référence pour 1 (OR), l’intervalle de confiance comprend-elle le 1 ?

()R2 : pourcentage de variance qu’on explique en plus à chaque nouveau bloc

Régression multiple : exemple[modifier | modifier le wikicode]

Régression multiple : exemple 2[modifier | modifier le wikicode]

Comment analyser / évaluer des études de manière critique ?[modifier | modifier le wikicode]

Caractéristiques méthodologiques – en amont des analyses[modifier | modifier le wikicode]

  • Dessins de recherche : expérimental, quasi-expérimental, corrélationnel
  • Type de données : primaires ou secondaires ; échantillonnées ou exhaustives, unité d’analyse
  • Type de récolte des données : échantillonnage, autre
  • Mesures : variables dépendantes et indépendantes

Analyses[modifier | modifier le wikicode]

Types d’analyses[modifier | modifier le wikicode]

  • Univariées : Fréquences, moyennes, médianes
  • Bivariées : Tableaux croisés, comparaison de moyenne (Anova), corrélation
  • Trivarieés : Tableaux croisés, comparaison de moyenne (Anova)
  • Multivariées : régressions linéaires, régressions logistiques

Statistiques mobilisées[modifier | modifier le wikicode]

  • Univariées : n / %,moyennes (écart-type), médianes (ei)
  • Bi-tri-variées : n / &, moyennes / association (gamma, etc) / sig (p-valeur)
  • Multivariées : n / association (b/B) et sig (p-valeur) / Variance exp (R2)
  • Synthèse : distribution, association, significativité, variance expliquée

Les questions que l’on se pose ?[modifier | modifier le wikicode]

Identifier, interpréter, discuter[modifier | modifier le wikicode]

  1. Identifier : qu’est-ce que c’est ?
  2. Interpréter : expliquer, pourquoi ?
  3. Discuter : adéquation, est-ce que c’est adéquat ?
    1. Points forts
    2. Biais possibles et leurs impacts sur les résultats
    3. Discussion réflexive

Méthodes statistique : introduction[modifier | modifier le wikicode]

Les méthodes statistiques sont mobilisées lorsqu’ils s’agissent de faire une analyse avec de nombreux éléments à analyser, que ce soit des caractéristiques ou des éléments. Elles peuvent être utilisées autant pour des données numériques, comme l’âge, mais également en transformant des catégories qu’on « traduit » en nombres. Nous reviendrons sur cela plus tard dans ce cours. En somme, l’utilisation de statistique possède deux types d’utilisation particulières les statistiques descriptives et les inférences statistiques.

-       Statistiques descriptives : Simplifier, donner des informations en un coup d’œil, permet de faire des graphiques

-       Les inférences statistiques : Depuis les données que l’on a à disposition on essaie de généraliser et de tirer des lois générales.

La statistique exploratoire ou descriptive[modifier | modifier le wikicode]
  • Simples à comprendre
  • S’appliquent à beaucoup de données (flexibles)
  • Se basent sur des représentations graphiques

Elle étudie la « structure » de groupe de données, détecte les tendances, les formes, les observations atypiques… Elle suggère des hypothèses de travail et des modèles qui peuvent être formalisées et vérifiées dans le deuxième pôle.

L’inférence statistique[modifier | modifier le wikicode]

Elle conduit à des conclusions statistiques à partir de données en utilisant des notions de la théorie des probabilités. Cette partie s’occupe des méthodes de test et d’estimation.

Nous en tant qu’étudions, on est un échantillon de la population qui est l’ensemble de la population de l’université de Lausanne. La statistique référentiel part de l’échantillon puis on se demande si on peut l’extrapoler à tous les étudiants mais dans une certaine mesure. Il faut faire attention en indiquant la marge d’erreur (fiabilité de passer à un sous-ensemble (échantillon) à une population complète). L’inférence statistique, on va donner des notions de fiabilités, une mesure de confiance, quelle est la confiance qu’on apporte dans l’extrapolation.

L’Analyse des données et leur interprétation[modifier | modifier le wikicode]

L’analyse quantitative offre une multitude d’outils mais il faut sélectionner les outils en fonction de notre recherche. De la même manière qu’on choisit un outil particulier pour une tâche particulière. C’est sur la composition de cette boite à outil que nous allons nos atteler, en essayant de décrire chaque élément qui la compose, et bien sûr, ce n’est pas exhaustif.

D’autant plus, il est possible aujourd’hui de récolter tellement des données qu’il est d’autant plus important de devenir rigoureux. Ce n’est pas parce qu’on peut voir que quelqu’un a utilisé des « Big Data » et des millions de d’individus analysé que l’étude est meilleure ou plus représentative. Faire bien avec peu, est mieux que faire n’importe quoi avec un grand volume.

Finalement, l’important c’est toujours de revenir à la question à laquelle nous souhaitons répondre si il s’agit de notre recherche, ou voir si ce que nous présente un article de presse permet effectivement d’étayer et d’illustrer un argument. Le sujet définit un cadre de complexité, que nous essayons de réduire en fonction des données à dispositions, et des méthodes d’analyses que nous pouvons maitriser.

Dans cette idée de découpage de complexité, une analyse suit finalement un schéma simple : On va du plus simple au plus compliqué. On va voir des petits groupes de données et ce qu’on peut dire dessus, et on essaie de dire quelque chose sur un plus grand groupe, puis sur tout le groupe. A chaque niveau il est possible de tirer des conclusions.

Quand on regarde une seule variable, on parle d’analyse univariée. On regarde les notes des élèves à un examen, on peut dire combien ont eu la moyenne, combien ont eu un, combien ont eu 6.

Lorsqu’on combine deux variables, on parle d’analyse bivariée. On regarde une variable en fonction d’une autre. Si un groupe a passé un examen le matin, et l’autre l’après-midi, on peut comparer les notes des deux groupes et voir si le fait d’avoir passé l’examen le matin ou l’après-midi, a eu une répercussion sur la note des élèves.

Quand on essaie d’analyser une multitude de variables, on parle de modèle multivarié. Peut-être que ce n’est pas seulement de passer le test le matin ou l’après-midi qui a un impact sur la note, mais c’est dû à diverses causes : Les étudiants de l’après-midi on eut accès aux questions du groupe du matin pendant la pause de midi et ont eu des meilleures notes, ils sont mieux révisé, manger à midi permet de mieux se concentrer. En prenant en compte une multitude de facteurs, on essaie d’avoir une explication plus précise, mais bien sûr, pas forcément complète.

Comme on le voit, pour un même cas, on va donc d’une description semple, puis on monte en complexité, en vue d’essayer de mieux comprendre. On essaie de comprendre un élément en fonction des autres, et d’essayer de maximiser cette compréhension en continu.

Vocabulaire[modifier | modifier le wikicode]

Unité statistique Le plus petit sur lequel on porte l’analyse statistique
Variable statistique Caractéristique d’une unité statistique
Modalités Valeurs distinctes que prend une variable statistique ; différentes valeurs possibles prises par une variable statistiques. Par exemple la variable statistique cheveu et unité étudiant, on peut avoir plusieurs couleurs pas en fonction de la couleur de cheveux de notre échantillon.
Population Ensemble sur lequel on porte une étude statistique ; ce sur quoi porte l’étude
Echantillon Sous-ensemble de la population
Paramètre Une mesure calculée sur la population entière
Statistique Une mesure calculée sur un échantillon (tiré d’une population)

Variables et modalités[modifier | modifier le wikicode]

Comme son nom l’indique, une variable peut avoir différentes valeurs. Les différentes valeurs qu’elle peut prendre sont nommées modalités. Si on demande à un nombre d’individus ce qu’ils vont voter à la prochaine votation populaire, ils répondront surement : Oui, non, vote blanc, je ne sais pas. Il y aurait donc 4 modalités. Mais si vous n’avez pas définit les modalités à priori, et que vous laissez répondre une personne ce que bon lui semble, il se peut qu’il dise : C’est pas faux, car il n’avait pas compris la question mais n’osait pas le dire. Si vous analysez vos réponses par la suite, vous aurez alors 5 modalités.

Les modalités dépendent donc de ce qu’on a défini a priori, si on remplit un questionnaire on ne peut que cocher des cases, ou simplement de toutes les possibilités possibles que l’on a récoltées ou observées.

Types de variables[modifier | modifier le wikicode]

Il existe différents types de variables. Une classification habituelle utilise les 4 catégories suivantes :

Il existe différents types de variables. Une classification habituelle utilise les 4 catégories suivantes :

A.   Variables qualitatives – catégorielles :

a.     Nominales : Des catégories qu’on ne peut pas compter, comme le type d’ordinateur que quelqu’un utilise.

b.     Ordinales : On peut classer ces variables dans un ordre. Si je demande de personnes sur un film je peux ordonner les réponses. Nul, Bien, Excellent.

B.    Variables quantitatives – numériques :

a.     Discrètes : On peut les compter. Le nombre d’heures de minutes passées à lire ce ce document.

b.     Continues : Elle se situent dans un intervalle. Le nombre de pas que j’ai effectué chaque jours de la semaine si situe entre 0 et le maximum que j’ai fait. Je ne peux pas faire 1 000 000 de pas par jours, ni - 4. Les valeurs sont donc dans un intervalle.

Les analyses qui sont faites en méthodes quantitatives dépendant grandement du type de variables. Il est important de toujours bien savoir avec quelles mesures on travaille en vue de pouvoir en tirer des informations pertinentes. Nous verrons en plus tard que nous pouvons « traduire » des variables d’un type à un autre en vue de pouvoir utiliser des outils d’analyse. Par exemple, Oui, Non ne permet pas d’être mis dans une formule mais Oui = 1 et Non = 0, est déjà plus mobilisable. Ces traductions sont communes mais il est important qu’elle soit explicites et de se souvenir d’où on est parti.

Echelles d’intervalle et de rapport[modifier | modifier le wikicode]

Les variables numériques sont parfois aussi catégorisées comme échelles d’intervalle et échelles de rapport. Les variables ne disent rien en soit, elles dépendent d’un cadre, d’un référentiel de comparaison. On n’est pas petit ou grand de manière absolue, on peut seulement le définir en comparaison. Pour les fourmis nous sommes des géants, pour l’univers, nous sommes des fourmis.

La différence entre intervalle et rapport réside dans le rôle du zéro, qui sert donc de référentiel pour une comparaison :

-       Echelle intervalle : Il n’y a pas de zéro absolu : son choix est une convention arbitraire.

Exemple : Température en degrés Celsius.

-       Echelle de rapport : Il y a un zéro absolu, non-arbitraire.

Exemple : Température en degrés Kelvin (température par rapport à la température la plus froide dans l’univers, -273.15 degrés Celsius

Distributions et fréquence[modifier | modifier le wikicode]

-       La distribution d’une variable est la liste de toutes les modalités (ou catégories de modalités) d’une variable avec leurs fréquences respectives. Les résultats de votations pour un scrutin.

-        

-       La fréquence d’une modalité (ou effectif) est le nombre de personnes prenant cette modalité dans l’échantillon ou dans la population. Le nombre de personne qui a voté oui au scrutin.

-       La fréquence relative d’une modalité est la proportion des données prenant cette modalité. Elle est exprimée soit sur une base de 100 (pourcentage) soit sur une base de 1. Le pourcentage de gens qui ont voté non.

Analyse univariée[modifier | modifier le wikicode]

L’analyse univariée cherche avant tout à déterminer deux caractéristiques de la distribution d’une variable, c’est donc pour nous informer sur celle-ci que nous la faisons :

-       On peut savoir qu’est-ce qu’il est « normal » dans ce qu’on a mesuré : La tendance centrale

-       On peut savoir si finalement nos mesures sont homogènes ou non : La dispersion

Pour cela, deux catégories on peut soit faire un graphique pour avoir un outil visuel comme base, ou alors on fait des calculs, qu’on appelle des résumés numériques.

Graphiques[modifier | modifier le wikicode]

Généralités[modifier | modifier le wikicode]

Un graphique statistique doit représenter le plus fidèlement possible la distribution d’une variable. Principe de proportionnalité : chaque modalité est représentée par une surface proportionnelle à la fréquence (relative) de cette modalité (si on augmente la taille, il faut prendre garde à mettre en rapport la proportionnalité). Pour qu’un graphique soit de bonne qualité, les points suivants doivent être considérées :

-       Clarté

-       Précision

-       Bien documenté (titre, légende)

-       Respect du principe de proportionnalité

Principaux types de graphiques[modifier | modifier le wikicode]

Graphiques pour données catégorielles :

  • Graphique en barres
  • Graphique circulaire

Graphiques pour données numériques :

  • Histogramme
  • Diagramme en ligne (pour série temporelle)
  • Box-plot (basé sur des résumés numérisés)

Graphiques pour la relation entre deux variables :

  • Carré unitaire (variables catégorielles)
  • Diagramme de dispersion (variables numériques)

Graphique en barres[modifier | modifier le wikicode]

Chaque modalité est représentée par une barre dont la hauteur est proportionnelle à la fréquence (relative) de la modalité. Chaque barre a la même largeur et est souvent séparée des autres barres par un espace. Dans le cas d’une variable ordinale, les modalités doivent être placés dans l’ordre sur le graphique. C’est le graphique à tout faire de la statistique. Il peut s’adapter pratiquement à n’importe quelle variable (salaire médian, taux de chômage, violence domestique…)

Graphique circulaire[modifier | modifier le wikicode]

Un cercle ou un demi-cercle est découpé en autant de secteurs qu’il y a de modalités à représenter. La surface de chaque secteur est proportionnelle à la fréquence (relative) de la modalité qu’il représente. Ce type de graphique est particulièrement adapté à la représentation de distributions de pourcentages (répartition des travailleurs étrangers en Suisse…).

Histogramme[modifier | modifier le wikicode]

L’histogramme est le graphique type pour les variables numériques. Les modalités de la variable sont au préalable réparties en nombre fini de classes. Il n’y pas d’écart entre les classes : la valeur finale d’une classe est la même que la valeur initiale de la classe suivant. La classe à laquelle appartiennent réellement ces valeurs limites est choisie arbitrairement. Les différentes classes sont placés sur l’axe horizontal du graphique et un rectangle dont la surface est proportionnelle à la fréquence (relative) de la classe est construit au-dessus de chaque classe.

Classes de l’histogramme[modifier | modifier le wikicode]

De manière générale, le nombre de classe ne devrait pas être plus grand que () où n est le nombre d’observations. Il y a 2 grandes principes pour déterminer les classes :

  • On divise l’étendue des données par le nombre de classe désiré.
  • Toutes les classes ont la même fréquence
  • Toutes les classers ont la même apmplitude (largeur)
  • On ajuste les limites des classes pour que le nombre d’observations soit assez similaire d’une classe à l’autre.
  • Un histogramme s’interprète en termes de surfaces et non de hauteurs !

Diagramme en ligne[modifier | modifier le wikicode]

Le diagramme en ligne permet de représenter l’évolution au fil du temps d’une variable numérique. La référence temporelle est placée sur un axe (généralement l’axe horizontal) et les valeurs observées sont placées sur l’autre axe. Les points représentants chaque observation sont reliés de manière à mettre en évidence l’évolution dans le temps.

Analyse univariée[modifier | modifier le wikicode]

Caractéristiques d’une distribution[modifier | modifier le wikicode]

  • Les deux caractéristiques essentielles d’une distribution univariée sont :
    • La tendance centrale
    • La dispersion

D’autres caractéristiques peuvent se révéler importantes :

  • La symétrie
  • L’aplatissement

Les résumés numériques sont l’outil le plus utilisé pour analyser ces caractéristiques (minimum, maximum, milieu). Comment jouer là-dessus pour mieux décrire la distribution ?

Relation entre centre et dispersion[modifier | modifier le wikicode]

Les notions de tendance centrale et de dispersion sont indissociables, car la connaissance de l’une sans l’autre peut amener à des confusions et des erreurs d’interprétation.

Résumés numériques[modifier | modifier le wikicode]

Un résumé numérique (ou chiffre clé) est une statistique résumant par une seule valeur une notion complexe. Un bon résumé numérique devrait avoir les caractéristiques suivantes (conditions de Yule) :

  • Etre objectif
  • Tenir compte de toutes les observations
  • Avoir une signification concrète, être simple à interpréter.
  • Etre simple à calculer
  • Etre peu sensible aux fluctuations de l’échantillonnage : si on prend deux échantillons différents, on aura des valeurs différentes. Comment faire pour qu’elles soient moins différentes ?
  • Se prêter à des calculs algébriques ultérieures : on aime bien travailler avec la variance mais en termes d’interprétation, on préfère travailler avec l’écart-type.

Tendance centrale[modifier | modifier le wikicode]

Mode d’une distribution[modifier | modifier le wikicode]

Le mode d’une distribution est la modalité la plus fréquente de celle-ci. Le mode peut se calculer sur n’importe quel type de variable. Il n’est pas intéressant pour des variables prenant un grand nombre de modalités différentes.

Le mode n’est pas forcément unique et il ne représente pas forcément le centre !

Exemple : échantillon de 30 personnes (4, 4, 8, 12, 15, 32, 40 etc). Le mode de la distribution est la valeur de 40 heures, c’est-à-dire la plus grande valeur observée !

Médiane[modifier | modifier le wikicode]

Dans le cas des salaires, une moyenne a l’habitude d’être sensible aux données extrêmes et donc elle aurait la tendance d’aller vers les salaires élevés.

La médiane d’une distribution est la valeur telle que 50% des données sont plus petites qu’elle et 50% des données sont plus grande qu’elle. Elle ne se calcule que sur des variables dont les modalités ont un ordre (ordinales ou numérique).

Trois étapes pour le calcul :

  1. Classer les observations par ordre croissant
  2. Calculer le rang (position) de la médiane :

    rang (med(x)) = n + 1

  1. Trouver la médiane Si le rang n’est pas entier, la médiane est la moyenne de deux observations entourant le rang de la médiane !

Exemple : nombre d’heures hebdomadaires de travail

Moyenne arithmétique[modifier | modifier le wikicode]

La moyenne arithmétique se calcule comme :

Pour toute liste (x1, ..., xn) de réels, on définit sa moyenne arithmétique par la formule , qui ne dépend pas de l’ordre des termes et est toujours comprise entre les valeurs minimale et maximale de la liste. Pour les personnes qui ne sont pas à l'aise avec cette notation, elle veut simolement dire que l'on additionne tout les termes les uns avec les autres, et qu'on divise le tout par le nombre de termes que nous avons additionné.

  • La moyenne ne se calcule que sur de vraies variables numériques. Une variable catégorielle recodée sous forme numérique n’est une vraie variable numérique !

Exemple : nombre d’heures hebdomadaires de travail

Médiane VS moyenne[modifier | modifier le wikicode]

La médiane est une notion de centre par rapport au nombre de données, alors que la moyenne est une notion d’équilibre.

Par ailleurs, la médiane est robuste (insensible aux données extrêmes = ne change pas), alors que la moyenne est non-robuste (facilement influencée par les données extrêmes).

Dispersion[modifier | modifier le wikicode]

Qu’est-ce que la dispersion ?[modifier | modifier le wikicode]

La dispersion est une notion de répartition des observations les unes par rapport aux autres. Plus la dispersion est grande, plus observations différentes les unes des autres. Telle que vue dans ce cours, la dispersion s’applique avant tout aux variables numériques, mais il existe une mesure de dispersion adaptée aux données catégorielles : l’entropie. C’est un terme venant de la théorie de l’information.

L’étendue d’une dispersion[modifier | modifier le wikicode]

Le minimum et le maximum représentent les valeurs limites d’une variable. Ils n’existent pas lorsqu’une variable peut prendre des valeurs allant jusqu’à plus au moins l’infini. On peut distinguer entre le minimum et le maximum théoriques d’une variable et les valeurs minimales et maximales réellement observées.

Exemple : nombre d’heures hebdomadaires de travail

Sur l’échantillon considéré, le minimum vaut 4 heures et le maximum 40 heures. Sur un plan théorique, le minimum possible pour cette variable est de 0 heure et le maximum est de 168 (nombres d’heures possibles par semaine), même si cette dernière valeur ne sera que difficilement atteinte. Dans cet exemple, la valeur maximale théorique peut aussi dépendre des lois en vigueur dans le pays considéré.

Quartiles[modifier | modifier le wikicode]

Les quartiles complètent la médiane en divisant le nombre de données en 4 groupes plutôt que 2. Le premier quartile noté q1 et tel que 25% des données sont plus petites que lui. Le troisième quartile noté q3 est tel que 75% des données sont plus petites que lui. Le calcul des quartiles se fait comme celui de la médiane, mais les rangs (positions) se calculent comme suit :

Si les rangs ne sont pas des nombres entiers, on approxime la valeur des quartiles par interpolation linéaire.

Définitions[modifier | modifier le wikicode]

Pour l’interpolation linéaire, il faut introduire de nouvelles définitions :

Considérons une seule variable mesurée sur n observations

Définition : La statistique d’ordre d’un échantillon est donnée par les valeurs de l’échantillon ordonnées de la plus petite à la plus grande. Elle est notée :

Définition : Le quantile d’ordre...

Les quartiles sont donc les quantiles d’ordre 25 (1er quartile), 50 (médiane) et 75 (3ème quartile)

Calcul d’un quantile

  1. Ranger les données par ordre croissant (=statistiques d’ordre)
  2. Calculer le rang r = [
  3. Trouver la valeur correspondante au rang :
    1. Si r est entier, il s’agit de la r-ième valeur (des statistiques d’ordre)
    2. Si r n’est pas entier, la valeur est : [

Notation : Si [r] et [r] désignent respectivement la partie entière inférieure et supérieure de r.

Boxplot[modifier | modifier le wikicode]

Le boxplot, ou résumé à 5 valeurs, est un graphique simplifié de la distribution d’une variable.

Entendue : différence entre maximum et minimum (sur quelle plage nos données sont distribuées)

Ecart interquartile : différence entre le 1er et le 3ème quartile : lorsque j’ai éliminé de mes données les 25% des plus petites et grandes, j’ai toutes les données comprises entre le 1er et le 3ème quartile.

Schematic plot[modifier | modifier le wikicode]

C’est une variante du boxplot dans laquelle les données extrêmes (petites et grandes) ne sont pas intégrées dans le graphique, mais sont représentées séparément. Dans certains cas, les données extrêmes sont même totalement absentes du graphique.

Variance[modifier | modifier le wikicode]

La variance est la moyenne de la somme des carrées des écarts à la moyenne.

La variance est calculée comme :

.

.

Population Echantillon

La variance prend des valeurs allant de 0 à l’infini. La valeur 0 indique une totale absence de variation : toutes les valeurs observées sont identiques. Plus la variance est grande, plus les valeurs sont dispersées, c’est-à-dire différentes les unes des autres. La variance ne s’exprime pas dans la même unité que les données observées.

  • Elle est difficilement à interpréter / trouver mathématiquement mais difficile à interpréter empiriquement.

Ecart-type[modifier | modifier le wikicode]

L’écart type est défini comme la racine carrée de la variance :

Dans le cas d'une dont les valeurs sont notées , avec , l'écart type s'écrit comme pour une série statistique , où est l'espérance de la loi de

Population Echantillon

Il s’interprète de manière similaire à la variance mais avec l’avantage de s’exprimer dans la même unité que les données observées. L’écart-type représente la distance typique que l’on s’attend à observer entre n’importe quelle donné de l’échantillon et la moyenne de celui-ci.

Coefficient de variation[modifier | modifier le wikicode]

Le coefficient de variation est une mesure de dispersion relative, utilisée pour décrire la précision d’une valeur estimative.

  • La valeur et l’écart-type ont le désavantage d’être influencés par l’ordre de grandeur des données observées.
  • Le coefficient de variation est une mesure de dispersion relative, indépendant de l’unité de mesure :
  • Il permet de comparer la dispersion de variables mesurées dans des unités totalement différents les unes des autres.

Exemple : nombre d’heures hebdomadaires de travail

Vu comme Une population Un échantillon
Moyenne
Variance
Ecart-type
Coefficient variation

Echantillonage[modifier | modifier le wikicode]

Plans d’échantillonnage à plusieurs niveaux[modifier | modifier le wikicode]

La population est d’abord divisée en plusieurs sous-populations en fonction d’une variable de contrôle, puis des procédures d’échantillonnage sont appliquées à chaque sous-population. Les sous-populations peuvent elles-mêmes être redivisées sur la base d’un autre critère. Ces procédures s’appliquent lorsque la population étudiée n’est pas homogène et que l’on veut s’assurer que toutes les composantes de l’échantillon se retrouveront dans l’échantillon.

  • Deux cas limite : les tirages par strates et les tirages par grappes.

Tirages par strates[modifier | modifier le wikicode]

Un échantillon aléatoire est sélectionné dans chacun des sous-populations :

C’est utilisé lorsque les données sont supposées être homogènes au sein de chaque sous-population mais hétérogènes entre ces mêmes sous-populations (Exemples de strates : cantons, genres…)

Tirages par grappes[modifier | modifier le wikicode]

Un échantillon de sous-populations est sélectionné aléatoirement puis chacune des sous-populations sélectionnée est étudiée de façon exhaustive :

Utilisé lorsque les données sont homogènes d’une sous-population à l’autre mais hétérogènes au sein de chaque sous-population. (Exemples de grappes : ménages, classes d’écoles)

Les 3 logiques des méthodes multi-niveaux[modifier | modifier le wikicode]

  1. Au niveau de l’ensemble de la population étudiée, les estimations des paramètres intéressants doivent être exactes (sans biais) et précises.
  2. Au niveau des sous-populations que l’on veut pouvoir étudier, on doit disposer de suffisamment de données pour obtenir des résultats exacts et précis.
  3. L’échantillon total doit être réparti entre les sous-populations de manière à prendre en compte et à exploiter la variabilité de chacune d’entre-elles.

Avantages des méthodes probabilistes[modifier | modifier le wikicode]

  • Permettent de collecter un échantillon vraiment représentatif de la population.
  • Autorisent la prise en compte lors des analyses statistiques de sous-population sur ou sous-représentées.
  • Permettent de faire l’inférence statistique et de déterminer les caractéristiques de la population sur la base de celles de l’échantillon.

Désavantages des méthodes probabilistes[modifier | modifier le wikicode]

  • Plus difficiles à mettre en œuvre que les méthodes empiriques -> il faut penser à plus de choses !
  • Nécessitent une base de sondage exhaustive de la population étudiée.
  • Sensibles à des problèmes imprévus : questionnaire non-transmis à certains membres de l’échantillon

Traitement préalable des données[modifier | modifier le wikicode]

Saisie des données[modifier | modifier le wikicode]

Les données doivent être saisies dans une base de données que ce soit durant la collecte des données ou après :

  • Saisie manuelle (clavier d’ordinateur)
  • Saisie automatique (code barre, scanner, questionnaire informatisé sur internet)
  • Toute saisie de données implique des risques d’erreurs.

Données manquantes[modifier | modifier le wikicode]

Les données manquantes sont des données dont la récolte avait été planifiée mais qui n’ont pas pu être récoltées :

  • Non-réponses totales : un répondant n’a pas du tout répondu à l’enquête.
  • Non-réponses partielles : un répondant n’a pas répondu à une partie des questions.

Simplement ignorées ? Non car il y a des conséquences sur les analyses statistiques :

  • Biais : la valeur estimée ne correspond pas à la réalité
  • Manque de précision : marge d’erreur et variabilité des résultats élevées.

Non-réponses totales[modifier | modifier le wikicode]

3 types de non-répondants :

  1. Non-valides : impossibilité de réponse (décédés, déménagés, ne faisant pas réellement partie de la population cible.
  2. Non-contacts : impossibilité de contacter
  3. Refus : refus de répondre

L’impact sur les résultats dépend de la catégorie de non-répondants. Dans le cas d’enquêtes longitudinales, on parle d’attrition lorsqu’une personne arrête de répondre à l’enquête après une certaine vague de celle-ci.

Non-réponses partielles[modifier | modifier le wikicode]

Causes aux non-réponses partielles :

  • Questionnaire trop long
  • Manque d’intérêt
  • Questions sensibles
  • Bug lors de la sauvegarde des données

Dans le cas de questionnaires formatisés, il est possible de rendre obligatoire les réponses. La présence de non-réponses partielles implique que les calculs statistiques ne se feront peut-être pas toujours sur le même échantillon.

Traitement des données manquantes[modifier | modifier le wikicode]

Les données manquantes traitées :

  • Durant la collecte : incitations à répondre (cadeau, tirage au sort…)
  • Après la collecte : Imputation, reconstitution de la vraie valeur à partir d’un autre fichier de données.

Dans certains cas, il n’y malheureusement pas de moyen pour traiter les données manquantes et il ne rste qu’à prendre en compte le fait que certaines données sont absentes.

Données aberrantes[modifier | modifier le wikicode]

Les données aberrantes sont les données dont la valeur est clairement fausse :

  • Valeurs trop grandes ou trop petites (personne de 3m)
  • Valeurs impossibles (âge négatif)
  • Incompatibilité entre les valeurs de deux variables (enfant ayant le permis de conduire)

Ces données doivent être détectées puis corrigées ou dans le pire des cas remplacées par des données manquantes.

Construction de nouvelles variables[modifier | modifier le wikicode]

Certains items d’un questionnaire forment une échelle et ne sont pas destinées à l’analyse séparément. Il est aussi possible de créer de nouvelles variables en combinant les variables existantes.

Inférence statistique[modifier | modifier le wikicode]

Statistique inférentielle[modifier | modifier le wikicode]

Jugement sur l’échantillon[modifier | modifier le wikicode]

Un échantillon a du sens dans l’interprétation où on tire des choses de l’échantillon pour les inférer dans la population. Le centre d’intérêt n’est pas vraiment l’échantillon mais bien la population. On part d’un échantillon pour avoir des caractéristiques et elles vont être similaires à celles de la population si notre échantillon est bien formé. Il va ainsi représenter la population.

L’objectif : de déterminer les caractéristiques / paramètres / estimations / valeurs d’une population à partir d’un échantillon issu de celle-ci. On a deux outils principaux pour l’inférence statistique :

  • Estimation (ponctuelle (une seule valeur) ou par intervalle (intervalle de valeur)
  • Tests d’hypothèses (on se fixe certaines hypothèses et on regarde si elles sont vraies ou fausses. On va parler d’un faisceau de preuves qui vont nous permettre de valider / réfuter nos hypothèses).
  • Ces outils sont utilisés dans presque tous les modèles statistiques. L’estimation par intervalle et les tests sont basés sur des lois de probabilité continues théoriques.

Exemple : le niveau d’activité physique

Nous voulons étudier le niveau d’activité physique des jeunes de 18 ans en Suisse. Ce niveau d’activité physique est défini comme le nombre de jours par semaine où l’on effectue une activité physique soutenue. Nous disposons d’un échantillon de n = 77 personnes (37 hommes et 40 femmes) alors que la population étudiée est d’environ 80’000 personnes.

  • Question : comment obtenir à partir de l’échantillon des résultats qui s’appliquent fiablement à l’ensemble de la population ?

Les lois continues[modifier | modifier le wikicode]

Les données observées d’une variable ou certaines caractéristiques en découlant (moyenne, variance…) peuvent souvent prendre une quasi-infinité de valeurs. On s’intéresse alors à la distribution de ces quantités et l’on utilise pour cela des lois de probabilité continues dont les principales sont :

  • Loi normal (loi de Laplace-Gauss)
  • Loi du chi-2 (comparaison bivariante entre 2 populations avec variables de type qualitative ; variable dépendante d’une autre ?)
  • Loi de Student (si on ne connaît pas grand-chose sur la population ; avec échantillon suffisamment grand)
  • Loi de Fisher-Snedecor (comparaison de variance de deux ou plusieurs variances)
  • Ces lois sont parfaitement connues et des tables statistiques permettent de déterminer les probabilités qui leurs sont associées.

La loi normale[modifier | modifier le wikicode]

Soit une variable X représentant la somme de nombreux effets dont aucun ne domine les autres. Alors, C’est une écriture considérant une variable aléatoire nommé X (donnée continue tel que la quantité en gramme de yogourt) suivant les valeurs d’une loi dont les paramètres sont la moyenne et la variance au carré. C’est une distribution symétrique puisque les valeurs de l’infini à l’infini.

Elle se caractérise par deux paramètres, à savoir la moyenne et la variance.

Dans le graphique à gauche, on disperse les valeurs. On l’interprète à droite en tant que valeurs possibles pour l’axe des X et en ordonnées (axe des Y) ce sont des probabilités. La probabilité devient plus faible en s’éloignant des 0.

Loi normale centrée- réduite[modifier | modifier le wikicode]

Il est toujours possible de passer d’une loi normale X de moyenne () et de variance (^{2}) à une autre loi normale ayant d’autres caractéristiques. En particulier, la loi normale de moyenne 0 et de variance 1 est appelée la loi normale centrée-réduite. Elle est notée Z est défini comme :

  • Cela revient à soustraire la moyenne et diviser par l’écart-type de la loi normale X d’origine.

Les probabilités sont représentées par la surface comprise entre la fonction de densité de la loi et l’axe horizontal :

Cette loi normale, comme toute loi de distribution, permet de faire des calculs de probabilité. La probabilité qu’un cas apparaissent est représenté par la surface sous la courbe formée à l’aide du jeu de données. Ainsi, lorsque l’on calcule des probabilités, on ne s’intéresse qu’à une partie spécifique du graphique : entre – 1.96 et + 1. 96 pour avoir 95% de la surface sous la courbe. Mais le plus important est de savoir que tout calcul de probabilité provient d’une loi normale.

Les probabilités les plus importantes en fonction d’un seuil z :

  • Pour toute fonction de probabilité, l’air sous la courbe = 1 et cela signifie qu’on a le 100% de toutes les valeurs. La fonction de densité est la courbe de la fonction. Si on s’écarte de 1.96, la probabilité d’être dans cette zone est de 0.95.

Théorème central-limite[modifier | modifier le wikicode]

Soit une suite (X1, X2… Xn) de n variables aléatoires ((), (^{2})). Lorsque n -> (), la distribution de tend vers la loi N ((), (^{2})). Quelle que soit la distribution d’une variable numérique dans la population, la distribution de la moyenne de la variable suit une loi normale.

Estimation[modifier | modifier le wikicode]

Concepts[modifier | modifier le wikicode]

L’estimation consiste à assigner une valeur à un paramètre de la population sur la base de ce qui a été trouvé au sein d’un échantillon issu de celle-ci.

Estimation ponctuelle : on assigne une valeur précise au paramètre.

Estimation par intervalle : on assigne un intervalle de valeurs au paramètre.

  • Lorsqu’on a une estimation et non la vraie valeur (généralement inconnue) du paramètre, on surmonte le nom du paramètre d’un chapeau : () au lieu de ().

Principe de l’estimation ponctuelle[modifier | modifier le wikicode]

Si l’échantillon utilisé est de bonne qualité, il doit représenter fidèlement la population. Par conséquent, les paramètres estimés dans l’échantillon doivent prendre des valeurs proches de celles de la population. L’estimation ponctuelle consiste donc à estimer la valeur d’un paramètre de la population sur la base de la valeur calculée sur l’échantillon. Elle est notée à l’aide du paramètre surmonté d’un accent circonflexe (un chapeau)

Propriété : absence de biais[modifier | modifier le wikicode]

Le biais d’un estimateur est la différence entre l’espérance de cet estimateur et la vraie valeur du paramètre estimé. Un estimateur est non-biaisé si son espérance (valeur moyenne) est égale à la vraie valeur de la population.

Propriété : convergence[modifier | modifier le wikicode]

Un estimateur est dit convergent si, lorsque la taille n de l’échantillon devient grande, le biais disparaît :

Et la variance devient nulle :

  • Cela revient à dire que lorsque la taille de l’échantillon augmente, l’estimation devient de plus en plus précise.

Estimateur absolument correct[modifier | modifier le wikicode]

Un estimateur non-biaisé et convergent est dit absolument correct. Souvent, la valeur du paramètre calculée à partir de l’échantillon est une estimation valable de la valeur de ce même paramètre au sein de la population.

Estimateur de la moyenne[modifier | modifier le wikicode]

La moyenne est un estimateur absolument correct : non biaisé et convergent :

Exemple : niveau d’activité physique

() = 2.75 est l’estimation ponctuelle de la moyenne pour la population.

Estimateur de la variance[modifier | modifier le wikicode]

La formule de la variance d’une population ne définit pas un estimateur sans biais. C’est pourquoi, un estimateur absolument correct de la variance est :

Exemple au niveau de l’activité physique :

(^{2}) = 2.35 est l’estimation ponctuelle de la variance pour la population.

Principe de l’estimation par intervalle[modifier | modifier le wikicode]

Un échantillon n’est pas toujours une image parfaitement fidèle de la population. En faisant une estimation ponctuelle, on attribue une valeur précise à un paramètre mais on court le risque que la valeur ainsi obtenue soit éloignée de la réalité. Au lieu de fournir une estimation, on construit un intervalle de valeurs de la forme : dans lequel la vraie valeur du paramètre a une certaine probabilité fixée à l’avance, notée [[File:./media/image79.emf]] de se trouver.

degré de confiance

risque de première espèce

Choix du risque de première espèce[modifier | modifier le wikicode]

Le choix du risque de première espèceest déterminant car il influence directement l’utilité des résultats :

  • Si est très petit, l’intervalle est très fiable, mais il devient tellement large qu’il ne nous renseigne plus de façon utile sur la vraie valeur du paramètre.
  • Si est très grand, l’intervalle est très précis (=étroit) mais la probabilité qu’il recouvre effectivement la vraie valeur du paramètre est faible.
  • On choisit généralement un risque de [[File:./media/image82.emf]] de 5%.

Exemple : le niveau d’activité physique

Au seuil = 5%

Intervalle de confiance pour l’échantillon [2.42 ; 3.10].

Femmes seulement : [2.10 ; 3.10]

Hommes seulement : [2.41 ; 3.42]

Y a-t-il des pruves attestant que le niveau d’activité physique dans la population est différent entre les femmes et les hommes ?

On ne peut pas l’estimer précisément puisque le seuil de l’[[File:./media/image82.emf]] est de 5%, on aurait donc que 95% de probabilité et on est faiblement renseigné sur la vraie valeur du paramètre. Comme les deux intervalles entre hommes et femmes ont des valeurs communes, on ne peut pas déterminer avec justesse qu’il y a des différences entre les deux catégories.

La véritable valeur se trouve quelque part dans l’intervalle ! Est-ce qu’on peut avoir une identique pour les deux intervalles ? Les deux intervalles se superposent et ici, avec une probabilité d’erreur de 5%, il n’est pas possible de dire que statistiquement, le taux d’activité des femmes est différent de celui des hommes. Il n’y a pas suffisamment de preuves que c’est distinct.

Intervalle de confiance et taille de l’échantillon[modifier | modifier le wikicode]

L’intervalle de confiance pour une moyenne () s’écrit :

On prend la moyenne de notre échantillon et on s’écarte un petit peu vers la gauche et la droite. Cette précision s’exprime mathématiquement par un quantile qui est le Z d’ordre 1- ()(risque de se tromper) / 2. Donc l’intervalle recherchée ne se retrouve pas dans l’intervalle de confiance.

La précision de l’estimation correspond au demi intervalle de confiance

Il en découle que :

  • La taille de l’échantillon n ainsi calculée représente la taille minimale nécessaire pour atteindre la précision d recherchée. Si je connais la variance d’une population et de la précision voulue, je peux calculer la taille de l’échantillon.

Exemple : le niveau d’activité physique

L’échantillon utilisé comporte n = 77 personnes (données valides). Au niveau global, l’intervalle de confiance pour= 5% vaut [2.41 ; 3.10] et la précision obtenue est

Pour obtenir une précision d=0.1, toutes choses étant égales par ailleurs, il aurait fallu un échantillon de taille :

soit au minimum 903 personnes. En pratique, il est aussi nécessaire jongler avec le budget qui va influencer la taille de l’échantillon et la précision qu’on pourrait obtenir.

Tests d’hypothèses[modifier | modifier le wikicode]

Principe Généraux[modifier | modifier le wikicode]

On formule une hypothèse sur la population étudiée. On vérifie si l’échantillon utilisé provient bien (avec un certain degré de confiance) de la population étudiée. Le test statistique lui-même correspond à la règle de décision. Que tester ? :

  • La valeur d’un paramètre (notamment son égalité à 0 = test de significativité)
  • L’égalité de deux ou plusieurs paramètres
  • La forme de la distribution d’une ou plusieurs variables

Hypothèses nulles et alternatives[modifier | modifier le wikicode]

Un test consiste à choisir entre deux hypothèses en fonction d’un échantillon :

  • L’hypothèse nulle, notée H0 est l’hypothèse de base du test, celle qui est considérée comme vraie jusqu’à preuve du contraire. (= status quo)
  • L’hypothèse alternative, notée H1, est son « contraire ». (= ce que l’on aimerait montrer)

Exemple :

H0 est rejetée dès lors que la valeur de la statistique de test observée dans l’échantillon est trop différente de la valeur théorique postulée sous H0 pour la population. Grâce au calcul, on veut savoir si c’est plausible d’avoir H0.

L’hypothèse nulle porte généralement sur une seule valeur ou sur une égalité entre paramètres. On parle d’hypothèse simple :

L’hypothèse alternative regroupe généralement un très grand nombre de situations différentes. C’est une hypothèse composite avec 3 variantes :

Exemple : au tribunal

Une personne est jugée. Les hypothèses suivantes sont formulées :

  • P (condamner un innocent) = () Erreur de type I
  • P (acquitter un coupable) = () Erreur de type II

Ne pas condamner un innocent est prioritaire par rapport à acquitter un coupable !

Risques, puissance[modifier | modifier le wikicode]

() = Erreur de première espèce (type I) => risque de rejeter faussement H0

() = Erreur de deuxième espèce (type II) => risque de rejeter faussement H1

1 – () = puissance du test (probabilité de ne pas se tromper en rejetant H0 )

Risque d'erreurs[modifier | modifier le wikicode]

  • Risque ():
    • Spécifié par le chercheur avant d’effectuer le test
    • Fixé généralement à 5%.
  • Risque () :
    • N’est pas choisi librement mais dépend des autres éléments de l’analyse (risque (,) taille de l’échantillon, écart entre les 2 hypothèses du test…)
    • Plutôt que (), on considère souvent la notion de puissance du test, à savoir la probabilité d’accepter (lorsqu’elle doit l’être) l’hypothèse alternative H1 : 1 – () = P(accepter H1 / H1 vraie)
  • Risque de première et de deuxième espèce sont liés puisque si j’augmente un, je diminue l’autre et vice versa

Exemple d’un test unilatéral à droite :

Situations problématiques :

() est trop petit -> () est grand

H1 peut différent de H0 -> () est grand

Sur ce graphique, on peut observer deux lois normales, chacune correspondant à une hypothèse. A gauche, on a la distribution de H0 (notre hypothèse nulle) si elle est vraie. A droite, on a la distribution H1 si c’est l’hypothèse alternative qui est vraie. Ces deux intervalles découpent l’ensemble des possibles en matière de moyenne en deux zones, celle proche de H0 et celle proche de H1. « r » représente la zone de rejet, c’est-à-dire que selon où on se situe par rapport à elle, on acceptera l’une ou l’autre des hypothèses. Ainsi, la surface de la zone orange représente la probabilité de rejeter faussement l’hypothèse nulle alors que la surface de la zone verte représente le risque de rejeter faussement l’hypothèse alternative.

Si on souhaite non pas avoir un alpha à 5% comme généralement accepté, mais un alpha à 1%, la courbe se déplacera sur la droite si bien que c’est bêta qui deviendra plus grand. Cela correspond à rapprocher notre hypothèse nulle de notre hypothèse alternative faisant par la même grandir bêta. De plus, comme nous l’avons vu, deux hypothèses proches sont difficilement distinguables pour le test d’hypothèse ! La seule solution pour réduire le risque alpha et bêta, c’est d’augmenter la taille de l’échantillon. Ainsi, c’est au terme d’une réflexion préalable que l’on peut voir si l’étude projetée en vaut la peine et sous quelles conditions.

P- valeur et son utilisation[modifier | modifier le wikicode]

La p-valeur ( ou degré de signification), notée p, est la probabilité d’avoir observé l’échantillon utilisé sachant que l’hypothèse nulle H0 est vraie. La p-valeur s’interprète aussi comme la probabilité d’obtenir à partir d’un autre échantillon tiré de la même population une valeur du paramètre testé plus extrême (plus éloignée de H0) que la valeur réellement observée.

Après avoir fixé le niveau du risque de première espèce, alpha, le résultat du test s’obtient à l’aide de la règle de décision suivant :

Pour un test unilatéral à droite, la situation décrite par le graphique suivant conduit au rejet de H0, car la p-valeur (zone hachurée verticalement) est plus petite que le risque alpha (zone hachurée horizontalement)

Sur ce schéma, on voit que la p-valeur représente la probabilité d’être à droite de Z0. Ainsi, si le test prouve, pour la p-valeur, une valeur supérieure à la zone de rejet, la p-valeur sera plus petite qu’alpha et H0 sera affirmer. Mais comme on voit sur le graphique, la p-valeur est plus petite qu’alpha si bien qu’H0 est rejetée.

  • Pour conclure par rapport à un test statistique, on observe la p-valeur, si elle supérieure au risque alpha, le status quo demeure (H0). Par contre on rejette H0 si p est inférieure ou égale à alpha. Si p est supérieure à alpha, on accepte H0 parce que la probabilité est supérieure à 0.05.

Exemple : le niveau d’activité physique

  • Hypothèse nulle : H0 : () = 2.5
  • Hypothèse alternative : H1 : () ≠ 2.5
  • Le risque () est fixé à 5%.

Ces données sont rentrées dans R. On voit que la p-valeur est égale à 0.151 donc 15.1% ! Ce résultat est plus grand qu’() (5%) si bien que l’on se trouve dans la zone d’acceptation de l’hypothèse nulle H0. On peut donc continuer de dire qu’en moyenne, les jeunes de moins de 18 ans pratiquent une activité physique 2.5 jours par semaine. Cet histogramme représente l’activité physique de l’échantillon sur la dernière semaine. De cette manière, on voit que l’on est éloigné d’une loi normale puisque la répartition ne se fait pas de manière symétrique autour d’un axe unique.

Conslusion[modifier | modifier le wikicode]

Statistiquement, il y a suffisamment d’évidences pour rejeter H0 mais on ne va jamais dire qu’on l’accepte. Avec l’exemple de la machine à sou, on va dire que si on joue 100 fois et qu’on perd à chaque fois, on va dire qu’on va rejeter l’hypothèse H0. De ce fait, on arrive à un rejet de l’hypothèse nulle. A chaque fois, on essaie de montrer une relation et de ce fait, on aimerait avoir suffisamment d’évidences pour montrer quelque chose qui se trouve dans l’hypothèse alternative. Les raisons pour ne pas rejeter l’hypothèse nulle sont multiples : elle peut être vraie, l’échantillon n’est pas assez grand…. Dans ces tests, on a l’hypothèse nulle (=status quo) et l’hypothèse alternative (ce qu’on veut montrer). Pour conclure un test, il y a une règle : avant d’effectuer le test, on se fixe une marge d’erreur (=erreur de première espèce notée alpha qui se trouve avec une probabilité à 5%) puis là, on peut faire le test. Le test nous donne pleins d’indications mais entre autres, la p-valeur qui est une probabilité comprise en 0 et 1. Puis on compare cette probabilité à notre seuil critique qui est alpha. Si c’est plus petit que 5%, on rejette l’hypothèse nulle sinon on ne la rejette pas. La p-valeur est la probabilité basée sur un échantillon d’être éloigné de H0. Avec le jeu, c’est la probabilité d’avoir 5 fois de suite un échec sachant qu’on a 1/10 de gagner. La probabilité d’avoir un résultat aussi éloigné de ce que l’on s’attend ; si on perd 10 fois, la probabilité d’avoir un tel score est la p-valeur (probabilité théorique d’avoir un tel résultat). C’est ce qui nous permet de conclure par rapport au risque pris préalablement.

  • Tout ceci pour faire un test statistique. Il nous permet d’indiquer si oui ou non on a suffisamment de preuves pour affirmer quelque chose. Par contre, pour l’instant, on n’a pas encore l’intensité de l’effet. Si statistiquement on peut dire que oui, peut-être que cet effet est très petit.

Analyse bivariée[modifier | modifier le wikicode]

Complexité du monde réel[modifier | modifier le wikicode]

Il est très rare qu’une variable soit totalement indépendante de son environnement. Chaque variable est probabilité liée à d’autres variables, voire même influencée par celles-ci. La statique bivariée a pour but de mettre en relation deux informations différentes afin de vérifier si elles sont ou non liées. La mise en évidence d’un tel lien peut notamment servir à faire des prédictions sur la valeur prise par une variable en fonction de celle prise par une autre. L’analyse bivariée donne aussi des informations utiles permettant ensuite de construire un modèle multivarié.

Objectifs et outils[modifier | modifier le wikicode]

Concrètement, les objectifs de l’analyse bivariée sont :

  • Déterminer si une relation existe entre deux variable d’un échantillon.
  • Si une relation existe, quantifier la force de cette relation.
  • Vérifier si la relation observée sur un échantillon est dû au hasard ou si elle est aussi valide au niveau de l’ensemble de la population considérée.

Les outils utilisés en statistique bivariée dépendent fortement du type de variables analysées :

  • 2 variables qualitatives : tables de contingence (représenter dans un tableau croisé les quantités de chacun des deux variables et leurs modalités), chi-2 (distribution de chi-2) et V de Cramer (score calculé à partir du chi-2)
  • 2 variables quantitatives : diagramme de dispersion (pour voir la forme que prennent ces deux variables), corrélation de Pearson (score calculé)
  • 2 variables ordinales : corrélation de Spearman (corrélation s’attache au rang de ces variables et à partir d’eux, on va calculer une corrélation de Spearman)
  • On peut mélanger les variables, on peut rendre une variable qualitative en une variable quantitative

Variables qualitatives[modifier | modifier le wikicode]

Fréquences absolues conjointes[modifier | modifier le wikicode]

Une table de contingence est l’équivalent d’une distribution de fréquence mais pour deux variables simultanément. Il y a un croisement entre ces deux variables.

Fréquences relatives[modifier | modifier le wikicode]

Ces 4 valeurs divisées par le nombre de personnes (=3377). Le pourcentage est indiqué en bas (9.061% par exemple).

Fréquences conditionnelles par ligne[modifier | modifier le wikicode]

On fixe une modalité (genre) à homme, puis on dit des choses sur la variable travail. Donc je me situe comme si j’étais avec 1812 personnes. Quelle est la distribution variable travail sachant que les personnes que j’ai à disposition sont des hommes ? Il y aurait environ 17% d’hommes qui auraient un travail contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17% n’ont pas de travail et les autres oui. Cela revient à restreindre notre échantillon puisqu’on considère qu’une seule des deux modalités du genre. On peut aussi regarder la distribution de la variable genre (par colonne) ; je prends uniquement ceux qui n’ont pas de travail et je regarde la distribution de la variable genre.

Autre exemple : COL BLANC et DOC_4c, On a le total (3377), les répartitions (table de contingence) et ici, on analyse par ligne (=100 dans le total).

Question : en regardant ce tableau, si on a une personne issue de ce panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir la répartition des visites de médecin ou pas ? Est-ce que l’information donnée (COL BLANC) nous apporte quelque chose ? Quasi pas ! Quelle est la probabilité qu’une personne soit allée plus de deux fois chez le médecin ? 44.120% ! Si on prend une personne au hasard, quelle est la probabilité que cette personne soit allée deux fois chez le médecin ? Le calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce qu’il faut comprendre, c’est que si les deux variables col blanc et nombre de visite sont liées, a priori, le lien est extrêmement faible.

  • Ce « lien » est la dépendance ou pas.

Indépendance[modifier | modifier le wikicode]

Deux variables A et B sont indépendantes si la connaissance de la modalité prise par A n’influence pas la distribution de B et vice versa. Sur une table de contingence, cela implique que :

  • Les distributions conditionnelles par ligne sont toutes identiques
  • Les distributions conditionnelles par colonne sont toutes identiques.

Indépendance et information marginale[modifier | modifier le wikicode]

En cas d’indépendance des 2 variables, toute l’information de la table de contingence est résumée par les distributions séparées (margines) des deux variables. On peut alors reconstituer la distribution conjointe de la manière suivant :

Exemple de situation d’indépendance parfait

On a fait les totaux par ligne et par colonne, on regarde les fréquences absolues (nij) et les fréquences relatives (fij). (On divise 16/80=0.2).

Dépendance et degré d’association[modifier | modifier le wikicode]

Lorsque deux variables ne sont pas indépendantes, elles sont dépendantes. Il est utile de mesurer leur degré d’association. Plus le degré d’association est élevé, plus il devient possible d’utiliser une variable pour prédire l’autre. Sauf qu’association ≠ causalité !

Chi-2[modifier | modifier le wikicode]

Une façon d’estimer la force de la relation entre les deux variables d’un tableau croisé consiste à comparer les données observées avec la situation que l’on aurait en cas d’indépendance. La statistique du chi-2, notée K2 est définie comme :

  • Est la fréquence de la case d’indices ij sous l’hypothèse d’indépendance.

Cette statistique du chi-2 est comprise entre 0 et une certaine valeur. La valeur maximale est la taille de l’échantillon (n) x le minimum nombre de ligne -1 et le nombre de colonne -1. [[File:./media/image109.emf]]

  • Si K2 vaut zéro, nous sommes dans la situation d’indépendance.
  • Si K2 est supérieur à zéro, il y a dépendance ou association.
  • Plus K2 est grand, plus l’association est forte mais attention, K2 dépend de la taille de la table de contingence

Exemple : fréquences observées et attendues

Sur ce tableau, on voit la distribution conjointe de deux variables différentes : homme/femme et travail/pas de travail. La distribution conjointe représente la relation entre les deux variables. Ici, c’est en nombre d’individus que la table se présente. On voit que parmi les hommes, 83% ont un emploi alors que chez les femmes, seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre échantillon, les hommes occupent plus fréquemment un emploi que les femmes. Ces fréquences conditionnelles peuvent aussi être calculées par colonnes. Ce que l’on remarque alors c’est que parmi les individus n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui est des personnes occupant un emploi, seules 37% des femmes On voit, sur la base de ces tableaux, que les hommes et les femmes ne sont pas égaux face au travail. Toutefois, on ne peut pas conclure à une causalité ni spéculer sur la force de cette différence dans la population totale.

La distribution des deux variables sont parfaitement identiques : elles sont donc parfaitement indépendantes l’une de l’autre. Ainsi, il est possible de retrouver la distribution en se basant uniquement sur les totaux des lignes et des colonnes en suivant la formule (total de i x total de j)/total.

A partir du moment que l’on ne se trouve pas dans une situation d’indépendance parfaite, c’est une situation de dépendance. Toutefois, cette dépendance peut être plus au moins forte. Plus la force d’association entre deux variables est élevée, plus il devient possible de prédire l’une par rapport à l’autre. Mais attention, dépendance ne signifie pas causalité !

Normalisation du chi-2[modifier | modifier le wikicode]

La valeur maximale du chi-2 dépend de la taille de la table de contingence ainsi que de l’effectif total. Il est donc difficile d’évaluer le résultat. Une solution consiste à normaliser le résultat afin qu’il évolue entre des bornes finies et connues. La mesure de V de Cramer est définie comme :

où K2 est la statistique du chi-2, n est le nombre de données, () est le nombre de ligne et c est le nombre de colonnes.

La mesure V a pour bornes :

  • 0 signifie l’indépendance parfaite entre les variables
  • 1 signifie une association maximale
  • Le V de Cramer est facile à comparer entre des tables de dimensions différentes et comportant un nombre d’observations différent.

Test du chi-2[modifier | modifier le wikicode]

Tous les calculs précédents (chi-2 et V de Cramer) concernant l’échantillon de données utilisé. Pour déterminer s’il y a dépendance ou indépendance au niveau de la population, il faut effectuer un test d’hypothèses :

  • H0 : indépendance entre les 2 variables
  • H1 : Dépendance entre les 2 variables

Le même test permet aussi de savoir si le V de Cramer prend une valeur égale ou supérieure à zéro dans la population.

Exemple :

On considère un risque de première espèce à () = 5%.

Degrés de liberté[modifier | modifier le wikicode]

En statistique, les degrés de liberté (degrees of freedom) représentent le nombre de données ou d’éléments d’un problème qui peuvent être fixés sans contrainte, indépendamment les uns des autres.

Exemples :

  • Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi que leur moyenne, alors il y a 4 degrés de liberté car la valeur de la 5ème observation peut être retrouvée en utilisant la moyenne.
  • Pour un test d’indépendance sur une table de contingence pour () ligles et c colonnes, il y a (()-1) x (c-1) degrés de liberté car les autres éléments de la distribution d’indépendance peuvent être retrouvés en utilisant les totaux connus des lignes et des colonnes.

A retenir :

Lorsqu’on a affaire des variables de type catégorielles ou qualitatives, on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut calculer la force de dépendance via le V de Cramer et on associe un test dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et la dépendance.

Exemple : le niveau de mathématiques avec la taille des pieds (plus on a des grands pieds, plus on est bons en mathématique

Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus qu’on ne connaît pas la population. Il est possible d’avoir deux variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause de l’autre. Ainsi, il n’y a pas toujours de cause à effet ! On peut trouver des relations fortes entre deux variables mais cela ne signifie pas nécessairement qu’il y a une relation de cause à effet ! Par contre, le nombre d’années d’apprentissage pourrait être la cause d’avoir de meilleurs résultats en mathématique !

  • Même si deux variables sont fortement corrélées, il faut toujours remettre en question la cause à effet.
  • Pour connaître la dépendance, on peut faire une représentation graphique mais on utilise des tables de contingence. On regarde les valeurs conjointes entre ces deux variables. Une fois qu’on a ces valeurs conjointes, on pourra expliciter la dépendance ou l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est une valeur qui explique la différence entre la situation d’indépendance et la situation que j’ai. Si elle est égale à 0, c’est l’indépendance complète. L’autre formule est le V de Cramer qui se situe entre 0 et 1. Pour des variables qualitatives, on les compare en utilisant le V de Cramer.

Variables quantitatives[modifier | modifier le wikicode]

Diagramme de dispersion[modifier | modifier le wikicode]

Le diagramme de dispersion permet la mise en relation de deux variables numériques. La relation est-elle linéaire ?

On a deux variables numériques. La relation est-elle linéaire ? Graphiquement, on fait un diagramme de dispersion.

Intérêt des relations linéaires[modifier | modifier le wikicode]

Les relations linéaires sont simples à analyser et comprendre (proportionnalité linéaire (=immédiate) entre variable explicative et variable expliquée). Il existe de nombreux outils pour les analyser (corrélation linéaire (coefficient), régression linéaire (fonction explicative par rapport à une autre)…). En cas de non-linéarité :

  • Transformation des données (linéarisation de la relation)
  • Méthodes non-linéaires

Covariance[modifier | modifier le wikicode]

La covariance de deux variables X et Y est définie comme la moyenne des produits des écarts à la moyenne des deux variables :

C’est une différence par rapport à la moyenne et on multiplie les différences par rapport à la moyenne de l’autre valeur. La covariance peut prendre n’importe quelle valeur comprise entre - () à + (). Mais comment savoir s’il y a un lien entre les deux variables si les valeurs vont de l’infini à l’infini.

Si toutes les valeurs sont égales pour la variable X et toutes égales pour la variable Y (sans variation) ; si la covariante est égale à 0, toutes les valeurs sont proches de la moyenne et on n’a qu’une seule valeur. Par contre, avec une différence, la covariance peut prendre des valeurs négatives ou positives.

Interprétation de la covariance[modifier | modifier le wikicode]

La covariance permet de déterminer le sens de la relation entre les deux variables :

  • COV (X,Y) > 0 les variables évoluent dans le même sens. Les deux variables ont tendance à prendre simultanément des valeurs grandes ou petites.
  • COV (X,Y) < 0 les variables évoluent en sens contraire. Si une variable prend une valeur élevée, l’autre variable a tendance à prendre une petite valeur, et vice verse.
  • En l’absence de relation linéaire, la covariance vaut zéro.

Limites de la covariance[modifier | modifier le wikicode]

La covariance souffre de deux défauts :

  1. Elle dépend de l’unité de mesure des variables (avoir la même unité pour les variables)
  2. Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
  • Difficile de l’interpréter

Exemples :

Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a d’éducation, plus le revenu est élevé puisque la covariance est élevée.

Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme ça parce que les unités ne sont pas les mêmes.

Santé et visites chez le médecin : cov = -3.54. Plus le nombre de visites augmente, moins on a bon état de la santé. Ce qui est important, c’est que c’est négatif et cela est logique ; l’état de santé est moins bon.

Corrélation linéaire de Pearson[modifier | modifier le wikicode]

Le coefficient de corrélation linéaire de Pearson entre deux variables X et Y est défini comme :

où COV (X,Y) est la covariance des deux variables et Sx et Sy sont les deux écarts-types. La corrélation ne mesure qu’une association linéaire à l’exclusion de tout autre type de relation entre les deux variables.

Interprétation de la corrélation[modifier | modifier le wikicode]

Le coefficient de corrélation linéaire de Pearson mesure l’ajustement des données à une droite. Il évolue entre -1 et +1 :

On voit sur ces graphiques que la linéarité peut être plus au moins parfaite. En effet, les deux graphiques de gauche illustrent une situation de linéarité parfaite avec en haut, une pente positive et en bas, une pente négative. Le graphique en haut à droite illustre le cas où une corrélation linéaire est forte sans toutefois être parfaite, les points n’étant pas parfaitement alignés sur la même droite. Enfin, le graphique en bas à droite illustre un cas éloigné de la corrélation linéaire bien que l’on puisse identifier une tendance linéaire discrète.

R =1 : tous les points sont situés sur une droite et la relation est linéaire (=droite). Si la valeur x augmente, la valeur y augmente également.

R = 0.95 : petite variation mais je peux prédire en connaissant x avec une petite marge d’erreur.

R = -1 : si j’augmente x, y diminue.

R = 0.39 : la variabilité autour de la droite est beaucoup plus grande. La relation linéaire est ici positive (j’augmente x donc y aussi) mais c’est beaucoup moins fort.

On est capable d’indiquer une intensité linéaire mais ce n’est pas suffisant ! Par exemple, on prend un échantillon de 2 individus pour deux variables de type quantitative. Le coefficient de corrélation linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si petit échantillon, c’est difficile de déterminer la signification.

Test de la corrélation[modifier | modifier le wikicode]

Du point de vue inférentiel, la première question est de savoir s’il y a oui ou non corrélation. Les hypothèses testées sont alors les suivantes :

L’acceptation de H0 signifie une absence de relation linéaire entre les deux variables, pas l’absence totale de relation !

Exemple : éducation et revenu

Difficile de trouver une relation linéaire. Si on augmente le niveau d’éducation, il semble que le revenu augmente avec de grosses variations donc on aurait un semblant de linéarité. Si j’effectue le teste statistique, on aura des éléments. Il compare la variable « éducation » avec la variable « revenu ». L’hypothèse alternative est qu’elle est différente de 0. On obtient un coefficient de relation de 0.445. Cela signifie que c’est positif donc si l’une variable augmente, l’autre variable augmente aussi. Quelle est la force de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un peu de linéarité. De plus, a-t-on raison d’appliquer à la population ? Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse H0. Donc oui effectivement il existe une relation linéaire entre ces deux variables. La valeur du coefficient de relation qui l’exprime est de 0.445.

Exemple : âge et revenu

Les éléments du test indiquent que la valeur du coefficient de relation est très faible (0.0242) donc une faible relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.

Exemple : santé et visites chez le médecin

On constate que le coefficient de relation est égal à -0.389. La p-valeur est faible donc inférieur au seuil de 5% et dans la population, le coefficient de relation est négatif et on peut l’estimer avec le coefficient de relation. Si on augmente la valeur de l’un, je diminue l’autre.

Corrélation de variable ordinales[modifier | modifier le wikicode]

De par sa formule, la corrélation de Pearson ne concerne que les variables numériques. Il est cependant possible d’appliquer un concept similaire à des variables ordinales. On parle alors de corrélation de Spearman ou de corrélation non-paramétrique, notée () (rho). Le principe consiste à numéroter indépendamment pour chaque variable, les observations de la plus petite à la plus grande (selon l’ordre des modalités). Ces numéros sont appelés les rangs des observations. On calcule alors la corrélation entre ces deux séries de rangs.

La corrélation non-paramétrique s’interprète de la même façon que la corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y a toujours le même écart entre deux modalités successives d’une variable. Lorsque la corrélation non-paramétrique est appliquée sur des variables numériques, elle rend égaux les écarts successifs entre les valeurs réellement observées.

Exemple : santé et doc_4c

Ici, entre la santé et le nombre de visites, on a un coefficient de corrélation de Spearman égal à -0.363 où si le nombre de visites augments, la santé diminue. La p-valeur est faible et donc on a raison d’inférer où notre échantillon est significatif par rapport à la population. On n’a plus d’intervalle de confiance mais les mêmes caractéristiques sont présentes.

Causalité[modifier | modifier le wikicode]

Pour qu’il y ait causalité d’une variable A vers une variable B, les 3 conditions suivantes doivent être vérifiées :

  • A et B doivent être corrélées.
  • Il doit y avoir une relation temporelle entre A et B, à savoir que A doit avoir lieu avant B.
  • Toutes les autres raisons pouvant valablement expliquer l’influence observée de A sur B doivent avoir été écartées.

Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies que l’on peut parler d’influence causale d’une variable sur une autre !

  • Ici, le terme de corrélation doit se comprendre comme une association au sens large, linéaire ou non.

La corrélation n’implique pas la causalité[modifier | modifier le wikicode]

La corrélation n’implique pas automatiquement la causalité : ce n’est pas parce que deux variables sont fortement corrélées l’une à l‘autre que l’une est forcément la cause de l’autre. Il arrive fréquemment que deux variables soit corrélées car elles dépendant toutes deux d’une même troisième variable. Il peut aussi arriver que deux variables s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse, si la valeur prise par une variable dépend de celle d’une autre variable (causalité) alors les deux variables sont corrélées.

Le cas des comparaison de populations[modifier | modifier le wikicode]

Introduction[modifier | modifier le wikicode]

On ne va plus faire des tests sur une seule population mais on veut voir ce qui se passe quand on a deux populations et on veut voir quel test on peut appliquer sur ces deux populations.

Problématique[modifier | modifier le wikicode]

Un problème classique en recherche consiste à déterminer si deux ou plus de deux populations sont significativement différentes les unes des autres. Une problématique similaire s’observe lorsque l’on désire comparer les réponses de mêmes personnes interrogées à plusieurs reprises au fil du temps. EN pratique, on considère une ou plusieurs variables numériques d’intérêt et on se demande si leurs caractéristiques (moyenne, variance…) diffèrent réellement d’une population l’autre.

Données appariées ou indépendantes ?[modifier | modifier le wikicode]

Deux populations sont dites appariées si chaque élément de la première population correspond exactement à un élément de la seconde population et vice verse. Deux populations sont dites indépendantes s’il n’existe aucune relation particulière entre un élément de la première population et un élément de la seconde. Deux populations appariées contiennent forcément le même nombre d’individus, alors que ce n’est pas forcément le cas pour des populations indépendantes. Ces mêmes concepts s’étendent naturellement à un nombre quelconque de populations.

Comparaison des moyennes[modifier | modifier le wikicode]

Le critère de comparaison le plus souvent utilisé est celui de la moyenne. L’analyse de variance ou ANOVA permet de faire une comparaison des moyennes entre plusieurs populations. Dans le cas particulier où l’on ne désire comparer entre-elles que 2 populations, on utilise généralement le test de Student, une version particulière de l’ANOVA.

Tests non-paramétriques[modifier | modifier le wikicode]

Quand on veut faire un test, on veut dire quelque chose sur la population. L’ANOVA et le test de Student sont des méthodes paramétriques (on veut établir un paramètre) reposant notamment sur l’hypothèse selon laquelle les données sont distribuées selon des lois normales. Cette hypothèse de normalité se révèle parfois fausse. Par ailleurs, lorsque la taille de l’échantillon est petite, les tests de normalité usuels, tel que celui de Kolmogorv-Smirnov, ne sont pas assez puissants et ils ne peuvent donc jamais rejeter l’hypothèse nulle de normalité, ce qui est donc non-informatif. Les tests paramétriques sont alors souvent remplacés par des tests équivalents non-paramétriques qui ne postulent aucune distribution particulière des données.

Les tests non-paramétriques comparent les médianes et non les moyennes ! Ils sont généralement moins puissants que leurs équivalents numériques mais ils sont plus robustes (médiane n’est pas sensible aux valeurs extrêmes ! Donc test non-paramétrique comparant des médianes et plus robuste) et ont un plus grand champ d’application. Tests non-paramétriques pour les comparaisons de populations :

  • Test du signe et test du signe de Wilcoxon (comparaison de 2 populations appariées / test de calcul sur la différence entre les rangs en considérant l’amplitude, à savoir la différence entre les rangs)
  • Test de Wilcoxon et test de Mann-Whitney (test non paramétrique de comparaison entre 2 populations indépendantes)
  • Test de Friedman (comparaison de plus de 2 populations appariées)
  • Test de Kruskal-Wallis (comparaison de plus de 2 populations indépendantes)

Exemple : données du test pilote LHC

En décembre 2014, des étudiants des Universités de Lausanne et Genève ont participé au premier test pilote d’un nouveau type de questionnaire biographique online : le LHC (Life History Calendar). A deux semaines d’intervalles, différentes données ont été récoltés telles que l’âge, le genre, la taille, le poids, le nombre de déménagements…. Ces données permettent soit de comparer les réponses données à la même question lors des deux passations du questionnaire (données appariées), soit de comparer lors d’une même passation les réponses fournies par deux groupes distincts de personnes (données indépendantes).

Test de Student[modifier | modifier le wikicode]

Données appareillées[modifier | modifier le wikicode]

Test de la moyenne de la différence[modifier | modifier le wikicode]

Lorsque les données sont appariées, il est possible de construire une variable D (quantité à l’instant T1 et T2 et on regarde la différence) représentant leur différence terme à terme. Soit X et Y, deux variables appariées dont les moyennes dans la population sont notées () et (). Alors : D = Y – X.

Le test de Student se formule alors de la façon suivante : [[File:./media/image126.emf]]

Exemple : comparaison de la taille à T1 et T2

Nous voulons déterminer si la taille en centimètres donnée lors des deux passations du questionnaire est la même ou pas. Formellement, D = taille temps 1 – taille temps 2

Pour savoir ce sur quoi porte le test, c’est l’hypothèse alternative où la différence réelle est différente de 0. Donc H0 = 0 et H1 ≠ 0. La valeur 0 est-elle comprise dans l’intervalle de confiance ? Oui c’est le cas donc rien qu’avec ça, on peut dire qu’on ne peut pas rejeter l’hypothèse nulle indiquant que la différence ne moyenne est égale à 0. Cela se confirme avec la p-valeur qui est supérieure au seuil que l’on se fixe pour faire le test donc dans ce cas-là, on ne peut pas rejeter l’hypothèse nulle. Il n’y a pas de différence significative entre la taille donnée au temps 1 et la taille donnée au temps 2. Le degré de liberté est de 57 ; on a une indication sur la taille de l’échantillon et la valeur statistique de test t.

  • On peut conclure en regardant soit la p-valeur soit l’intervalle de confiance. Les tailles données au temps 1 et au temps 2 par ces mêmes individus, il n’y a pas eu de changement significatif. A-t-on le droit d’effectuer ce test ? Les données proviennent d’une population avec une distribution normale.

Données indépendantes[modifier | modifier le wikicode]

Test de la différence des moyennes[modifier | modifier le wikicode]

Lorsque les données sont indépendantes, il n’est pas possible de construit une variable D représentant leur différence terme à terme. Les hypothèses du test de Student s’écrivent alors simplement :

Variances égales ou inégales[modifier | modifier le wikicode]

Mathématiquement, la distribution théorique du test de Student n’est pas le même selon que les populations dont sont issues les deux variables X et Y ont la même variance ou non. Il existe donc deux versions du test de Student pour des données indépendantes. Afin d’utiliser la bonne version, on commence par tester l’égalité des variances des deux variables. Ensuite, si les variances sont égales, on utilise le test de Student standard alors que si les variances sont inégales, on utilise le test de Welch.

Test de l’égalité des variances[modifier | modifier le wikicode]

Le test le plus courant pour comparer les variances de deux populations est le test F du rapport des variances. Nous voulons tester les hypothèses suivantes :

Mais ces hypothèses sont reformulées de manière équivalente comme suit :

Exemple : taille des femmes et des hommes

Nous voulons déterminer si la taille en centimètres est égale chez les femmes et les hommes. Nous commençons par comparer les variances des deux populations :

On va tester les variances dans ces populations ; est-ce que la variance chez les hommes est le même chez les femmes ? On fait le test F et il nous dit que l’hypothèse alternative est indiquée. On regarde la p-valeur (0.55) et on ne peut pas rejeter l’hypothèse nulle puisqu’on pourrait dire qu’on n’a aucune preuve pour la rejeter. Peut-on supposer que les variances sont égales ? Oui ! Le résultat du test, oui, les variances peuvent être supposées égales.

L’hypothèse d’égalité des variances étant acceptées, nous pouvons utiliser la version habituelle du test de Student.

On a suffisamment d’évidence pour rejeter H0 (p-valeur) et rejeter le fait que la moyenne chez l’homme et chez la femme est égale. Donc la taille moyenne des hommes et des femmes est significativement différente.

Exemple : Age au premier smartphone

Nous voulons déterminer si l’âge en années auquel les femmes et les hommes ont eu le premier smartphone est le même ou pas.

On applique le test F qui nous dit qu’avec une p-valeur inférieure à 0.5, on rejette l’égalité des variances.

Donc, on va devoir faire le test de Welch du test de Student où on applique le test avec une p-valeur égale à 0.77. On ne peut pas rejeter l’hypothèse nulle donc l’âge peut être considéré comme identique entre les hommes et les femmes. Autre manière de voir, si on regarde l’intervalle de confiance, puisque la différence est comprise entre -1.313 et 0.981, le zéro se situe là-dedans.

Les analyse multivariée[modifier | modifier le wikicode]

Introduction[modifier | modifier le wikicode]

Modèles statistiques[modifier | modifier le wikicode]

La régression est un terme exprimant une fonction. De plus, on s’attache aux régressions linéaires dites des fonctions linéaires. Un modèle statistique est un outil permettant d’analyser une situation et d’en tirer des conséquences. Un modèle combine généralement différents concepts statistiques « simples » tels que la tendance centrale, la dispersion, la corrélation… au sein d’une ou plusieurs équations mathématiques. Un modèle permet de tenir compte simultanément de différents facteurs influençant la situation considérée. Dans la mesure du possible, un modèle doit tenir compte du plan d’échantillonnage et des spécificités des données.

Quelques modèles[modifier | modifier le wikicode]

  • Prédire la valeur prise par une variable numérique => régression linéaire.
  • Prédire la modalité prise par une variable dichotomique / mooléenne => régression logistique
  • Comparer plusieurs populations => analyse de la variance (ANOVA).
  • Réduire le nombre de variables ou d’observations à traiter => classification automatique / méthodes factorielles (ACP, AFC,…). Techniques avancées de réduction du nombre de variable.
  • Expliquer l’évolution d’une variable au fil du temps => chaîne de Markov, analyse de survie, analyse des séquences

Modèles de régression[modifier | modifier le wikicode]

Dans un modèle de régression, un ensemble de variables explicatives ou indépendantes X1, X2, X3… est utilisé pour expliquer une variable expliquée ou indépendante Y : Y = f(X1,X2,X3…)

Le type de régression dépend du type de la variable expliquée Y :

  • Numérique -> régression linéaire
  • Dichotomique -> régression logistique
  • Nominale -> régression multinomiale
  • Ordinale -> régression ordinale

Exemple : Données GSOEP

Exemples de régressions

  • Prédire le REVENU d’un ménage -> régression linéaire
  • Prédire le fait d’avoir un TRAVAIL -> régression logistique
  • Prédire le nombre de visites chez un docteur durant les 3 derniers mois en 4 catégories (DOC_4c) -> régression multinomiale ou ordinale

Les Régressions Linéaires[modifier | modifier le wikicode]

Le modèle[modifier | modifier le wikicode]

En régression linéaire simple, une seule variable indépendante X (explicative) explique la variable dépendante Y (expliquée). Le modèle est linéaire, ce qui signifie que la relation théorique entre les variables X et Y est une droite. Sauf cas particulier, la relation linéaire liant X et Y n’est pas parfaite. Le modèle s’écrit alors (ce qu’on aurait dans la population) :

e est un terme d’erreur représentant la part de Y qui n’est pas expliqué par le modèle linéaire. Après estimations des coefficients ()0 et ()1, le modèle fournit une estimation de [[File:./media/image142.emf]] pour chaque observation Y1 (dans un échantillon, on a des valeurs estimées et on essaie d’estimer la pente par bêta. On n’obtient pas directement les vraies valeurs parce que si on a deux échantillons, on va obtenir deux échantillons distincts) :

Le modèle comporte deux coefficients à estimer :

  • ()0 est la constante (ordonnée à l’origine) du modèle. C’est la valeur de Y lorsque la variable explicative Y vaut 0.
  • ()1 est la pente du modèle. Elle s’interprète comme l’effet sur Y d’une variation d’une unité de la variable X.

Le point commun de toutes les régressions linéaires, c’est le point de moyenne entre X et Y ((),( )).

Estimation des coefficients[modifier | modifier le wikicode]

L’estimation des coefficients ()0 et ()1 s’effectue selon la méthode des moindres carrées. L’objectif est de trouver la droite de régression qui minimise globalement les termes d’erreur ei. La droite optimale passe par le point moyen ((),( )).

  • Bêta 1 (pente) : Estimateur des moindres carrées : la covariance de X et Y / variance de X
  • Bêta 0 (constante) = moyenne Y (variable dépendante) – pente x la moyenne de X
  • Pour trouver les coefficients à estimer, il faut faire l’estimateur des moindres carrées. Pour trouver l’estimation de la constante, il faut calculer les moyennes et prendre la pente.

Exemple : REVENU et EDUCATION : Le revenu dépend-t-il du niveau d’éducation ?

On voit que dans le tableau des résultats, nous avons trois parties dans le listing. La partie centrale correspond au modèle lui-même. La catégorie « intercept » correspond à l’ordonnée à l’origine – bêta 0 (ici = à 0.1669) et la catégorie D$EDUCATION correspond à la pente ou bêta 1 (ici = à 0.0242). Ainsi, on peut dire que par années d’éducation supplémentaire, le revenu augmente théoriquement de 0.0242%. Ainsi, il semble que l’éducation influence positivement le revenu puisqu’il est possible de trouver une relation entre ces deux variables.

[[File:./media/image148.emf]]On obtient ça comme modèle. A partir de ce modèle, on peut prédire quel salaire une personne devrait théoriquement toucher en fonction du nombre d’année d’éducation à son actif. Par exemple, quel devrait être le salaire d’une personne ayant été 17 années à l’école ?

Exemple : REVENU et EDUCATION

Une fois estimé, le modèle peut être utilisé pour faire des prédictions en l’appliquant sur des valeurs choisies des variables explicatives. Pour x=17 années d’éducation, le modèle prédit :

soit en moyenne un revenu de 0.5738.

Attention :

  • Pour faire des prédictions valables, il faut que le modèle soit de bonne qualité, ce qui n’est pas le cas ici.
  • Un modèle ne peut être utilisé que pour des données du même ordre de grandeur que celles ayant servi à estimer le modèle.
  • Ce que le graphique permet de voir, c’est que les points ne sont pas bien alignés sur la droite, ce qui permet de dire que ce modèle est insuffisant pour expliquer à lui seul le revenu. Pour obtenir un meilleur modèle avec un pouvoir explicatif plus fort, il faut intégrer d’autres variables dans l’analyse. De plus, il faut exclure les données aberrantes pour que ces dernières ne puissent pas influencer et biaiser le modèle construit par le chercheur. En effet, il est bien intéressant de les étudier séparément.

On a remplacé notre variable X et on obtient d’autres valeurs.

[[File:./media/image151.emf]]On a un intercept plus une pente négative fois la valeur col bleu oui/non. Cela signifie que si j’augmente col bleu, l’effet sur le revenu sera augmenté (on regarde le coefficient qui est négatif et donc on descend dans les valeurs). Si je passe à col bleu, cela a pour effet un revenu qui décroît par rapport à un col blanc.

Le modèle[modifier | modifier le wikicode]

La variable dépendante Y est souvent influencée simultanément par plusieurs variables explicatives. Soit X1, X2,…Xk, k variables indépendantes qui peuvent toutes expliquer en partie la variable dépendante Y. Le modèle s’écrit alors :

Même s’il n’est pas possible de représenter graphiquement le modèle, la relation entre chaque variable explicative et la variable dépendante reste linéaire.

Indépendance des variables explicatives[modifier | modifier le wikicode]

Les variables explicatives du modèle doivent être linéairement indépendantes les unes des autres : il ne doit pas être possible d’écrire l’une d’entre-elles comme une combinaison linéaire des autres. Cela revient à dire que chaque variable explicative doit apporter une information qui lui est propre pour l’explication de la variable dépendante. Si les variables explicatives ne sont pas linéairement indépendantes, le modèle ne peut plus estimer et on parle alors de multicolinéarité. Par ailleurs, les variables explicatives doivent aussi être indépendantes des termes d’erreur du modèle.

Je tente d’expliquer le revenu par l’âge, l’éducation et le col bleu. Dans notre output, on a à nouveau un bêta 0 estimé, un bêta 1 pour l’éducation, un bêta 2 pour l’âge et un bêta 3 pour col bleu. Si on veut établir l’équation expliquant le revenu, il serait égal à XXXX. Si je connais cette équation, je suis capable de donner une estimation du revenu où je remplacerais l’éducation par le nombre d’années d’éducation. On voit sur l’exemple que le R2 est égal à 0.0759, on peut donc conclure que ce modèle permet d’expliquer à 7,59% le niveau de revenu des individus. Ainsi, c’est un modèle très insuffisant pour expliquer le salaire, sans pour autant être inutile puisqu’il permet malgré tout de comprendre une partie de la variable dépendante Y. La variable col bleu n’est pas significative. L’interprétation des coefficients, pour une année supplémentaire d’éducation, j’augmente mon augmentation de 0.024791 en éducation.

Variables explicatives qualitatives[modifier | modifier le wikicode]

L’utilisation de variables explicatives qualitatives (nominales ou ordinales) est problématique car les codes numériques attribués à leurs modalités sont arbitraires. Si le code change, l’estimation du modèle change aussi, ce qui n’est pas réaliste. La solution consiste à associer à chacune des modalités une variable indicatrice binaire (0-1). On parle aussi de variables muettes (dummy variables). Une variable catégorielle à c modalités est remplacée par c-1 variables muettes, la i-ème variable prenant la valeur 1 si la variable originale prend la valeur i et zéro sinon. Une des modalités sert de référence et on ne lui associe par de variable indicatrice.

Niveau d’analyse[modifier | modifier le wikicode]

Sauf car particulier, il est toujours possible d’estimer la valeur des coefficients d’un modèle de régression. Cependant, l’existence du modèle n’implique pas automatiquement qu’il soit de bonne qualité. Plusieurs niveaux d’analyse peuvent être utilisés afin de juger de la pertinence du modèle de régression linéaire :

  • Qualité globale de l’ajustement
  • Test individuel de chaque coefficient
  • Analyse des termes d’erreur

Cette problématique n’est pas spécifique à la régression linéaire. Elle est présente dans tous les modèles statistiques

Qualité globale de l’ajustement[modifier | modifier le wikicode]

Le premier point à vérifier après avoir calculé un modèle est de savoir si ce modèle permet d’expliquer réellement, en partie du moins, la variable dépendante. Si c’est le cas, il sera ensuite utile d’étudier un à un ses coefficients. Si ce n’est pas le cas, le modèle doit être purement et simplement rejeté et un autre modèle doit être défini.

Coefficient de détermination de R2[modifier | modifier le wikicode]

Le coefficient de détermination (ou de corrélations multiple) R2 est une mesure variant entre 0 et 1 et représentant la part de la variable dépendante qui est expliquée par le modèle de régression. Plus R2 est proche de 1, plus le modèle s’ajuste bien aux données. Le coefficient de détermination est défini comme la proportion de la variance totale expliquée par le modèle :

Dans le cas particulier de la régression linéaire simple, [[File:./media/image155.emf]]

Coefficient de détermination R2 ajusté[modifier | modifier le wikicode]

Le coefficient de détermination R2 présente l’inconvénient d’augmenter en fonction du nombre de variables explicatives. Le coefficient de détermination R2 ajusté corrige ce défaut :

n est le nombre d’observations et p le nombre de coefficients estimés du modèle. C’est ce coefficient ajusté qui devrait toujours être utilisé.

Exemple :

Test de la significativité globale[modifier | modifier le wikicode]

Nous aimerons savoir si le modèle contient des éléments utiles pour expliquer la variable dépendante. Pour ce faire, nous formulons le test suivant :

Si l’on accepte H0, aucune des variables explicatives n’a d’influence sur la variable dépendante et le modèle doit être entièrement rejeté.

La statistique de test F-statistic se calcule comme :

Test individuel de chaque coefficient[modifier | modifier le wikicode]

Même si un modèle apporte globalement de l’information pour comprendre le comportement de la variable dépendante, cela ne signifie pas que toutes les variables explicatives sont utiles. Ceci est particulièrement vrai dans le cas de modèles comportant un grand nombre de variables explicatives. Seules les variables apportant réellement quelque chose de significatif doivent être interprétées.

Test de significativité de chaque coefficient[modifier | modifier le wikicode]

Nous voulons vérifier si chacun des coefficients du modèle est réellement différent de zéro et donc utile au niveau de la population. Nous effectuons pour chaque coefficient le test suivant :

Ces tests sont appelés les tests de significativité et le coefficient est dit significatif si l’hypothèse nulle est rejetée. Accepter l’hypothèse nulle revient à dire que la variable explicative correspondant au coefficient testé n’a pas de relation avec la variable dépendante.

Coefficients standardisés de la régression[modifier | modifier le wikicode]

Quelle est l’importance d’un coefficient ? Si on veut comparer les coefficients entre eux, on ne peut pas le faire parce qu’ils n’ont pas la même unité. Pour ce faire, il faut essayer de standardiser.

La valeur des coefficients de la régression dépend de l’unité de mesure des variables explicatives correspondantes. Ce n’est donc pas parce qu’un coefficient est très différent de zéro qu’il est significatif. Une solution consiste à standardiser les coefficients de manière à les rendre comparables les uns avec les autres :

où Sy est l’écart-type de la variable dépendante et Sxj est l’écart-type de la j-ième variable explicative.

Analyse des termes d’erreur[modifier | modifier le wikicode]

Le modèle de régression linéaire repose sur un ensemble d’hypothèses ayant trait aux termes d’erreur du modèle. Si ces hypothèses ne sont pas vérifiées, alors le modèle perd en fiabilité et il devrait être modifié. Selon les cas, ces hypothèses peuvent être vérifiées graphiquement ou par calcul. Pour une observation i, le terme d’erreur se calcule comme (valeur réelle (Yi) – valeur estimée Yi chapeau estimée par la régression) :

[[File:./media/image163.emf]]

Un terme d’erreur positif correspond donc à une sous-estimation de la réalité par le modèle et un terme négatif correspond à une surestimation.

Erreur standard de la régression[modifier | modifier le wikicode]

L’erreur standard du modèle de régression est l’écart-type non-biaisé des termes d’erreur :

La somme carrée des erreurs/ nombre d’observations – nombre de paramètres estimés (variables) au raciné carré.

L’erreur standard intervient notamment dans le calcul des tests de significativité et lors de la détection de donnés atypiques de l’échantillon.

Données atypiques[modifier | modifier le wikicode]

Les modèles de régression sont fortement influencés par des données atypiques ou aberrantes au sein de l’échantillon. Le mieux est de supprimer ces données avant l’estimation mais il est aussi possible de détecter leur présence a posteriori. Un critère habituel consiste à supprimer les données dont le terme d’erreur pris en valeur absolue dépasse 2.5 fois l’erreur standard du modèle. En supposant normale la distribution des observations, ces données font partie du 1% des données les plus extrêmes (grandes ou petites).

Exemple :

La limite pour des données atypiques est 2.5 x 0.208 = 0.52. Les termes d’erreur acceptable sont compris entre [-0.52 ; 0.52]. La valeur maximale est de 2.57 sauf qu’il y a un souci parce qu’il y a au moins une valeur atypique supérieure à 0.52.

Si on regarde le graphique, on remarque que tout ce qui est au-dessus, ce sont de trop grandes erreurs donc il y a un souci.

Hypothèses sur les termes d’erreur[modifier | modifier le wikicode]

Construction de modèles[modifier | modifier le wikicode]

Deux approches[modifier | modifier le wikicode]

  • Approche théorique : on part d’une théorie existante et on construit le modèle explicatif qui lui correspond. Les variables explicatives utilisées dépendant de la théorie.
  • Approche empirique : on recherche le modèle permettant d’expliquer au mieux la variable dépendante. Le choix des variables explicatives utilisées dépend uniquement de leurs qualités statistiques.
  • L’approche théorique est généralement préférable à l’approche empirique.

Ajustement VS simplicité[modifier | modifier le wikicode]

Il n’est pas forcément souhaitable que le modèle estimé à partir d’un échantillon soit trop parfait ! L’échantillon est une image imparfaite de la population. Un modèle parfait pour l’échantillon ne le sera pas forcément pour la population. Une telle situation est une situation dite de surapprentissage. Un bon modèle doit être le résultat d’un arbitrage entre l’ajustement aux données et la simplicité.

Approche théorique[modifier | modifier le wikicode]

Dans le cas d’une approche théorique, le modèle est défini par la théorie et il n’y a normalement pas de doutes quant aux variables explicatives à utiliser. La limitation provient naturellement des données à disposition : si les concepts théoriques n’ont pas pu être correctement mesurée, alors le modèle ne reflètera pas exactement la théorie ! Cela rappelle une fois encore l’importance de penser à une recherche quantitative comme un tout et de prévoir bien avant la récolte des données ce qui sera fait avec ces dernières du point du vue statistique.Tester la théorie Partir d’un modèle théorique ne veut pas dire que l’on ne peut pas le remettre en question. Le test de significativité de chaque coefficient permet de déterminer quelles variables soutiennent la théorie et quelles variables la remettent en cause. De même, il est possible d’ajouter des variables ne faisant pas partie de la théorie, de manière à remettre en question la théorie et à en proposer une nouvelle.

Comparer des théories[modifier | modifier le wikicode]

Dans certains cas, plusieurs théories différentes ont été bâties afin d’expliquer un même phénomène. Sous réserve de disposer des variables nécessaires pour chaque théorie, il est possible de calculer un modèle différent pour chaque théorie, puis de les comparer afin de déterminer quelle théorie est la mieux soutenue par les données. La comparaison peut se faire notamment sur la base du coefficient de détermination ajusté (R2) ou de critères d’information tels que le BIC.

Approche empirique[modifier | modifier le wikicode]

Dans le cas d’une approche empirique, toutes les variables à disposition peuvent être utilisée comme prédicteurs de la variable dépendante. Au vu du nombre de modèles différents que cela peut impliquer, il faut travailler de manière systématique. Principales approches :

  • Backward
  • Forward
  • Blocs

Procédure backward[modifier | modifier le wikicode]

La procédure backward prend comme point de départ un modèle incluant toutes les variables explicatives à disposition. On utilise ensuite l’algorithme suivant :

  • Le modèle de régression multiple est estimé.
  • Chaque coefficient du modèle est testé individuellement.
  • Décision :
    • Si tous les paramètres sont significativement différents de zéro, la procédure s’arrête.
    • Sinon, la variable correspondant au paramètre le moins fortement significative (celui pour lequel l’hypothèse H0 a été la plus fortement acceptée) est supprimée du modèle et on retourne au point 1).

Procédure forward[modifier | modifier le wikicode]

La procédure forward prend comme point de départ un modèle incluant uniquement une constante. On utilise ensuite l’algorithme suivant :

  • On recherche, parmi les variables ne faisant pas partie du modèle, celle qui permet le mieux d’améliorer le modèle. Cela peut nécessiter le calcul de tous les modèles possibles en incluant à tour de rôle chacune des variables potentielles.
  • Décisions :
    • Si cette variable est significative lorsqu’on l’ajoute au modèle, on l’ajoute et on retourne au point 1.
    • Sinon, la procédure s’arrête.

Remarque : les procédures « stepwise » combinent les deux approches précédentes. Une variable peut ressortir du modèle après y être entrée, et vice versa.

Construction par blocs[modifier | modifier le wikicode]

La construction par blocs est une approche intermédiaire entre les approches théoriques et empiriques. Les variables explicatives sont réparties en plusieurs blocs (variables essentielles, variables sociodémographiques, variables de contrôle…) et ces blocs sont ajoutés successivement au modèle. L’objectif n’est plus seulement d’établir l’utilité de chaque variable explicative prise isolément mais de mesurer l’apport respectif de chaque bloc ou type de variables dans l’explication de la variable dépendante.

Comment comparer ces modèles ?[modifier | modifier le wikicode]

Plusieurs critères peuvent être utilisés pour comparer des modèles entre eux. Tout d’abord, il faut savoir si l’on travaille au niveau individuel de chaque variable ou au niveau du modèle pris dans son ensemble :

  • Au niveau des variables, on peut utiliser le test de significativité si la variable est dans le modèle, ou se baser sur la corrélation (partielle) entre cette variable et la variable dépendante sinon.
  • Au niveau du modèle, on peut se baser sur des coefficients d’ajustement (R2), sur des tests du rapport de vraisemblance, ou sur des critères d’information (BIC).

Critères d’information[modifier | modifier le wikicode]

Les critères d’information combinent la qualité d’ajustement du modèle aux données avec sa complexité :

  • Akaike : AIC = FIT + 2k
  • Bayes (Schwarz) : BIC = FIT + ln(n)k -> où k est le nombre de coefficient estimés du modèle et n est le nombre d’observations.

Plus un coefficient est proche de zéro, meilleur il est. Pour une régression logistique, FIT est égal à -2 fois la log-vraisemblance du modèle, alors que pour une régression linéaire, il s’agit de n fois le logarithme de la somme des carrés des résidus du modèle.

Il n’est pas possible de tester formellement la valeur du BIC mais Raftery (1995) propose un ordre de grandeur pour la comparaison de deux modèles. Soit M1 et M2, deux modèles tels que M2 est emboîté dans M1 (ie : il a été obtenu en supprimant une ou plusieurs variables de M1 et il est donc plus simple). Alors :

Exemple : comparaison de théories

Pour expliquer le revenu, il faut prendre la variable travail (oui/non), si c’est un col blanc (oui/non) et s’il est indépendant. Les 3 variables sont significatives par rapport à leur p-valeur.

On a la variable santé qui est significative et les deux autres qui ne sont pas significatives.

On a aussi des variables significatives et d’autres qui ne le sont pas (âge, diplôme universitaire).

Lequel des 3 modèles est le plus pertinent ? On compare les R2 ajusté et les BIC.

Le R2 du modèle sociodémographique permet d’expliquer les 12% de notre modèle de comparaison. Avec le BIC, la valeur la plus petite, c’est une sorte de différence entre ce que ça prédit et ce qui est réellement donc plus c’est petit, mieux c’est. Pour les deux critères, on a le modèle sociodémographique qui est meilleur mais est-ce un bon modèle ? Là, on a environ 12% de variance expliqué mais ce n’est pas excellent. Parmi les 3, c’est le meilleur mais il n’est pas très bon.

Exemple : construction par blocs

On construit un modèle en examinant tout d’abord l’influence des facteurs économiques puis celle de la santé et en dernier lieu celle des facteurs socio-démographiques.

Le bloc économique : on prend le même modèle. On remarque qu’il y a au moins une valeur qui est significative. Toutes les variables sont significatives en l’occurrence avec un R2 de 0.0509 donc on explique 5% de la variance. Maintenant on rajoute les valeurs dues à la santé à ce modèle. Ce nouveau modèle comprenant deux séries de blocs de variables, il vaut la peine de s’y intéresser. Est-ce qu’il explique beaucoup mieux la variable indépendante ? Les variables sont significatives du bloc économique et juste une du modèle de la santé. Puis on ajoute les variables socio-démographiques et on obtient un modèle combiné par les 3 blocs de variables. On voit ainsi qu’il y a des variables non-significatives.

Si on compare ces 3 modèles entre eux,

Le dernier bloc permet la plus forte augmentation et donc la plus forte explication de la variation (avec un pourcentage d’environ 16%). Par conséquent, c’est l’ajout des facteurs socio-démographiques qui permet la plus forte augmentation de l’explication de la variable dépendante.

Exemple : sélection backward

A partir du modèle précédent à 3 blocs de variables, on effectue une sélection backward en supprimant à chaque étape la variable non-significative ayant la plus grande p-valeur. On supprime ainsi successivement les variables suivantes : HANDI.POUR, HANDI, UNIV, AGE. En termes de R2 ajusté, le modèle obtenu est très proche du modèle précédent à 3 blocs, tout en étant plus simple.

[[File:./media/image175.emf]]Toutes ces variables ont l’air significatives. Comment expliquer la variance ? Par 16.2% mais qui n’est pas terrible. C’est un modèle considéré comme mauvais.

Les régression logistiques[modifier | modifier le wikicode]

Elle va nous permettre de prédire la valeur d’une ou l’autre des modalités d’une variable de type catégorielle.

Introduction[modifier | modifier le wikicode]

Problématique[modifier | modifier le wikicode]

Nous voulons construire un modèle de régression pour expliquer une variable dichotomique. Problème : une telle variable ne prend que deux modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux) alors qu’un modèle de régression produit des résultats numériques allant de – infini à + infini. Comment faire coïncider une variable dépendante dichotomique avec l’output d’un modèle de régression ? La solution consiste en deux étapes successives.

Transformation logit (fonction)[modifier | modifier le wikicode]

Soit une variable dépendante dichotomique et soit p la probabilité de la modalité pour laquelle nous allons construire le modèle.

  • Etape 1 : En considérant la probabilité p plutôt que la modalité elle-même, nous revenons à une variable dépendante numérique. Mais une probabilité évolue entre 0 et 1, alors qu’un modèle de régression produit des résultats allant de –infini à +infini.
  • Etape 2 : On estime le modèle pour la fonction logit, notée () plutôt que pour p :
  • On veut prédire des valeurs avec une régression connue où on se ramène à un cas où les valeurs vont aller de – l’infini à + l’infini. C’est une fonction logistique !

Donc on passe d’une variable dichotomique à quelque chose qui peut avoir des valeurs allant de – l’infini à + l’infini. La transformation est permise par le log. Nous on estime sur le PI avec une régression linéaire.

Modèle[modifier | modifier le wikicode]

Equation générale d’une régression logistique :

Même si le modèle de régression logistique ne permet pas forcément d’expliquer à 100% le logit, on n’indique généralement par le terme d’erreur car il n’est pas distribué selon une loi bien définie.

Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on prend quelqu’un au hasard sans connaître ces modalités, on prend la modalité la plus présente, à savoir le 80 d’individus. En termes de probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2. Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre information à part les données de départ, à savoir de la variable dichotomique.

Interprétation[modifier | modifier le wikicode]

En régression linéaire, il suffit de minimiser la somme des carrées d’erreur. Ici, on aura une fonction dite de régression logistique.

Niveaux d’analyse du modèle[modifier | modifier le wikicode]

Tout comme en régression linéaire, on peut évaluer à la fois la qualité globale d’un modèle et l’utilité de chacun de ses éléments. Par ailleurs, les coefficients du modèle peuvent soit être interprétés directement soit être transformées en odds ratio – rapport de cote. Cette seconde forme est plus naturelle dans le cas de la régression logistique.

Exemple : modélisation du fait d’avoir un travail

La variable dépendante est d’avoir un travail et on veut l’expliquer avec toutes les autres variables indépendantes. AIC = critère d’information. On a ici les coefficients nécessaires de notre régression ; on a des informations sur la qualité du modèle, sur la valeur des paramètre (dernière colonne).

On a ici de nouvelles informations par rapport au précédent.

Qualité globale du modèle : déviance[modifier | modifier le wikicode]

La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le modèle et les observations. Elle est utile pour comparer des modèles en particulier le modèle basique ne contenant aucune variable explicative et le modèle complet où on a toutes nos variables. Ces deux chiffres indiquent une certaine distance entre le modèle et les observations. Plus la distance est petite, meilleur sera le modèle. En ayant une déviance plus petite, on aura un modèle considéré comme meilleur. Si on n’a aucune variable explicative et si on prend toutes ces explications du modèle précédents des variables indépendantes, la déviance est plus petite et donc le second modèle est meilleur que le modèle où on a juste les intercept.

Qualité globale du modèle : chi-2[modifier | modifier le wikicode]

La statistique chi-2 du rapport de vraisemblance évalue l’amélioration de la déviance par rapport au modèle « NULL » (avec constante seulement) :

Si la statistique du chi-2 n’est pas significative, le modèle est rejeté. Cette statistique permet aussi de comparer des modèles entre eux.

Donc notre modèle vaut la peine d’être considéré mais cela ne signifie pas qu’il est bon ! C’est aussi un outil qui nous permet de juger la validité de notre modèle.

Qualité globale du modèle : pseudo-R2[modifier | modifier le wikicode]

Cox et Snell :

  • Nagelkerke (exemple : R2 = 0.227)
  • McFadden :

où -2LL0 est la déviance du modèle NULL et -2LLM est la déviance du modèle que l’on teste. Au contraire de la régression linéaire, ces R2 ne représentant pas la part expliquée de la variable dépendante mais seulement une mesure de l’utilité des variables explicatives. Le R2 ne s’utilise pas de la même manière que dans la régression linéaire. Ce sont toutes des estimations !

Qualité globale du modèle : AIC, BIC…[modifier | modifier le wikicode]

Les critères d’information d’Akaike et de Bayes permettent aussi de comparer au niveau global plusieurs modèles :

[[File:./media/image188.emf]]

où k est le nombre de coefficient estimés du modèle et n est le nombre d’observations. Pour la régression logistique, le FIT du modèle est égale à la déviance (-2 fois la log vraisemblance du modèle). Plus un coefficient est proche de zéro, meilleur il est.

Test individuel de chaque variable[modifier | modifier le wikicode]

La significativité des coefficients détermine si la variable correspondante est significative ou si elle peut au contraire être supprimée du modèle.

  • Variable quantitative : c’est l’effet de la variable elle-même car il n’y a qu’un seul coefficient.
  • Variable catégorielle : la significativité d’un coefficient indique uniquement l’effet significatif de la variable muette correspondante par rapport à la catégorie de référence.

Variables explicatives à plus de 2 modalités[modifier | modifier le wikicode]

Lorsqu’une variable explicative catégorielle comporte plus de 2 modalités, elle est remplacée dans le modèle par plusieurs variables muettes. Une p-valeur est fournie pour chacune de ces variables muettes. Toutes ces variables muettes correspondent à la même variable explicative. Il faut donc soit toutes les laisser dans le modèle soit toutes les supprimer. Il est possible de tester globalement l’effet de toutes les variables muettes correspondant à une même variable explicative en utilisant la statistique du chi-2 pour comparer le modèle avec et sans ces variables muettes.

Exemple : modèle avec une variable explicative catégorielles à 4 modalités (DOC_4c)

Modèle sans cette variable explicative catégorielle (DOC_4c)

Quel est le meilleur modèle ? On peut regarder la déviance résiduelle (3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2 est très petit. En regardant la valeur du BIC, le 2ème modèle serait meilleur. Par contre, par rapport au critère déviance résiduelle (distance entre le modèle et l’observation), là, ça semble un peu se contredire. En fait, ces deux modèles sont extrêmement proches l’un de l’autre. On peut ainsi dire que par parcimonie, on préférerait le modèle ayant le moins de variables. On prend les variables muettes du premier modèle et on les retire toutes ensembles. Si on regarde les p-valeur, il n’y a que pour une variable où ces significatives. Donc on les retire toutes.

Interprétation des coefficients[modifier | modifier le wikicode]

Un modèle de régression logistique peut s’interpréter soit en termes de valeur des coefficients de régression, soit en termes d’odds ratios (rapport de cotes). Les coefficients mesurent l’influence des variables explicatives sur le logit de la variable dépendante. Un coefficient >0 implique une augmentation du logit et un coefficient <0 implique une diminution du logit. Problème : le logit n’est qu’une construction mathématique qui n’est pas facile à interpréter. On sait seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et que plus le logit augmente, plus la probabilité augmente.

Exemple : modélisation du fait d’avoir un travail

Odds ratio[modifier | modifier le wikicode]

Soit la variable « avoir un travail ». Cette variable n’a que deux modalités : oui et non. Soit p la probabilité d’avoir actuellement un travail (oui) et 1-p la probabilité de ne pas en avoir (non). Pour un échantillon de taille n, la cote (odds) associée à cette variable est le rapport entre le nombre noui de personnes ayant un travail et le nombre nnon de personnes n’ayant pas de travail avec n = noui + nnon, ce qui revient à écrire :

L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de la variable expliquée est multipliée lorsque le facteur explicatif correspondant augmente d’une unité. C’est ce que l’on appelle un odds ratio. Les odds ratios s’interprètent de la manière suivante :

  • Variable quantitative : impact sur la cote de la variable expliquée d’une augmentation de 1 unité de la variable.
  • Variable catégorielle : impact sur la cote de la variable expliquée du fait d’appartenir à la catégorie indiquée par la variable muette par rapport au fait d’appartenir à la catégorie de référence.
  • Les odds ratios ne prennent que des valeurs positives. La valeur 1 sert de référence et indique l’absence de changement.

Exemple : modélisation du fait d’avoir un travail

[[File:./media/image193.emf]]Pour avoir les odds rations, on fait e à la puissance des chiffres de la première colonne. La cote de base de la variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 = 0.75. Cette valeur signifie que si on a comme caractéristique d’être une femme par rapport à un homme, on a 25% de chance en moins d’avoir un travail.

Probabilité d’une situation donnée[modifier | modifier le wikicode]

Etant donné que le modèle est estimé pour la quantité suivante :

La probabilité p se calcule alors comme :

Exemple :

La probabilité d’avoir un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant étudié durant 12 ans. Logit :

  • Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait un travail.

Modèles dérivés[modifier | modifier le wikicode]

Régression multinomiale[modifier | modifier le wikicode]

La régression multinomiale s’utilise lorsque la variable dépendante est une variable nominale à c>2 catégories. L’une des catégories joue alors le rôle de référence et l’on calcule en parallèle c-1 régressions « logistiques » pour chacune des autres catégories de la variable. Attention : c-1 régressions ne sont pas indépendantes les unes des autres et ce modèle n’est pas équivalent à calculer c-1 vraies régressions logistiques.

DOC_4c (référence =0)

On a pris 4 valeurs.

Doc_4C (référence = 0)

Régression ordinale[modifier | modifier le wikicode]

La régression ordinale s’utilise lorsque la variable dépendante est une variable ordinale à c>2 catégories. On calcule alors une régression comparant des modalités adjacentes ou des groupes de modalités cumulées. Contrairement à la régression multinomiale, un seul ensemble de coefficients est calculé, à l’exception des constantes. Pour utiliser ce modèle, il faut faire l’hypothèse de parallélisme des régressions, ce qui signifie que les coefficients des différentes régressions doivent être identiques, à l’exception des constantes. En pratique, cette hypothèse est difficile à vérifier et l’on préfère souvent en rester à une régression multinomiale.

Exercice en cours[modifier | modifier le wikicode]

Sur la base de données disponibles sur moodle (excel), on va s’entraîner à analyser des régressions linéaires :

  1. Résumer la variable douleur (qualitative) : variable qualitative dichotomique ayant 2 modalités. Pour la résumer, il faut calculer le nombre de fois qu’il y a 0 et le nombre de fois qu’il y a 1. 35 fois 0 et 25 fois 1. En pourcentage, 58% qui n’ont pas de reçu de douleur contre 41% qui ont eu de la douleur.
  2. Prenez un patient au hasard. A-t-il plus de chance d’avoir une réduction de la douleur ou de ne pas avoir de réduction de la douleur ? Effectivement, si on prend une personne au hasard, d’après les données on a 58.3% de chance que la personne n’ait pas ressenti de la douleur contre 41% de personne qui ont ressenti de la douleur. Notre meilleur pronostic si on prend une personne au hasard, elle n’a pas de réduction de douleur ressenti puisque le pourcentage est plus grand que pour celles qui ont ressenti de la douleur.
  • La seule chose qu’on peut dire c’est que par rapport à mes données, je regarde la majorité et je parie là-dessus. Si je fais un modèle basé uniquement sur la variable douleur qui est la variable dépendante. Ainsi, on estime un coefficient qui est le coefficient constant puisqu’on n’a aucune autre valeur.
    1. Quel est la cote de base de la variable dépendante ? On fait la formule de la cote : (noui/n) / (nnon/ n) : (25/60) / (35/60) = 0.714.
    2. Qu’est-ce ça signifie d’avoir une cote de 0.714 ? Le 1 est le seuil équivalent entre les 2 populations. Si on est en dessous, cela signifie que la partie qui nous intéresse est plus faible. Donc, les chances qu’un patient ait une réduction de douleur avec une cote inférieure à 1, ses chances diminuent. Donc cela signifie que le patient a environ 29% de chance en moins que le patient ait une réduction de douleur.
  • Ce qui est inférieur à 1, on a moins de chance d’obtenir l’évènement en question. Si on a plus que 1, on a plus de chance d’obtenir l’évènement en question.

Le modèle nul = un modèle dans lequel je ne mets aucune variable explicative. Je n’ai pas d’autres informations que le fait d’avoir un patient et la probabilité qu’il ait une réduction de la douleur. AIC = plus il est petit, mieux c’est (c’est un critère d’information).

  1. Quelle est l’équation de ce modèle nul ? Le pi est le logit. La différence par rapport à une régression linéaire, on y explique une variable égale à bêta 0 + bêta 1. Là, on n’explique pas directement la variable qui nous intéresse. On passe ici par un logit parce qu’on a une variable dichotomique, on a des soucis en utilisant une régression logistique. Ici, on évalue un modèle de régression pour le logit. Donc la réponse est que bêta 0 (pi) = -0.036.
  2. Quelle est la probabilité d’une réduction de douleur ? (régression logistique) p = 1/1 + e - (-0.336) = 0.417. C’est la probabilité d’avoir une réduction de douleur.
  • On a fait un modèle qui nous permet de prédire la variation de la variable.

En reprenant notre résumé de donné, on a 8 femmes qui ressentent une diminution de douleur et 22 qui n’en ressentent pas.

Modèle avec genre, odds ratio

Les rapports de cote chez la femme et chez l’homme sont

Femme Homme
Odds ratio

Nous connaissons donc les cotes avant et après 1 unité de changement dans la variable Genre (Genre = 0 pour la femme, Genre = 1 pour l’homme).

  1. Quelle est la variation proportionnelle des rapports de cotes ?

Différence entre les cotes = cote après 1 unité d’accroissement de Genre / cotes originales

Nous avons calculé une variation proportionnelle des rapports de cote : 3.596

Les coefficients et odds rations sont :

Coefficient OR
Intercept
Genre M

Le modèle final suivant est disponible

La variable traitement contenait 3 valeurs. Puisqu’on a 3 valeurs, on a besoins de 2 variables dichotomiques pour la représenter.

Quelle est l’équation du modèle final ?

Modèle final, équation

Que vaut le logit pour une femme de 60 ans, ayant reçu le traitement A, et dont la durée des douleurs précédentes est de 5 jours ?

P= 0.007

Quelle est la probabilité d’une réduction de douleur pour une femme de 60, ayant reçu le traitement B, et dont la durée des douleurs précédente est de 5 jours ?

P= 0.004.

Comparaison de populations[modifier | modifier le wikicode]

Problématique[modifier | modifier le wikicode]

Un problème classique en recherche consiste à déterminer si plusieurs populations sont significativement différentes les unes des autres. Ce problème a déjà été abordé précédemment dans ce cours pour le cas de deux populations (test de Student). Nous allons maintenant passer au cas général et aborder la notion d’analyse de variance ou ANOVA. L’objectif est de déterminer si l’appartenance à une population plutôt qu’une autre permet d’expliquer les valeurs d’une variable quantitative. Comme pour le test Student, le principe de base de l’ANOVA consiste à comparer la moyenne de la variable quantitative dans les différentes populations étudiées.

Logique de l’ANOVA[modifier | modifier le wikicode]

Le chercheur contrôle 1 ou plusieurs variables :

  • Appelées facteurs (parfois appelés traitements)
  • Chaque facteur contient deux modalités ou plus (i.e parfois appelés niveaux)

Le chercheur observe l’effet sur la variable dépendante :

  • Réponses observées pour chacune des modalités

Plan d’expérience :

  • But : maximiser la précision en minimisant le nombre d’observations
  • Considérer un ou plusieurs facteurs pendant la constitution du dessin expérimental
  • Equilibré si toutes les modalités avec la même taille d’échantillon

ANOVA à 1 facteur[modifier | modifier le wikicode]

Evaluer la différence parmi les moyennes de 3 ou plus populations (1 population par modalité du facteur)

Suppositions :

  1. Les populations sont normalement distribuées
  2. Les populations ont des variances égales
  3. Les échantillons sont indépendants, tirés aléatoirement
  4. La variable expliquée est quantitative

Hypothèses : ANOVA à 1 facteur[modifier | modifier le wikicode]

H0 : ()1 = ()2 = ()3 = …= ()C

  • Il y a c populations
  • Toutes les moyennes des c populations ont égales
  • i.e. pas d’effet de facteur (traitement)

H1 : pas toutes les moyennes sont identiques

  • Au moins 1 moyenne est différente
  • i.e il existe un effet de facteur (traitement)
  • Il faut donc c échantillons correspondants aux c populations.

Si rejet de l’hypothèse nulle

  • Quelles populations ont des moyennes différentes ?
  • On ne sait pas !

Il faut donc effectuer d’autres tests pour le savoir : tests Post Hoc qui viennent après. Il existe au moins une population qui diffère des autres. On va aller plus loin en voyant quelle population est distincte des autres.

Exemple : clubs de golf

[[File:./media/image214.emf]]Question : est-ce que les moyennes sont égales entre les 3 clubs ? On a des moyennes par club et la moyenne globale.

1 : La variable quantitative qu’on aimerait expliquer ? Ici, ce sera la distance.

2 : On a une variable dite facteur : le club de golf. Il comporte 3 modalités donc j’ai besoin de 3 échantillons pour dire des choses.

Si je veux savoir si les moyennes sont significativement différentes les unes des autres ou au moins une, je procède par confirmer que les moyennes sont différentes en fonction du club utilisé. On va aller vers des notions proches de la variance.

ANOVA à 1 facteur (simple)[modifier | modifier le wikicode]

Décomposition de la variation[modifier | modifier le wikicode]

La variabilité totale est décomposée en deux parties :

Somme des carrés totale[modifier | modifier le wikicode]

Somme des carrés résiduelle[modifier | modifier le wikicode]

Somme des carrés expliquées[modifier | modifier le wikicode]

Test[modifier | modifier le wikicode]

Pour arriver à une bonne discrimination entre les populations, les deux conditions suivantes doivent être remplies :

  1. La variance doit être grande entre les moyennes de populations :
  2. La variance doit être petite au sein de chaque population :
  • En considérant le rapport de ces deux quantités, on peut tenir compte simultanément des deux conditions.

Soit les carrés moyens :

La statistique de test s’écrit alors :

  • L’hypothèse nulle est rejetée lorsque F est grand. On a suffisamment d’évidences pour penser que les moyennes sont distinctes. Si on rejette l’hypothèse nulle, il y a au moins une valeur qui est différente des autres.

Table ANOVA[modifier | modifier le wikicode]

Les résultats d’une ANOVA sont généralement présentés sous une forme standardisée appelée table ANOVA :

Hypothèses sous-jacentes à l’ANOVA[modifier | modifier le wikicode]

  1. Les populations sont normalement distribuées. La normalité peut être testée par exemple à l’aide du test :
    1. Test de Kolmogorov-Smirnov
    2. Test de Shapiro-Wilk
  2. Les populations ont des variances égales. L’égalité des variances peut être testés, par exemple à l’aide :
    1. Test de Levene
    2. Test de Hartley
  3. Les échantillons sont indépendants, tirés aléatoirement. Il est préférable mai pas obligatoire que l’échantillon issu de chaque population soit de même taille.
  4. La variable expliquée est quantitative.

Gold : homoscédasticité (variance homogène)

Test sur l’égalité des variances

Les variables semblent être homogènes.

Golf : normalité

Les données ne semblent pas provenir de distributions normales, pour chacune des 3 populations.

Golf : ANOVA

Tests post hoc[modifier | modifier le wikicode]

Lorsque l’hypothèse nulle de l’ANOVA est rejetée, nous savons qu’au moins deux moyennes sont significativement différentes l’une de l’autre mais l’analyse ne nous dit pas desquelles il s’agit. Il est donc nécessaire d’effectuer des comparaisons supplémentaires entre les populations. Pour comparer globalement 2 à 2 toutes les populations sans que le risque de se tromper sur l’une des comparaisons ne soit trop grand, des procédures particulières, les tests post hoc, existent. Ces procédures répartissent le risque d’erreur total () entre les différentes comparaisons à effectuer.

Test de Tukey[modifier | modifier le wikicode]

Le test de Tukey s’emploie lorsque nous voulons comparer 2 à 2 toutes les populations. Pour c populations, il faut donc effectuer :

Golf : Tukey

On conclut entre le club 2, le club 1 et club 3, les moyennes ne sont pas égales !

Test de Dunnett[modifier | modifier le wikicode]

Le test de Dunnett s’emploie lorsque l’une des populations sert de témoin ou de contrôle et que nous voulons comparer toutes les autres populations contre celle-ci. Pour c populations, il faut donc effectuer c-1 tests de la forme :

Développements[modifier | modifier le wikicode]

Populations définis selon plusieurs critères[modifier | modifier le wikicode]

Exemple : Donnée GSOEP

Des populations peuvent être définies sur la base de plusieurs facteurs. L’ANOVA permet alors de tester simultanément l’apport de chacun de ces facteurs, ainsi que leur éventuelle interaction. Dans ce cas, la table ANOVA regroupe plusieurs tests. Lorsqu’un facteur est significatif et qu’il comporte plus de deux modalités, il est toujours possible de faire ensuite des tests post hoc.

Santé et service civil

On peut voir que l’hypothèse nulle est rejetée pour le genre, aussi pour le service civil. La dernière ligne, elle signifie qu’entre les différents facteurs, il peut y avoir des influences croisées appelées des interactions où les facteurs interagissent entre eux. On en tient compte lorsqu’on crée le modèle. Si on combine les deux facteurs, est-ce qu’il y a une influence ou pas ? Ici elle n’existe pas. La p-valeur est supérieure à 0.05 et donc, on ne rejette pas l’hypothèse nulle. Ainsi, cette p-valeur ne nous permet de rejeter l’hypothèse nulle et genre et service civil ensemble n’ont pas d’influence ensemble sur l’égalité des moyennes.

On voit qu’il n’y a pas d’influence dans ce graphique. Il y a du parallélisme entre les deux droites.

Lorsqu’on a 3 facteurs, cela commence à devenir complexe parce qu’on a le genre, le handicap et le col blanc. On voit l’interaction des facteurs entre eux. Au fur et à mesure qu’on rajoute des facteurs, cela devient compliqué à gérer. On évite d’avoir trop de facteurs en même sauf que le principe reste le même puisqu’on regarde la p-valeur ; les moyennes sont-elles distinctes ou pas ?

Analyse de données appariées[modifier | modifier le wikicode]

Lorsque les mêmes sujets sont observés à plusieurs reprises au fil du temps (données appariées), l’intérêt est de savoir si une évolution est présente entre les différents moments d’observation. Une telle analyse est dite facteur répété. Si les sujets n’ont été observés qu’à deux reprises, une version du test du Student peut être utilisé. Sinon, il s’agit d’une ANOVA.

Evolution de DOC.3M entre 1984, 1988 et 1991

On fait la même chose qu’avant, on regarde la différence dans la moyenne en prenant la p-valeur. Sauf qu’ici, on regarde aussi la comparaison dans le temps.

Analyse de covariance (ANCOVA)[modifier | modifier le wikicode]

En plus de dépendre de facteurs catégoriels, la variable numérique étudiée peut aussi être influencée par une ou plusieurs variables numériques (souvent appelées covariables). Le principe consiste alors à supprimer l’influence de ces covariables avant d’étudier l’influence des facteurs. En pratique, on suppose qu’il existe un lien linéaire entre les covariables et la variable dépendante et les covariables apparaissent comme des variables explicatives dans le modèle. Ce modèle est une analyse de covariance (ANCOVA).

Covariable AGE par rapport à la SANTE

Analyse de variance multiple (MANOVA)[modifier | modifier le wikicode]

Certains phénomènes difficiles à définir sont souvent représentés par la combinaison de plusieurs variables (notion de bien-être, citoyenneté…). L’analyse de la variance multiple (MANOVA) permet d’analyser la répartition de sujets des groupes par rapport à plusieurs variables numériques simultanément.