« Introduction aux méthodes quantitatives » : différence entre les versions

De Baripedia
(first push full course)
 
 
(60 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
<nowiki>#</nowiki> Cours introductif
{{Infobox Cours
|image=
|image_caption=
|cours=[[Introduction aux méthodes quantitatives]]
|faculté=
|département=
|professeurs=
|enregistrement=
|lectures=


<nowiki>##</nowiki> Objectifs du cours
*[[Méthodes quantitatives : éléments généraux]]
*[[Les éceuils à éviter en méthodes quantitatives]]
*[[Histoire et développements des méthodes quantitatives en sciences sociales]]
*[[Méthodes quantitatives et qualitatives : des épistémologies distinctes ?]]
*[[Pratiques de la recherche et causalité : théorie et empirie sous tension]]
*[[Les Dessins de recherche ou comment maîtriser la causalité ?]]
*[[Des concepts aux mesures, un travail d’opérationnalisation]]
*[[Introduction Enjeux de la collecte et types de données]]
*[[Elaboration d’un questionnaire standardisé : Principes généraux]]
*[[Analyses uni-,bi- et tri-variées, Quelles utilités pour la recherche ?]]
*[[Analyses multivariées : leur utilité pour la recherche]]
*[[Comment analyser / évaluer des études de manière critique ?]]
*[[Méthodes statistique : introduction]]
*[[Graphiques]]
*[[Analyse univariée]]
*[[Echantillonage]]
*[[Inférence statistique]]
*[[Tests d’hypothèses]]
*[[Analyse bivariée]]
*[[Le cas des comparaison de populations]]
*[[Les analyse multivariée]]
*[[Les régression logistiques]]
*[[Comparaison de populations]]
*[[Backup version complète]]


}}


1.  Savoir interpréter les analyses quantitatives et statistiques
<br />


   
=Eléments généraux à propos de ce cours=


   1.  Les comprendre et les interpréter correctement


   
Ce cours est écrit pour les étudiants souhaitant s'initier aux méthodes quantititaves. Ce cours essaie de permettre de comprendre les concepts généraux relatifs à ces méthodes, pour des personnes n'ayant pas nécéssairement un bagage technique ou mathématique. Les formules seront explicitées ainsi que appliquées avec des exemples concrets. Ce cours n'est pas une introduction à la statistique, mais souhaite pouvoir présenter les concepts et leur applications en vue de permettre par la suite à quelqu'un de pouvoir appliquer ces méthodes pour une recherche ou un projet personnel. Les calculs complexes ne seront pas toujours explicités en vue de pouvoir les reproduire à la main, mais plutôt d'offrir les outils pour des applications concrètes, le développement d'un esprit critique et la compréhension de ce qu'il se passe lors d'utilisation de comandes dans un logiciel de programmation statistique comme R, SPSS, Python etc...


   2.  Déjouer leurs pièges et évaluer leurs apports
==Objectifs du cours==
<br />


2.  Comprendre la production de ces analyses
#Savoir interpréter les analyses quantitatives et statistiques
##Les comprendre et les interpréter correctement
##Déjouer leurs pièges et évaluer leurs apports
#Comprendre la production de ces analyses
##Elaboration et collecte de données
##Elaboration des analyses statistiques
#Connaître les outils statistiques
##Présupposée, leur application possible et nos usages
##Réflexivité et vigilance épistémologique
##Développer un esprit critique et autonomie (≠aveuglement vs relativisme)


   
==Utilité d’une telle formation==
<br />


   1.  Elaboration et collecte de données
#Former des citoyens citoyen.nes éclairées
##Consommateur de médias
##Citoyen.nes acteurs
#Futur professionnel
##Rapports mobilisant ce type d’analyse
##Formation en science sociales
#Comprendre la production intellectuelle en science sociale : comprendre diverses statistiques (but, points forts et faibles)
##Comprendre les études et la production du savoir
##Autonomie intellectuelle


   


   2.  Elaboration des analyses statistiques


3.  Connaître les outils statistiques
<br />


   
=Exercices=


   1.  Présupposée, leur application possible et nos usages


4.  Réflexivité et vigilance épistémologique
[[Questions de compréhension]]


   
[[Exercices numériques]]


   1.  Esprit critique et autonomie (≠aveuglement vs relativisme)
.[[Apprendre avec R]]


<nowiki>##</nowiki> Utilité d’une telle formation
=Contenus complémentaire=
<br />[[Videos]]


[[Livres]]


1.  Citoyen.nes éclairées
<br />
 
=Références=
   
 
   1.  Consommateur de médias
 
   
 
   2.  Citoyen.nes acteurs
 
2.  Futur professionnel
 
   
 
   1.  Rapports mobilisant ce type d’analyse
 
   
 
   2.  Formation en science sociales
 
3.  Comprendre la production intellectuelle en science sociale :
 
   comprendre diverses statistiques (but, points forts et faibles)
 
   
 
   1.  Comprendre les études et la production du savoir
 
   
 
   2.  Autonomie intellectuelle
 
<nowiki>##</nowiki> Importance des méthodes
 
Exemple avec P. Bourdieu : les sciences sociales ne peuvent exister sans
 
empirie. Une analyse empirique scrupuleuse du monde social qui permet de
 
mettre en exergue des dimensions essentielles de la réalité sociale.
 
L’analyse empirique du monde social est la clé de l’élaboration
 
théorique.
 
Exemple avec R. Merton : il souligne également l’importance des méthodes
 
quantitatives mais dans une vision opposée à celle de Bourdieu par
 
rapport à l’empirie et à la théorie. Pour lui, la théorie sert de
 
fondement logique et c’est à partir d’elle qu’on peut formuler des
 
hypothèses. Néanmoins, il en oublie pas moins l’empirie et il attribue
 
un rôle essentiel à la *serendipity*. C’est la découverte par chance ou
 
sagacité de résultats que l’on ne cherchait pas. Il y a donc un
 
va-et-vient entre la théorie et l’empirie.
 
  - Tous deux estiment l’importance de l’empirie pour le développement
 
   de travaux sociaux, et cela passe par les méthodes de recherche.
 
En science sociale, l’empirie est essentielle pour l’élaboration
 
théorique (Bourdieu), pour la créativité théorique (Merton) et pour la
 
théorie considérée comme le premier pilier de la production du savoir.
 
Les méthodes ont aussi accès au terrain et elles sont le second pilier
 
de la production du savoir. Ces méthodes rendent ainsi possibles l’accès
 
au terrain.
 
<nowiki>##</nowiki> A éviter
 
<nowiki>###</nowiki> Méthodes VS techniques : conception technicienne
 
Le terme de méthode vient du latin et signifie une direction qui mène au
 
but ou un chemin à suivre. Cette notion n’est pas forcément claire.
 
C’est au XIXème qu’il va obtenir une définition plus claire, à savoir
 
un procédé ou une technique que l’on met en œuvre. Cela illustre la
 
première tension qui se retrouve dans le métier du chercheur qui est
 
souvent de substituer la compréhension. Cette compréhension des méthodes
 
sous l’angles des méthodes est dangereux. Une compréhension technicienne
 
ne rend pas compte du travail de construction et d’élaboration qui sont
 
derrière tout travail de recherche. On a besoin de ce travail de
 
construction et d’élaboration pour construire un objet de recherche.
 
Cela va aussi influencer la manière dont on va regarder le monde social.
 
Néanmoins, c’est souvent restreint en raison d’un faible budget.
 
Derrière le choix d’une recherche, il y a un nombre élevé de
 
contraintes. Si on prend les méthodes comme techniques, on ne se rend
 
pas compte que les résultats découlent des choix du chercheur et donc,
 
ce sont des constructions et non pas des statistiques « naturelles ». De
 
plus, les méthodes nous écartent du chemin d’une vigilance critique à
 
laquelle doit se soumettre tout chercheur. D’ailleurs, des innovations
 
théoriques reposent sur des innovations méthodologiques.
 
  - Grâce aux méthodes quantitatives, on répond à un certain type de
 
   questions.
 
<nowiki>###</nowiki> Données chiffrées VS constructions
 
Il n’y a pas de donnée qui se donnent à voir naturellement mais c’est
 
toujours une construction du chercheur. Derrière les chiffres, c’est la
 
même chose. Le terme de « donnée » veut étymologiquement dire « faire
 
don », ce qui induit l’idée de données de recherche offerte aux
 
chercheurs sur un plateau d’argent. A partir du 18ème siècle, les
 
intellectuels rompent avec cette vision idéale pour conclure que ***les
 
données correspondent avant tout à une construction du chercheur,
 
construction sociale puisqu’elle est située dans le temps et dans
 
l’espace***. En effet, les débats sociaux, politiques, idéologiques...
 
sont influents si bien que les données sont tout sauf données mais bien
 
construites et mise en scène par le chercheur en fonction de l’époque et
 
du lieu où il se trouve.
 
  - C’est pourquoi on parle de processus, la construction de donnée
 
   n’étant jamais définitivement terminée.
 
<nowiki>###</nowiki> Statistiques et sciences sociales
 
Enfin, ***le passé commun des statistiques et des sciences sociales***
 
est à prendre en compte, bien qu’elles se soient progressivement
 
différenciées puis institutionnalisées séparément. C’est pourquoi les
 
statistiques ont dû ***importer des savoirs qu’il a fallu adapter*** au
 
mieux pour l’usage nouveau qu’il en était lors fait. Par exemple, les
 
chercheurs travaillent encore aujourd’hui sur le concept de base de
 
l’échantillonnage, bien qu’il ait été complexifié depuis. Les
 
statistiques se sont beaucoup développées si bien que maintenant, nous
 
sommes dans un travail d’importation de connaissances depuis une autre
 
discipline.
 
C’est pourquoi il est important de travailler sur les connaissances et
 
leur histoire afin de mieux comprendre l’appropriation qu’il en a été
 
fait. L’étude des méthodes est d’ailleurs possible uniquement sur la
 
base de recherches spécifiques, comme l’explique Auguste Comte :
 
« La méthode n’est pas susceptible d’être étudiée séparément des
 
recherches où elle est employée ; ou, du moins ce n’est là qu’une
 
<nowiki>**</nowiki>étude morte**, incapable de féconder l’esprit qui s’y livre ».
 
En effet, il postule que les méthodes doivent être réfléchies en
 
fonction du terrain d’enquête et que par conséquent, des méthodes
 
abstraites, dénuées de tout fondements empiriques sont inutiles. C’est
 
pourquoi ***les méthodes ne peuvent être développées que par le biais de
 
recherches spécifiques***. C’est également ce que plaide Pierre
 
Bourdieu :
 
« Ceux qui portent un souci méthodologique jusqu’à l’obsession font en
 
effet songer à ce malade dont parle Freud, et qui passait tout son temps
 
à essuyer ses lunettes sans jamais les chausser ».
 
<nowiki>###</nowiki> Unicité VS pluralité des chemins
 
Enfin, ***il ne faut pas penser que les méthodes qualitatives et les
 
méthodes quantitatives sont opposées***. Il existe une pluralité de
 
méthodes, les méthodes quantitatives et qualitatives comme approches
 
dominantes, mais également d’autres méthodes comme les méthodes
 
exploratoires ou confirmatoires. Toutefois, chacune se différencie des
 
autres au travers d’un aspect spécifique, comme les méthodes
 
quantitatives reposant sur la statistique de base.
 
<nowiki>#</nowiki> Histoire et développements des méthodes quantitatives en sciences sociales
 
On ne veut pas se laisser uniquement guider par les méthodes et les
 
données. On n’a pas l’idée que les chiffres parlent d’eux-mêmes et
 
qu’ils détiennent la vérité. D’autant plus, les observations ne sont
 
pas suffisantes pour comprendre la réalité sociologique. Par exemple,
 
les enfants de famille monoparentale aux USA réussissent moins bien leur
 
parcours scolaire. Cela s’explique par différentes interprétations. Si
 
on vise à trouver une hypothèse, il serait nécessaire de faire une
 
comparaison avec l’Europe pour tenter d’en savoir plus.
 
  - Les chiffres ne parlent pas d’eux-mêmes et il est difficile de ne
 
   pas tomber dans ce piège surtout lors de grandes enquêtes.
 
Un grand nombre d’outils sont élaborés à l’extérieur des sciences
 
sociales et cela pose problème. L’effet de cette externalisation est que
 
les outils ne sont pas toujours adaptés aux problèmes.
 
  - Mise en perspective est nécessaire quant aux méthodes puisqu’elles
 
   construisent la réalité.
 
<nowiki>##</nowiki> La relation entre les sciences sociales et les statistiques
 
On est face à un phénomène social complexe. La statistique donne des
 
formules et des chiffres pour pouvoir interpréter la réalité. Sauf que
 
les deux domaines sont intimement liés. Les sciences sociales et
 
statistiques sont nées des préoccupations communes. Les statistiques,
 
l’arithmétique politique et les mathématiques se sont développés puis,
 
on voit émerger leur institutionnalisation sauf qu’au lieu de devenir
 
une discipline spécifique des sciences sociales, elles se rapprochent
 
des sciences mathématiques. Cela a des implications, à savoir que
 
l’origine des statistiques ne peut être fixé à une date précise. Les
 
données chiffrées proviennent de la Chine, d’Egypte et des Incas. En
 
Europe, ces données deviennent centrales au XVI<nowiki><sup>ème</sup></nowiki> et c’est à
 
cette époque que les mathématiques commencent à dominer le monde. On
 
commence à systématiser le phénomène de la nature et on souhaite la
 
mesurer comme en astronomie. Quant aux statistiques, elles sont nées
 
dans le contexte du XVII<nowiki><sup>ème</sup></nowiki>. A l’origine du mot, il y a le
 
<nowiki>*</nowiki>Staat* et cela montre le lien entre la construction des Etats nations
 
et le développement des statistiques. Du coup, compter les hommes et les
 
ressources industrielles est central dans le processus de construction
 
et de consolidation de l’Etat. La statistique descriptive était
 
responsable de récolter des données économiques et démographiques de
 
manière systématique.
 
Le contexte politique n’est pas le seul qui contribue au développement
 
de la statistique. Le contexte scientifique est en explosion avec les
 
mathématiques qui deviennent une discipline majeure des sciences. De
 
plus, on est dans un contexte philosophique avec les Lumières qui
 
apportent l’idée du progrès avec les sciences. Le contexte social et
 
économique ; on est au début de l’industrialisation qui va apporter des
 
changements profonds de la société. En même temps, l’industrialisation
 
apporte des outils qui vont booster les statistiques comme l’imprimerie
 
qui va permettre de diffuser l’information.
 
<nowiki>###</nowiki> Empires, Etats et statistique
 
De plus, ces savoirs statistiques précoces sont différents de leurs
 
préoccupations et de leurs domaines en fonction des différents
 
Etats-nations où ils émergent. Ces savoirs sont d’origine et de formes
 
différents selon les États et la manière dont ceux-ci sont construits et
 
articulés dans la société. En Allemagne, la tâche principale est de
 
connaître ces Etats, ces ressources et ses difficultés. On assiste à une
 
tradition de description globale des Etats. En France, on souhaitait une
 
administration forte et un pouvoir royal fort. Dans ce contexte, on
 
souhaite avoir des statistiques descriptifs de l’Etat ; au service du
 
pouvoir royal. En GB, on a un autre fonctionnement, à savoir qu’il y a
 
une bourgeoise émergente qui est relativement autonome et du coup, la
 
statistique vise à mesurer la population et le bien-être de la
 
population (alcoolémie). Cela devient une statistique plus analytique
 
qui essaie de comprendre ce phénomène et c’est focalisé sur des groupes
 
spécifiques.
 
On est face à deux types de statistiques qui se développe :
 
  - Au service de *l’Etat *: aide à la décision politique avec une
 
   « comptabilité nationale » (ALL et FRA)
 
  - Au service de la *société *: montrer les inégalités et les
 
   difficultés sociales, exercer des pressions politiques (GB)
 
Dans les 2 cas, la statistique devient un instrument puissant qui sert
 
comme en ALL et en FRA en tant qu’outil de rationnaliser la décision
 
politique. Des décisions prouvées par les faits comme on pensait à
 
l’époque et on développe <nowiki><span class="underline">la théorie des</nowiki>
 
erreurs<nowiki></span></nowiki> pour juger le degré de certitude d’un résultat trouvé. En
 
GB, grâce à la statistique qui est au service de la société,
 
l’arithmétique politique émerge. Elle est l’ancêtre des méthodes
 
quantitatives puisqu’on commence à mesurer des phénomènes sociaux. C’est
 
une constellation historique particulière qui favorise ce développement,
 
marqué par des changements politiques et sociaux majeurs. Ces derniers
 
sont combinés entre une bourgeoisie intellectuelle et plus autonome par
 
rapport à l’Etat. Ce contexte provoque une curiosité intellectuelle pour
 
comprendre la situation anglaise. Dans ce contexte, F. Bacon portait une
 
vision humaniste et souhaitait améliorer la vision sociale de la
 
société. Il avait une influence sur l’arithmétique politique car il
 
prenait une observation rigoureuse dans toutes les disciplines,
 
organisation systématique de recherche et une démarche inductive
 
(qualitative) et il pensait toujours dans l’idée d’observation qui
 
permettait selon lui de trouver la vérité. Encore, W. Petty est perçu
 
comme le fondateur de l’arithmétique politique. Le principe de base de
 
Petty était le suivant :
 
« La méthode que j’emploie n’est pas encore très commune car, au lieu de
 
me servir seulement des termes, comparatifs et superlatifs, et
 
d’arguments purement intellectuels, j’ai adopté la méthode qui
 
consiste à s’exprimer en termes de nombres, poids et mesures ; et
 
d’utiliser uniquement des arguments observables, et de considérer
 
uniquement de telles causes comme ayant un fondement visible dans la
 
nature ; laissant ceux qui dépendent d’idées variables, opinions,
 
appétits intellectuels, et passions à la considérations des autres ».
 
<nowiki>##</nowiki> Etude de la société et statistique
 
<nowiki>###</nowiki> Arithmétique politique : logique de la démarche
 
Idée de base est passer par des observations quantifiées, rigoureuses et
 
objectives. Donc on veut objectiver la réalité à partir de l’observation
 
pour entrer dans le monde de la science. Avec cette démarche, l’anatomie
 
sociale est utile pour cerner l’état de la population, la santé
 
publique, alcoolémie et la criminalité au moyen d’enquêtes sociales. Le
 
but de la recherche étant de découvrir des lois sociales par des
 
observations neutres et des enquêtes. Donc on veut se rapprocher des
 
sciences naturelles. On souhaite comptabiliser des phénomènes sociaux en
 
découvrant des régularités et ce, en procédant par une démarche
 
inductive dans une visée explicative.
 
Süssmilch était un pionner de la diffusion de l’arithmétique politique
 
sur le continent : « observation des grandes masses est la voie de la
 
connaissance des régularités de phénomènes paraissant aléatoires ».
 
<nowiki>###</nowiki> Arithmétique politique se développe
 
<nowiki>**</nowiki>Arithmétique **: comptabiliser les phénomènes sociaux mais aussi
 
tenter de les expliquer par l’inductif pour découvrir des régularités
 
sociales, c’est-à-dire des lois sociales.
 
Puis, ces idées deviennent encore plus centrales et se développent. On
 
assiste à une multiplication des descriptions sur toujours plus de
 
groupes et de problèmes sociaux différents. Volonté d’entrer dans le
 
domaine de la science par la production de vérité et d’information
 
objective. Au sein de l’Etat, on se rend compte de la nécessité des
 
statistiques dans tous domaines de l’activité des Etats : création
 
d’offices statistiques et formation statistique des fonctionnaires
 
pour répondre aux besoins de l’administration. Instauration de
 
recensements réguliers et réflexion plus poussé sur la méthodologie,
 
c’est-à-dire analyses et méthodes, innovations techniques pour
 
collecter et présenter des données. On développe des questionnaires et
 
des sondages ; la première utilisation du questionnaire date de la fin
 
du XVIII<nowiki><sup>ème</sup></nowiki> quand Davis a mené une enquête sur le budget des
 
travailleurs agricoles.
 
Sauf qu’il faut attendre encore 40 ans pour remarquer un début de
 
volonté d’institutionnalisation des sciences sociales et de la
 
statistique. Dans ce contexte se glisse l’idée de l’*homme moyen*
 
développé par Quételet. On souhaite désormais étendre l‘usage des
 
mathématiques à toute dimension de la société. Il note que pour
 
beaucoup de phénomènes sociaux, les proportions restent stables dans le
 
temps (suicide, alcool). Donc les phénomènes sociaux sont régis par des
 
lois analogues à la physique et les méthodes statistiques permettraient
 
de les découvrir en restant toujours dans une logique déterministe.
 
  - Idée centrale, c’est que l’homme moyen permet de caractériser et
 
   comprendre les lois régissant le système social. Donc les moyens
 
   deviennent des causes constantes tandis que les lois et les
 
   variations, des causes accidentelles. Quételet introduit les
 
   probabilités et les chances en sciences sociales.
 
  - Les sciences sociales et statistiques ont un destin commun, trouvé
 
   avec développement de l’arithmétique politique, se poursuit avec
 
   l’entrée toujours plus poussée de l’entrée des mathématiques.
 
<nowiki>##</nowiki> Sciences sociales et statistique
 
<nowiki>###</nowiki> Différenciation et institutionnalisation (fin 19<nowiki><sup>ème</sup></nowiki>)
 
Au terme de ce long processus, les statistiques s’institutionnalisent à
 
la fin 19<nowiki><sup>ème</sup></nowiki> siècle, passant aussi par une complexification
 
de l’outil, notamment les probabilités. C’est le début de ***la
 
statistique moderne***. C’est à ce moment-là que la *statistique
 
inférentielle*, la régression, l’échantillonnage et les méthodes
 
représentatives émergent, techniques toujours utilisées aujourd’hui. De
 
plus, les biais cherchent à être compris et pris en compte pour qu’ils
 
affectent au minimum les résultats obtenus. ***On assiste à la
 
progressive séparation des diverses branches des sciences sociales,
 
notamment avec Auguste de Comte, portant le projet de constituer la
 
sociologie comme discipline à part*** et ce, en se basant sur la
 
philosophie positiviste de Saint-Simon. 

 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> Divorce consommé
 
On assiste alors au rejet de la mathématique sociale du passé afin
 
d’adapter les mathématiques à la compréhension du social. En effet, la
 
loi sociale, soutenue par certains chercheurs, fut vivement combattue
 
par la majorité (Mill, Comte, Durkheim...). L’idée émerge alors que ce
 
n’est pas les mathématiques qui pourront transformer la science du
 
social en science dure. ***Pour Mill comme pour Comte, la sociologie est
 
une science déductive et non inductive comme l’induisait la méthode
 
chiffrée***. Il s’agit dès lors de développer des théories au travers
 
desquelles il est possible d’aller étudier le monde social. Max Weber,
 
grand sociologue, explique que la sociologie se doit aussi d’être
 
compréhensive, c’est à dire qu’elle est la science qui comprend par
 
interprétation le monde social. Ainsi, ***la sociologie et la
 
statistique se séparent. Malgré tout, les nombres restent utilisés dans
 
les recherches sociologiques pour démontrer les faits avérés. C’est
 
pourquoi on ne peut considérer ce divorce comme absolu***. Toutefois,
 
pendant des années, une véritable guerre a eu lieu entre les tenants des
 
approches quantitatives et ceux des approches qualitatives. Aujourd’hui,
 
cette opposition est révolue et les recherches sociologiques combinent
 
alternativement les deux méthodes, chacune permettant de saisir et de
 
comprendre des aspects différents de la réalité sociale.
 
<nowiki>***</nowiki>Les chiffres ont ancré les sciences sociales dans les sciences***. En
 
effet, les chiffres ont permis aux sciences sociales d’acquérir un degré
 
de scientificité, de positivisme leur permettant de prétendre à
 
l’appellation de « sciences ». C’est aussi le chiffre qui a permis
 
l’institutionnalisation de ces disciplines au sein des universités.
 
<nowiki>###</nowiki> Un passé commun aux conséquences importantes
 
<nowiki>**</nowiki>« Ancrage des sciences sociales dans les sciences »**
 
  - Sciences sociales à l’image des sciences physiques
 
  - Arithmétique/Mathématique sociale : « Physique du social »
 
  - Philosophie positiviste (A. Comte) : Connaissance de phénomènes et
 
   de faits (≠science morale)
 
  - Moyenne, régularités, lois, probabilités
 
<nowiki>**</nowiki>Logique de la démarche**
 
  - Observation systématique
 
  - Objectiver des faits et phénomènes sociaux
 
  - Observation sur le grand nombre
 
  - Méthodes quantitatives : rôle particulier pour ancrer les sciences
 
   sociales dans le bastion des sciences
 
<nowiki>##</nowiki> Développement des recherches empiriques
 
<nowiki>###</nowiki> Développement sur sol étasunien et Ecole de Chicago (1920-1940)
 
Ce qu’il considère comme « données » sont les données chiffrées que l’on
 
nomme « hard date » en opposition aux données issues des méthodes
 
qualitatives, nommées « soft data ». ***Alors que les premiers débats
 
sur les statistiques et ses premières avancées méthodologiques se
 
développent en Europe, la guerre, entrainant la migration de nombreux
 
penseurs, fera que la suite du développement des méthodes quantitatives
 
se déroulera sur le sol étasunien***. C’est le cas de Lazarsfeld, qui
 
sera le détenteur de la première chair universitaire en méthodes
 
quantitatives à l’université de Columbia. Premièrement, c’est l’Ecole de
 
Chicago qui développe de grandes enquêtes sociales basées sur l’usage
 
des méthodes qualitatives. Puis de nombreux chercheurs combinent les
 
méthodes qualitatives et quantitatives pour mieux appréhender les
 
phénomènes sociaux avant qu’une séparation nette n’intervienne. ***Paul
 
Lazarsfled*** importera les statistiques dans les sciences sociales. En
 
publiant son ouvrage majeur, « The people Choice », il illustrera
 
l’importance de l’usage de ces méthodes en sociologie. C’est aussi à
 
ce moment-là où le béhaviorisme se développe aux USA, théorie postulant
 
que seuls les faits observables peuvent expliquer le monde sensible.
 
<nowiki>###</nowiki> Demande forte de recherche en sciences sociales
 
Cet essor des méthodes quantitatives est dû à l’histoire. ***Après la
 
seconde guerre mondiale, la demande pour comprendre ce qui s’est passé
 
est énorme***. Comment expliquer que l’Allemagne, pays de la culture, de
 
la musique... est pu basculer dans cette horreur ? C’est également après
 
la guerre que la ***psychologie expérimentée*** émerge, avec notamment
 
Milgram et son expérience sur la soumission à l’autorité. En effet, les
 
méthodes en sciences sociales doivent beaucoup à la psychologie. C’est
 
aussi le moment où nait le sondage aux Etats-Unis, développant une
 
méthodologie de constitution d’échantillonnage très fine avec pour but
 
premier de prédire les résultats électoraux.
 
Enfin, ***le développement de l’informatique a joué un rôle
 
important***. Ce nouvel outil a fortement facilité le travail de
 
dépouillement des sondages, en travaillant notamment sur de grandes
 
bases de données. La démocratisation de l’informatique dans les années
 
1965, notamment avec des logiciels comme SPSS, a beaucoup aidé les
 
méthodes quantitatives à se développer. On trouve alors ***les premiers
 
ouvrages méthodologiques***, notamment celui de Lazarslfed ou encore de
 
Blacklock. Mais ***ce qui a le plus fait évoluer à la fois les méthodes
 
qualitatives que les méthodes quantitatives, c’est la séparation nette
 
qui avait été faites entre elles, devant perpétuellement surpasser sa
 
rivale pour gagner en légitimité***.
 
  - Toutefois, la colère gronde chez les sociologues pour qui l’usage
 
   exclusif des méthodes quantitatives dans les recherches était
 
   réducteur, voire catastrophique. Aujourd’hui, les méthodes
 
   quantitatives sont toujours prédominantes, surtout en politique et
 
   psychologie, bien que ***depuis les années 2000, la tendance est à
 
   une combinaison toujours plus équitable des deux approches***.
 
<nowiki>##</nowiki> Résumé
 
  - Les méthodes quantitatives ont été utilisées en sociologie dans le
 
   but d’en faire une science à l’image des sciences naturelles d’où
 
   les termes parfois utilisés (corps social). 

 
  - Pour se faire, les chercheurs ont tenté de dégager des lois sociales
 
   absolues, comme la loi de la gravité de Newton. 

 
  - Cette crédulité totale sur le chiffre est toujours présente bien
 
   qu’il faille s’en méfier. 

 
  - Alors que de nombreux chercheurs des années 1950 étaient formés à la
 
   fois en statistiques et en sciences sociales, cette double formation
 
   est aujourd’hui très rare. C’est pourquoi un important travail
 
   d’importation des savoirs doit être fait de manière rigoureuse
 
   pour les adaptées à la discipline d’accueil.
 
  - Les méthodes quantitatives sont omniprésentes dans notre société,
 
   d’où l’importance de connaître ces méthodes pour développer un
 
   regard critique et échapper à l’illusion du chiffre.
 
  - Les méthodes quantitatives et qualitatives ont un passé commun.
 
<nowiki>#</nowiki> Méthodes quantitatives et qualitatives : des épistémologies distinctes ?
 
<nowiki>**</nowiki>Résumé précédent**
 
1.  La statistique et les sciences sociales ont un passé commun avec
 
   l’idée d’une arithmétique politique qui a permis à l’Etat de
 
   connaître ses effectifs et ses ressources. C’était surtout
 
   descriptif en comptant les phénomènes et non les expliquer. Viser à
 
   un statut de science comme la physique ou l’astronomie.
 
2.  Différenciation de ces deux branches avec l’intrusion des
 
   mathématiques. On ne parle plus d’arithmétique politique mais on
 
   l’appelle la mathématique sociale. La différence est l’idée de la
 
   probabilité et l’incertitude tout comme pleins d’outils techniques
 
   qui se complexifient.
 
3.  Sciences sociales s’émancipent en établissant leur propre démarche,
 
   à savoir la déduction et puis appropriation des méthodes
 
   quantitatives au travers de la psychologie notamment.
 
<nowiki>##</nowiki> Les méthodes vont au-delà de la simple récolte de données
 
L’épistémologie, à savoir la théorie de la connaissance s’intéresse à
 
savoir de comment produire des connaissances scientifiques.
 
« Lorsque nous parlons de méthodologies « quantitatives » ou
 
« qualitatives », nous sommes en train de parler d’un ensemble de
 
postulats sur le monde social qui sont à la fois philosophiques,
 
idéologiques et épistémologiques. Elles vont donc au-delà des simples
 
techniques de récolte des donnée ». Cette citation de Rist explique que
 
les méthodes quantitatives sont plus qu’une simple production
 
d’informations qualitatives et qu’elles sont plus que des chiffres.
 
Certes, il y a une production de données chiffres mais ce n’est que la
 
pointe de l’iceberg. Avant tout, on construit des données et cela repose
 
sur une conception particulière des sciences sociales et du monde et qui
 
tente seulement de se rapprocher à la réalité. Avec n’importe quelle
 
approche, les données récoltées montrent qu’un extrait de la réalité. Le
 
plus souvent, les méthodes quantitatives prennent la démarche déductive
 
en validant les données. Cette approche a une manière distincte de
 
concevoir la réalité sociologique et de la reproduire.
 
<nowiki>##</nowiki> Les méthodes reposent sur des postulats philosophiques spécifiques
 
Pour illustrer que les postulats et que les méthodes influencent notre
 
regard, on prend comme exemple ces images. Les postulats des méthodes
 
influencent notre regard, nos résultats et notre compréhension du monde
 
social. Une description reste abstraite et on va l’illustrer par le
 
biais d’un exemple. Pour sa thèse, le professeur a récolté des données
 
de sondage et d’entretiens. Par la récolte de données quantitatives, les
 
militants avaient la même vision du monde tandis qu’avec l’analyse
 
qualitative des entretiens, chaque militant était singulier. Il y a donc
 
des résultats distincts voire contradictoires entre ces deux types de
 
données. Ainsi, les deux méthodes posent des questions distinctes et des
 
buts différents pour dépasser cette frustration initiale.
 
<nowiki>###</nowiki> Pilier structurant : quête des faits – positivisme
 
  - Quelles sont les jumelles particulières des types de méthode ?
 
Pour la démarche **quantitative**, le positivisme est un des piliers
 
structurant. Le positivisme repose sur l’idée que la science peut
 
atteindre des vérités et donc progresser dans la connaissance en
 
observant des choses observables et en qualifiant ces choses comme
 
réelles. Saint Simon ou Comte sont des représentants importants de
 
cette démarche. A cette époque, les sciences sociales essaient de se
 
rapprocher des sciences naturelles pour obtenir le statut de vraie
 
science. Le positivisme qualifie ce qui est fondé sur l’expérience et
 
sur l’observation comme des faits réels. Il s’oppose à la théologie et
 
ce sont l’objectivité et la visibilité qui priment ; on veut se
 
rapprocher d’une réalité objective et concrète. La théorie qui en
 
découle se base uniquement sur la connaissance des faits et de
 
l’expérience scientifique. A cette idée s’associe aussi que le
 
chercheur reste neutre par rapport à son objet.
 
<nowiki>###</nowiki> Le positivisme
 
Au 19<nowiki><sup>ème</sup></nowiki>, le positivisme est le standard de connaissance,
 
c’est-à-dire que c’est le seul chemin « juste » de la science. C’est
 
le cas pour les sciences naturelles sauf qu’à l’époque où Comte voulait
 
élever les sciences sociales au rang de sciences, c’était la seule voie
 
possible pour les sciences sociales. On voulait décrire les phénomènes
 
sociaux comme des phénomènes naturels avec une description objective des
 
faits (neutralité) et cet objectivisme est la voie unique des
 
connaissances en passant par la régularité de phénomènes aléatoires (par
 
exemple avec la criminalité pour voir si ce taux change dans le temps et
 
pour prendre des mesures politiques par la suite). Pour l’arithmétique
 
politique, on avait pour but de trouver des lois sociales au même titre
 
que les sciences naturelles.
 
Pour Comte, « maintenant que l’esprit humain a fondé la physique
 
céleste, la physique terrestre, soit mécanique, soit chimique ; la
 
physique organique, soit végétale ou animale, il lui rester à terminer
 
le système des sciences et d’observation en fondant la physique sociale.
 
Tel est aujourd’hui le plus pressent besoin de notre intelligence. » Il
 
a établi des caractéristiques dont les traces sont encore visibles. Les
 
sciences sociales adoptent le langage des sciences naturelles, on
 
commence à parler de variables, d’indices, de mesures, de
 
l’expérimentation ou encore de systèmes causaux et bien d’autres
 
concepts. Ce langage mais aussi la manière à conduire des recherches
 
imitent le modèle des sciences naturelles.
 
Avec une démarche hypothético-déductive, on est dans une approche où la
 
théorie prime, c’est-à-dire en construisant un modèle théorique puis en
 
allant par la suite le confronter à la réalité. Par ce biais, on
 
construit des outils de récolte de données qui sont informés par la
 
théorie appliquée et qui laisse peu de place pour poser d’autres
 
questions qui pourraient être importantes. Ce n’est qu’avec ce modèle
 
que des connaissances peuvent être fiables et robustes, selon cette
 
pensée.
 
  - A la base de cette démarche, on souhaite découvrir des vérités et
 
   atteindre l’objectivité. On voulait concurrencer le poids lourd des
 
   Eglises.
 
<nowiki>##</nowiki> Problèmes généraux
 
Fortement inspiré par les sciences naturelles et cela génère des
 
problèmes. Une des conséquences c’est que c’est un **monisme
 
méthodologique**. Une seule approche est permise pour servir le monde
 
social avec des méthodes et procédures de recherches des sciences
 
naturelles qui sont importées dans les sciences sociales. Cette approche
 
est problématique car l’objet d’études en sciences sociales n’est pas
 
seulement abordable par des observations objectives puisqu’on regarde
 
des individus et des groupes sociaux qui interagissent. Ceci est une
 
particularité des sciences sociales qui nécessitent une autre démarche
 
philosophique et méthodologique pour les appréhender. D’autres approches
 
existent comme la démarche interprétative qui sont plus fiables.
 
Problème de **l’empirisme** ou le **phénoménalisme **: Le béhaviourisme
 
veut analyser les comportements politiques des individus. Ceci est
 
difficile en ne se basant que sur des phénomènes observables. La
 
démarche positiviste exclut l’incorporation des notions métaphysiques
 
comme l’expérience subjective par exemple. La construction du sens ou de
 
structures invisibles sont exclues de la démarche scientifique. Mais
 
comment expliquer l’abstention politique sans s’intéresser à la
 
perception politique du citoyen ? De telles questions sont importantes
 
actuellement où on voit des structures supranationales de plus en plus
 
menacées comme l’UE.
 
Focus sur les **régularités** et la quête après les **lois sociales**.
 
Si on se concentre uniquement sur les régularités, on néglige les
 
variations. Si on dédit des lois sociales à partir de l’homme moyen
 
comme Quételet, on écarte toutes connaissances sur des individus qui ne
 
sont pas des hommes moyens. Par exemple, les salaires entre hommes et
 
femmes ne sont souvent pas les mêmes. Donc on arrive à des conclusions
 
qui ne sont pas vraies pour les uns et les autres. Si on ne prend en
 
compte les variations, les lois sociales qui en découlent sont forcément
 
erronées.
 
<nowiki>**</nowiki>Déductivisme **: Cette quête suite aux régularités et lois sociales
 
est inscrite dans une démarche déductive pour trouver des relations
 
causales. On développe des hypothèses en amont à partir de cadres
 
généraux et théoriques qui sont ensuite testés empiriquement.
 
L’approche déductive est la seule démarche scientifique à cette
 
époque. C’était le chemin unique pour construire la connaissance et ça
 
ressemble beaucoup à la démarche de Popper qui disait que les sciences
 
ne pouvaient avancer que par validation/invalidation des paradigmes
 
(*Falsification des théories*). Le problème de la démarche déductive,
 
c’est que la recherche ne procède pas d’une manière linéaire mais
 
plutôt circulaire. Ainsi, il y a des dimensions difficilement
 
incluables dans la recherche. Dans la réalité, les théories s’élaborent
 
aussi à l’aide de la démarche déductive.
 
<nowiki>**</nowiki>Posture du chercheur **: penser que la recherche et le chercheur sont
 
neutres et objectives. Weber ou Popper pensaient que la recherche doit
 
se distancier des valeurs et avoir une position neutre. Ils pensaient
 
que la démarche scientifique est une démarche objective pouvant se
 
distancier des jugements et de valeurs et que la recherche ne doit pas
 
être contaminée par le profil personnel du chercheur. Sauf qu’une
 
observation n’est jamais neutre car les chercheurs sont historiquement
 
et socialement situés d’autant plus qu’ils appliquent des lunettes
 
conceptuelles.
 
  - Le positivisme nous amène à une idée particulière de la science qui
 
   est fortement critiquée dès les années 1960.
 
<nowiki>###</nowiki> Résumé des critiques
 
  - Idée qu’il y a une seule et vraie méthode (monisme)
 
  - Idée qu’on observe uniquement des choses visibles
 
  - Phénomènes sociaux se comportement selon des régularités et que les
 
   lois sont identifiables
 
  - La démarche déductive est la seule voie scientifique
 
<nowiki>##</nowiki> Déductivisme
 
A partir du modèle type du déductivisme, on récolte des données pouvant
 
tester les hypothèses. Puis, l’analyse de ces données génère des
 
résultats de recherche qui permettent de valider ou de réfuter des
 
théories. Cependant, la réalité est nettement plus complexe et c’est le
 
cas pour les processus de recherche qui sont moins linéaires que ce
 
modèle. On est donc plutôt face à une circularité entre toutes ces
 
cases.
 
<nowiki>###</nowiki> Problèmes spécifiques
 
Dans une questionnaire ou entretien, on ne peut pas demander la classe
 
sociale des citoyens. Ce qu’on demande c’est la profession, le fait
 
d’avoir des responsabilités dans le travail ou sa propre perception de
 
son appartenance de classe ou encore d’autres indicateurs. Par ce
 
travail **d’opérationnalisation**, on peut avoir des résultats
 
différents.
 
Autre problème de cette démarche est la volonté de mettre les concepts
 
en relation, ceci avec l’idée des sciences naturelles. Or, hormis
 
l’expérimentation, il est difficile d’évaluer empiriquement des
 
relations causales pour des raisons évidentes : **l’expérimentation** en
 
science sociale n’est souvent **pas possible**. En sciences sociales, on
 
est souvent forcé d’argumenter théoriquement la direction de la
 
causalité. Par exemple, est-ce que c’est l’intérêt pour la politique
 
qui augmente la votation ? On ne sait pas exactement quel facteur
 
influence l’autre. Heureusement, il existe des techniques pour arriver
 
empiriquement à s’approcher d’une relation causale comme les panels
 
d’une part ou les expérimentations d’une autre. Sauf que ces choses
 
sont difficiles à mettre en place en raison de coûts ou de questions
 
éthiques. Avec certains, on peut faire des corrélations.
 
<nowiki>***</nowiki>La causalité est centrale dans la démarche quantitative***, puisqu’il
 
s’agit d’illustrer et d’expliquer un phénomène social. Cette volonté
 
découle de la vision durkheimienne du monde social, selon laquelle les
 
phénomènes sociaux doivent être traités comme des choses. Toutefois, il
 
est impossible d’atteindre une causalité véritable, corrélation n’étant
 
pas égal à causalité. Si on postule un lien de causalité entre X et Y,
 
ce qui est réellement important, c’est la flèche \! Et donc ***le lien
 
social*** qui relie deux éléments.
 
Un des points forts des méthodes quantitatives est la **généralisation**
 
et donc l’idée qu’à partir des échantillons représentatifs, on peut
 
tirer des informations sur l’ensemble de la population. Cette idée est
 
importée des sciences naturelles sauf que cette force est surestimée.
 
Dans la réalité, on est face à des échantillons spécifiques qui ont des
 
biais influencés par le tirage d’échantillon mais surtout la manière
 
dont les répondants participent. En science sociale, on utilise souvent
 
l’étude de cas à la base de laquelle il est difficile de généraliser
 
même avec une démarche quantitative. Une solution pour diminuer ce
 
problème est de multiplier les ancrages empiriques et comparer les
 
résultats similaires mais distants dans le temps et l’espace.
 
Multiplier les ancrages empiriques veut dire **réplication**. C’est un
 
autre concept importer des sciences naturelles où la même expérience
 
peut être facilement appliquée dans les laboratoires. Dans la
 
perspective de la recherche quantitative, cette dimension est impliquée.
 
La réplication permet d’être plus proche de la réalité sauf qu’une
 
réplication parfaite n’est pas possible puisqu’on n’est pas dans des
 
laboratoires en sciences sociales. La réplication est utile pour l’étude
 
des variations et de regarder si on retrouve les mêmes processus sociaux
 
dans des contextes étant différents.
 
Enfin, un dernier problème à prendre en compte lors de l’usage des
 
méthodes quantitatives, c’est le fait que ***l’individu représente le
 
point focal, l’unité d’analyse par excellence***. Les faits sociaux sont
 
donc déduits par le biais de l’agrégation de tous les individus. Mais
 
selon Durkheim, cette approche est problématique puisque ***le tout est
 
distinct de la somme de ses parties***. En négligeant le contexte, les
 
normes sociales en vigueur mais aussi les interactions, les résultats
 
peuvent en être gravement affectés. Pour résoudre ce dernier problème,
 
les chercheurs tentent actuellement de trouver un modèle
 
d’opérationnalisation pertinent.
 
<nowiki>###</nowiki> Que conclure ?
 
Les méthodes sont basées sur des présupposés qui orientent notre regard
 
social et la manière dont la démarche est faite aujourd’hui est toujours
 
influencée par cette approche. Cela permet d’avoir un regard réflexif.
 
Tous ces points critiques touchent de loin tous ces chercheurs. La
 
recherche quantitative connaît ses difficultés. Les problèmes de la
 
généralisation, de la réplication et de l’individualisme sont
 
aujourd’hui acceptés et fortement discutés. Il existe des réflexions
 
et des mesures sur les processus de recherche.
 
<nowiki>**</nowiki>En résumé :**
 
  - Il représente toutefois le pilier des méthodes quantitatives, ayant
 
   permis leur émergence.
 
  - Le positivisme a grandement influencé la pratique des méthodes
 
   quantitatives en sciences sociales, bien que cette influence diminue
 
   avec le temps. On essaie actuellement de prendre en compte les
 
   interactions, les relations, les normes... pour complexifier les
 
   modèles et s’approcher toujours plus près de la réalité sociale. 

 
  - Bien que l’ambition première du positivisme fut la neutralité dans
 
   les méthodes, cela n’existe pas empiriquement. C’est pourquoi le
 
   chercheur doit prendre conscience de ses présupposés pour ne pas
 
   tomber dans une analyse de type « loi sociale ».
 
  - Le positivisme appliqué à la pratique de la recherche en sciences
 
   sociales entraine de nombreux problèmes à résoudre.
 
  - L’opérationnalisation est au centre de méthodes quantitatives. Il
 
   s’agit de créer des catégories au sein du monde social, de mesurer
 
   les phénomènes sociaux et d’y apposer des chiffres ...
 
  - La démarche hypothéticodéductive, bien qu’aujourd'hui dépassée, a
 
   jouer un rôle prépondérant dans l’émergence de ces méthodes.
 
<!-- end list -->
 
  - ***Il faut donc prendre en compte les forces et les limites de cette
 
   approche***.
 
<nowiki>##</nowiki> Méthodes qualitatives
 
Observation participant développée par Malinowski, les interviews
 
non-structurées, les récits de vie ou des focus group ont introduit une
 
plus forte variété dans le type de collectes de données que la démarche
 
quantitative qui est plus uniforme (positivisme). Les méthodes
 
qualitatives reposent sur deux piliers ; la **quête du sens** et
 
<nowiki>**</nowiki>l’analyse de structures invisibles**. Le développement de cette
 
approche se nourrit de réflexions critiques pré-existantes chez Comte,
 
Sorokin etc. mais c’est dans les années 1960 qu’on retrouve une
 
dimension plus critique des méthodes quantitatives. Les méthodes
 
qualitatives reposent sur une autre conception de la réalité sociales
 
grâce à des épistémologues qui ont décortiqué la démarche de recherche.
 
On est face à un virage intellectuel important en défrichant les
 
structures invisibles du monde social en prenant le point de vue du
 
sujet. Il n’y a plus d’idée de la neutralité.
 
<nowiki>##</nowiki> Traditions sociologiques
 
<nowiki>###</nowiki> Interprétation des acteurs
 
Pour interpréter les acteurs, d’autres démarches que la démarche
 
positiviste et quantitative sont nécessaires. Pour Weber, la sociologie
 
est la science qui se propose de comprendre par l’interprétation
 
l’activité sociale et par là, d’expliquer causalement ses causes et
 
ses effets. Il voulait saisir le sens et la subjectivité de l’acteur et
 
il se demande comment l’acteur comprend la situation sociale. C’est dans
 
cette démarche que s’inscrivent d’autres auteurs comme Foucault ou
 
Derrida.
 
<nowiki>###</nowiki> Structures invisibles du monde social
 
La tradition wébérienne met l’accent sur l’interprétation tandis que la
 
<nowiki>**</nowiki>tradition phénoménologique** a ses sources en Allemagne avec Hegel ou
 
Husserl. Ce dernier propose un programme qui souhaite analyser les bases
 
du monde social. La phénoménologie signifie de saisir par description
 
l’expérience subjective du monde et des acteurs sociaux. L’étude des
 
structures de sens et de construction que les individus ou groupes
 
sociaux utilisent pur rendre le monde social intelligible est chargé de
 
sens. Ce sont ces constructions qui permettent de comprendre le monde
 
social, de se situer en tant qu’individus ou groupes puis d’agir en
 
fonction de cette interprétation. C’est le contraire du béhaviorisme qui
 
cherche des stimuli externes aux groupes et aux individus ainsi qu’aux
 
observations visibles pour comprendre l’observation.
 
<nowiki>###</nowiki> Interactionnisme symbolique
 
C’est une approche d’origine des sciences sociales et elle est fortement
 
associées à George Herbert Mead. C’est une approche proche de la
 
démarche wébérienne et de la phénoménologie. Pour Mead, il faut saisir
 
la définition de la situation avant l’acte et ainsi comprendre
 
l’interprétation que les individus s’en font. Il faut également
 
saisir la définition comme acteur social en comprenant la définition et
 
l’interaction. Ces interprétations changent en fonction des interactions
 
sociales et en fonction des interactions entre les individus eux-mêmes.
 
Goffman montre comment la présentation de soi peut varier selon le
 
cadre. Cela change en fonction des situations d’interactions. Les
 
interactions transforment le sens.
 
<nowiki>###</nowiki> Opposés au positivisme
 
Beaucoup de chose oppose les méthodes qualitatives des méthodes
 
quantitatives. Les méthodes qualitatives...
 
  - Postule que ***l’individu est pensant, et c’est cette subjectivité
 
   mais aussi l’intersubjectivité qui en découle qu’il faut saisir***.
 
  - En effet, l’individu est en interaction constante avec lui-même et
 
   les autres, et ***c’est de l’intersubjectivité produite que découle
 
   l’action***. Le but de la démarche est de comprendre les structures
 
   mentales subjectives des individus.
 
  - ***Le contexte joue un rôle important puisqu’il façonne
 
   l’interaction***.
 
Ainsi, les méthodes qualitatives travaillent principalement sur ***le
 
monde subjectif*** vécu par les acteurs sociaux. C’est pourquoi on
 
adopte davantage une ***démarche compréhensive et interprétative***.
 
Toutefois, les méthodes qualitatives se sont distancées des postulats de
 
Weber, selon qui il fallait réussir à appréhender le monde au travers
 
des yeux des individus étudiés. La neutralité axiologique n’existante
 
pas, la ***description des faits sociaux*** (à la Geertz) joue alors un
 
rôle fondamental, tout comme les efforts de ***contextualisation***,
 
permettant de comprendre les acteurs sociaux dans leur milieu. Alors que
 
les méthodes quantitatives sont à la traine sur ce point, les méthodes
 
qualitatives permettent d’élaborer des concepts au fur et à mesure et
 
donc permettent une meilleure compréhension des phénomènes dans le
 
temps. En effet, la flexibilité théorique est au cœur des méthodes
 
qualitatives (exemple : La Grounded Theory).
 
<nowiki>##</nowiki>
 
<nowiki>##</nowiki> Logique de la démarche qualitative
 
Examiner les structures de sens, examiner ce qu’il y a derrière la
 
réalité sociale. L’idée est également à l’opposition du regard neutre
 
de **regarder avec les yeux de celui qui est étudié**, c’est-à-dire
 
étudier les actions et les normes en partant de la perspective des gens
 
qu’on étudie. Il n’y a pas de processus de distanciation entre le
 
chercheur et son objet d’étude mais il doit s’immerger dans la réalité
 
de son objet de recherche. Pour faire émerger les **structures de
 
sens**, il nous faut une **description détaillée du phénomène social**
 
qu’on veut étudier. On veut déterminer les structures de sens. On
 
définit les **contextes** pour des systèmes d’interprétations et
 
d’actions. C’est une **démarche holistique** qui veut expliquer la
 
situation en la situant dans son contexte social, culturel et
 
historique.
 
Elle est moins guidée par la théorie. Au contraire, on refuse d’élaborer
 
un cadre théorique strict mais on le voit comme un guide se structurant
 
tout au long de la recherche. On ne veut pas guider une vision du monde
 
au départ mais on la laisse émerger. C’est une structure théorique
 
plutôt ouverte et visible. Cela permet une certaine liberté dans la
 
façon d’observer les phénomènes sociaux. Ceci est également le cas pour
 
les concepts qui ne sont que rarement définis au début de la recherche
 
mais sont établis dans le cours de la recherche.
 
<nowiki>###</nowiki> Problèmes et limites
 
<nowiki>**</nowiki>Analyse et l’interprétation** montent le cadre donc des théories
 
pouvant nous amener vers un but précis. Il y a un risque d’éparpillement
 
et on risque de refaire la même chose et de se noyer dans un vague
 
terrain d’information. Idée de décrire de manière détaille la complexité
 
sociale, cela nous amène à exagérer et à se perdre dans un
 
descriptivisme social où on oublie le but de chercheur, à savoir
 
d’expliquer et de comprendre. De plus, le fait que le chercheur n’est
 
pas guidé par des théories est un mythe. Tout chercheur est guidée par
 
des théories. L’idée d’absence théorique est ainsi un mythe.
 
<nowiki>**</nowiki>Reproduction de la complexité **: descriptivisme / excès d’empirisme
 
on peut mieux décrire les choses. En analysant les attitudes d’une
 
personne, on pose des indicateurs. Ou lorsqu’on fait des entretiens, on
 
a plus d’informations. Donc c’est plus détaillé. Sauf qu’on a trop
 
d’informations et on reste dans le descriptif.
 
<nowiki>**</nowiki>Explication :** on peut mieux expliquer le processus sauf qu’on se
 
perd dans l’explication.
 
<nowiki>**</nowiki>Mythe du « chercheur enfant » :** le chercheur est aveugle, sans
 
théorie préalable. Il y a l’idée qu’on peut venir libéré de quelconque
 
théorie préalable sauf que cela n’est pas possible en tant que tel parce
 
qu’on est toujours guidé d’une manière ou d’une autre.
 
<nowiki>**</nowiki>Généralisation : *La généralisation représente la préoccupation
 
centrale des méthodes quantitatives, bien qu’elle soit limitée***. En
 
effet, il serait abusif de généraliser des conclusions à une population
 
entière sur la base d’un échantillon régional par exemple. Pour éviter
 
ce type d’abus, les chercheurs ***multiplient les ancrages
 
empiriques***, permettant d’identifier de possibles variations entre les
 
différentes mesures sur des territoires différents, permettant dès lors
 
de mieux appréhender les phénomènes sociaux.
 
<nowiki>##</nowiki> Que conclure ?
 
Les méthodes qualitatives et quantitatives reposent chacune sur des
 
piliers différents. Etant très différentes et permettant d’appréhender
 
le monde social au travers de lunettes épistémologiques différentes, le
 
terrain n’est pas du tout appréhendé de la même manière par ces
 
approches. Toutefois, on ne peut conclure à une réelle opposition entre
 
elles. Pour de nombreux chercheurs, ***ces deux méthodes doivent se
 
compléter*** pour offrir à voir une réalité plus complexe en se posant
 
des questions différentes, caractéristiques de chacune de ces approches.
 
![](./media/image1.png)
 
<nowiki>#</nowiki> Pratiques de la recherche et causalité : théorie et empirie sous tension
 
<nowiki>##</nowiki> Pratiques de la recherche
 
Ces pôles nous aident à prendre une distance critique avec notre objet.
 
Ces pôles ne sont pas forcément dans la tête de tout chercheur ou tout
 
étudiant. Ces pôles sont des espaces de recherche posant des questions
 
spécifiques pour avoir un projet de recherche cohérent. Il demande au
 
chercheur à se questionner différemment. Les mêmes pôles existent pour
 
la méthode quantitative ou qualtive puisque les deux sont soumises aux
 
mêmes types de questions sauf que les pôles sont plus au moins
 
importants dans l’une ou l’autre démarche.
 
<nowiki>##</nowiki> Quatre pôles structurent la recherche
 
1.  Pôle **épistémologique** -\> pertinence de l’objet et de la question
 
   de recherche. On se pose des questions comme « pourquoi faut-il
 
   répondre à cette question ? Qu’est-ce que ça nous apporte comme
 
   pertinence ? Pourquoi c’est un problème social ?
 
2.  Pôle **théorique** -\> Explication/compréhension. Permet de
 
   conceptualiser les concepts et les mettre en relation. Il permet de
 
   délimiter l’objet de l’étude lui-même et les causes explicatives en
 
   plus de mettre en amont un ensemble de facteurs pour expliquer le
 
   phénomène à expliquer. Ceci se fait par la formulation de
 
   l’hypothèse.
 
3.  Pôle **méthodologique** -\> Cohérence : définir le dessin de
 
   recherche et le cadre d’analyse. Il assure cohérence entre le pôle
 
   théorique et technique. Il peut être enrichi par notre propre
 
   lecture. Il permet par la suite de tester nos relations causales.
 
4.  Pôle **technique** -\> Faisabilité : Il demande comment on va faire
 
   notre collecte de données ?
 
<!-- end list -->
 
  - Chaque pôle se réfère à une étape distincte de la recherche et ce
 
   sont des moments analytiquement séparés mais en réalité inséparable.
 
   Il y a un va-et-vient constant entre eux puisque leur existence et
 
   conditionnée par celles des autres.
 
<nowiki>###</nowiki> Implication de l’interdépendance des pôles
 
Les choix méthodologiques découlent du problème posé antérieurement et
 
notamment du cadre théorique élaboré. De plus, les choix techniques
 
découlent du cadre méthodologique élaboré ainsi que du problème et du
 
cadre théorique. Ainsi, les choix méthodologiques sont sous contraintes
 
des pôles antérieures et des connaissances préalables du chercheur.
 
<nowiki>##</nowiki> Pensée causale : au cœur de la démarche quantitative
 
La causalité se pose d’une manière transversale pendant tout le
 
processus de recherche. On a déjà vu apparaître cette question à
 
plusieurs endroits dans les pôles de la recherche. La causalité est au
 
centre des recherches quantitatives. On essaie donc de développer un
 
outil statistique qui nous permet de mettre en évidence des structures
 
sociales. On est dans une logique positiviste importé des sciences
 
naturelles voulant expliquer des phénomènes visibles comme la
 
criminalité. On veut donc mettre en évidence des causes sociales.
 
Tandis que dans les méthodes qualitatives, on veut générer un ensemble
 
d’explications probables ou potentielles. On délimite des causes dans
 
le pôle théorique. En d’autres termes, on a la recherche d’un effet
 
d’une variable indépendante sur la variable dépendante (du X au Y). A
 
cette logique se pose plusieurs problèmes étant liés à cette logique. Il
 
y a des problèmes philosophiques qui questionnent la possibilité de
 
pouvoir trouver des causes universelles par exemple. Un modèle causal
 
exige de contrôler la causalité et de mettre en évidence la structure
 
sociale. Ceci n’est pas toujours facile et parfois même, ce n’est pas
 
faisable. Finalement, il y a des problèmes techniques parce qu’on ne
 
peut pas contrôler toutes les causes concurrentes possibles.
 
<nowiki>###</nowiki> Où est le problème ? Tension entre théorie et empirie
 
On est face à une tension entre le langage théorique et celui de la
 
recherche. Ceci est bien résumé par la citation de Blalock : « Si X est
 
la cause de Y, nous avons en tête que X produit un changement de Y et
 
non simplement qu’un changement de X est suivi, ou associé, à un
 
changement de Y ». La logique de la pensée causale veut qu’on évalue
 
l’effet de X d’une variable ou de plusieurs variables indépendantes
 
sur Y, à savoir une variable dépendante. Par exemple l’effet du niveau
 
d’éducation sur la participation politique. Dans le langage de la
 
théorie, on va utiliser des termes comme causes, poids ou rôle d’une
 
variable sur l’autre. Dans la recherche empirique, si on veut tester ces
 
relations, on parle de **co-variation** ou de **corrélation**. Si on
 
parle de co-variation, on parle d’une variation d’un changement en même
 
temps ou si corrélation, on parle d’une association d’une variable à une
 
autre mais on ne parle pas de sens. Du coup, ni la corrélation ni la
 
co-variation sont des causes. On pourrait admettre que la pensée causale
 
se situe uniquement au niveau théorique et qu’on ne peut pas le tester
 
au niveau de la recherche empirique. Sauf qu’Einstein n’est pas d’accord
 
avec cette affirmation puisque « correlations does not prove
 
causality ». Pourquoi est-il difficile d’identifier les causes ? Il y
 
a 2 raisons majeures à cela :
 
  - **Asymétrie temporelle entre la cause et l’effet**. Forcément, la
 
   cause doit venir avant les faits. Si on veut évaluer la présence des
 
   immigrés sur la xénophobie, il faut trouver un endroit où il y a une
 
   présence immigrée antérieure à un renforcement d’attitude xénophobe
 
   sinon on ne peut pas dire qu’il y a causalité. Pour résoudre ce
 
   problème de temporalité au niveau empirique, le dessin de recherche
 
   doit incorporer cette notion du temps. Idéalement en mesure de 2
 
   temps minimum sauf que cela est difficilement atteint. Par exemple
 
   les sondages se font souvent en un seul moment et les s sont
 
   relativement rares car très couteux. On peut encore se rapprocher à
 
   cette idée du temps avec certaines astuces telle que le fait de
 
   poser des questions sur le passé. L’autre astuce est de se sauver
 
   avec la réflexion théorique, en expliquant théoriquement ce qui
 
   vient avant ou après.
 
  - **Contrôle de toutes les causes concurrentes **: pour prouver qu’une
 
   cause génère un effet, il faut contrôler toutes les autres causes
 
   possibles en éliminant celles qui peuvent établir une relation entre
 
   une variable indépendante et une variable dépendante. Il faut en
 
   plus maîtriser totalement l’environnement et travailler avec système
 
   clos qui est libéré de toutes les causes concurrentes.
 
Exemples : Si on veut examiner l’effet des campagnes sur la
 
participation électorale, on est face à un postulat causal au niveau
 
théorique sauf qu’on ne va jamais trouver toutes les causes
 
structurelles.
 
Par conséquent, on peut prouver une causalité seulement dans un système
 
fermé selon Russel ou Heisenberg. Un système isolé nous permet de
 
contrôler toute autre cause concurrente et de varier seulement la cause
 
qui nous intéresse. Sauf que c’est très difficile en sciences sociales.
 
  - L’asymétrie temporelle est un problème soluble soit par
 
   l’introduction de la notion du temps comme dans les études de
 
   panel ou par le choix de dessin expérimental. Sauf que ce type
 
   d’étude n’est pas toujours faisable puisque c’est très cher. Il
 
   reste alors l’appui théorique en argumentant logiquement la
 
   causalité.
 
<nowiki>###</nowiki> Solution : reconceptualisation de la cause
 
Le contrôle de toutes les causes concurrentes et l’aspect le plus
 
difficile à réaliser parce qu’on ne peut pas isoler complètement un
 
système et de déterminer toutes les causes concurrentielles. Donc la
 
causalité au sens strict du terme ne s’applique pas à la recherche. Sauf
 
qu’on est face à un problème insoluble. Comme on ne peut pas cerner la
 
causalité au sens philosophique du terme et donc on ne peut pas tester
 
empiriquement des lois sociales on est censé reconceptualiser la
 
causalité au sens étroit du terme et on parle d’une causalité limitée.
 
Selon Simon, on doit conserver le modèle de cause en modèle simplifié.
 
La meilleure solution est de partir avec un nombre fini de causes qui
 
sont en opposition avec la philosophie. Sauf que ce modèle ne peut
 
jamais être complètement faux au sens philosophique du terme. Cette
 
causalité limitée peut être visible à différents endroits de la
 
recherche ; sur le niveau théorique avec les hypothèses, en
 
statistiques, avec les termes d’erreur et en méthodologique, avec
 
l’expérimentation.
 
Comme au niveau théorique, une relation entre deux variables ne peut pas
 
être analysée empiriquement et on doit donc émettre des hypothèses
 
simplifiées sur la relation entre deux variables. Donc l’énoncé causal
 
est purement hypothétique. Les phrases sont formulées : « si toutes les
 
causes connues sont égales, alors il y a un effet de campagne sur la
 
participation électorale ». C’est la solution
 
<nowiki><span class="underline">théorique</span></nowiki>. Au niveau
 
<nowiki><span class="underline">empirique</span></nowiki>, on peut construire une
 
causalité limitée avec l’introduction des termes d’erreur. Cela se fait
 
avec les analyses multiples comme la régression : « Quand un facteur X
 
prédit Y, il peut toujours y avoir d’autres causes qui prédit … ». Cela
 
prend en compte la variation de la variable dépendante qui n’est pas
 
causée par la /les variables indépendantes.
 
Finalement, la logique d’expérimentation nous permet d’établir une
 
causalité limitée. L’idée derrière est la création d’un système isolé ce
 
qui n’est pas forcément possible en sciences sociales parce qu’on est
 
tout simplement rarement dans un laboratoire. Toutefois, on peut voir
 
dans la recherche qu’il y a des expérimentations qui essaient de se
 
rapprocher de cet idéal. Par exemple, si on veut évaluer l’effet de la
 
lecture d’un journal dans la formation des opinions pendant une campagne
 
électorale, on peut s’approcher d’une situation d’expérimentation en
 
créant un groupe A et un groupe de contrôle B. Sauf que les personnes
 
peuvent être impactés par d’autres causes externes. Ainsi,
 
l’expérimentation reste difficilement applicable et on doit rester
 
dans un modèle hypothétique.
 
  - Un modèle (causal) restera toujours une représentation simplifiée de
 
   la réalité.
 
<nowiki>##</nowiki> Difficulté dans l’élaboration de modèles causaux
 
Il faut sélectionner les causes qu’on intègre dans notre modèle en
 
choisissant celles qui sont les plus déterminantes. Ainsi, on parle des
 
causes principales qui sont celles qui sont les plus fondamentales.
 
Puis, il faut identifier les causes concurrentes qui pourraient être
 
concurrentes à notre explication. On parle aussi de variable de contrôle
 
qui signifient la même chose. Ces causes, on les trouve souvent dans la
 
littérature. Avec toutes ces causes concurrentes, il faut faire un choix
 
qui va influencer notre résultat. Ce choix consiste à éliminer certaines
 
causes pour avoir un modèle théorique faisable. Le plus grand danger
 
dans ce processus de sélection, c’est la création de fausses relations.
 
Par exemple, on fait un modèle théorique où on prend le sexe et la
 
participation politique. On trouve que les hommes participent plus que
 
les femmes sauf qu’on a oublié de prendre en compte une variable
 
explicative. Elle va éliminer notre thèse principale ; la participation
 
politique est surtout influencée par le niveau d’éducation et la classe
 
sociale. Si on intègre ces deux variables dans une régression, on ne
 
trouve plus de relation entre sexe et participation politique.
 
<nowiki>##</nowiki> Difficulté de l’élaboration de modèles causaux
 
On peut expliquer un problème social en trouvant toutes les variables.
 
C’est le cas dans les méthodes qualitatives. La seconde approche est
 
d’essayer d’expliquer l’effet d’une cause sur un effet. La différence
 
entre les deux approches est que dans le deuxième exemple, on est dans
 
une logique de sélection de causes au sein d’un modèle théorique. On
 
prend un nombre limité de causes.
 
Il existe différents types de causes :
 
  - ***La cause principale*** : C’est la cause que l’on postule
 
   influencer le plus un phénomène donné.

 
  - ***La cause concurrente*** : C’est la cause qui peut influencer
 
   également le phénomène étudié mais dont on postule qu’elle est
 
   moins prégnante que la cause principale.

 
  - ***La cause fallacieuse*** : Alors que l’on pensant que X
 
   influençait fortement Y, ayant identifié une co-variation, il
 
   s’avère que c’est une variable cachée, Z, qui influence en
 
   réalité Y. Il s’agit donc d’une cause fallacieuse.
Par exemple, on
 
   a longtemps pensé que ce qui faisait que les femmes votaient moins
 
   que les hommes, c’était leur genre. Toutefois, on a compris plus
 
   tard qu’en vérité, ce qui influençait le plus, c’était le niveau
 
   d’éducation, qui variait également selon le genre \!
 
<nowiki>###</nowiki> Cause et théorie
 
On dit que X a une influence sur Y sauf qu’il ne faut pas oublier de
 
comprendre et d’expliquer ce lien social. Il faut toujours essayer de
 
comprendre la flèche sinon on pourrait créer des artefacts ou de fausses
 
relations. Quand on parle du niveau d’éducation qui affecte la
 
participation des individus, parle-t-on des ressources intellectuelles ?
 
d’un sentiment de légitimité ? que cela peut-il dire ? Pour ne pas
 
tomber dans le positivisme sauvage (ce que je vois est parce que je le
 
vois), ***la théorie est cruciale pour comprendre ce lien et non pas
 
simplement le constater***.
 
<nowiki>##</nowiki> Conclusions et implications
 
Le monde réel est hors de notre portée. On ne peut pas tester des
 
relations causales au sens strict du terme. Ainsi, le chercheur doit
 
construire son objet de recherche. Il passe d’un objet perçu à un objet
 
de connaissance. On construit notre objet de recherche avec des lunettes
 
méthodologiques et théoriques. D’ailleurs, on travaille avec des objets
 
interactifs puisqu’ils peuvent se transformer. On doit prendre en compte
 
l’asymétrie temporelle, on doit contrôler les causes concurrentes.
 
Finalement, on a vu qu’on est plutôt dans des systèmes de co-variations
 
et non dans des systèmes de causes.
 
<nowiki>#</nowiki> Dessins de recherche ou comment maîtriser la causalité ?
 
Pour saisir l’idée des dessins de recherche, il faut comprendre deux
 
notions clés sur laquelle la démarche causale est basée ; l’idée de la
 
variation et celle de la comparaison. L’étude de la variation veut
 
saisir la question suivante : comment la variation de X est associée à
 
la variation Y ?
 
  - Exemple : xénophobie : effet de la présence immigrée a un effet sur
 
   la xénophobie. Donc l’idée c’est que la présence d’immigré fait
 
   varier des facteurs de misanthropie. Sauf qu’il faut prendre
 
   différents cas où il y a une variation du degré de présences
 
   d’immigrés pour voir si la xénophobie change en fonction de ces
 
   variations.
 
Selon Durkheim, la variation ne peut être faite sans comparaison. C’est
 
le cas pour la démarche quantitative et qualitative. Ce n’est qu’en
 
comparant des Etats-nations qu’on peut évaluer un modèle de citoyenneté
 
par rapport à la pression migratoire.
 
Le dessin de recherche est important pour maîtrise la causalité. Ce
 
n’est pas toujours évident de parler de dessins de recherche de
 
manière théorique. Comme pour chaque concept, il existe plusieurs
 
définitions. On peut distinguer entre une définition plus large et une
 
définition plus étroite :
 
  - *Large *: elle englobe tous les enjeux impliqués dans la
 
   planification et l’exécution de la recherche. Ça part de la
 
   construction de la problématique (pôle épistémologique) jusqu’à la
 
   présentation des résultats de recherche (englobe tous les pôles de
 
   recherche).
 
  - *Etroite *: manière dont le chercheur va écarter ou maîtriser les
 
   hypothèses concurrentes. C’est le cœur du pôle méthodologique. Il
 
   s’agit d’établir un plan d’exécution de la recherche pour exécuter
 
   le plan de recherche. Le dessin de recherche doit répondre à la
 
   manière dont on va contrôler.
 
Les dessins de recherche sont cruciaux car ils permettent de situer le
 
chercheur dans le volet empirique de sa recherche. Il permet une
 
articulation entre la théorie et l’empirie ainsi qu’une articulation
 
entre le pôle épistémologique et théorique. Les dessins d’une recherche
 
sont centraux du pôle méthodologiques : comment on procède pour tester
 
nos hypothèses ? Comment maîtriser notre système causal ? La notion de
 
contrôle signifie comment on va maintenir constantes les autres causes
 
afin de déterminer le poids de la cause déterminée.
 
<nowiki>##</nowiki> Exigences des dessins de recherche
 
Pour que les résultats obtenus soient le plus fiables possible, le
 
chercheur doit :
 
  - Contrôler la causalité en s’assurant d’une asymétrie temporelle et
 
   d’une clôture maximale du système. Il est nécessaire de maintenir
 
   constantes les causes concurrentes et ce, en élaborant par la
 
   connaissance un certain nombre de variables de contrôle.
 
  - Choisir un dessin approprié en maîtrisant au mieux la causalité. De
 
   plus, le dessin de recherche sert également à mettre à l’épreuve les
 
   modèles théoriques construits par le chercheur et à assurer la
 
   faisabilité de la démonstration empirique.
 
<nowiki>###</nowiki> Analyse de la co-variation
 
  - Présuppose une logique de comparaison (Durkheim)
 
  - Comparer entre groupes
 
  - Comparer à l’intérieur des groupes
 
Deux logiques de contrôle : deux chemins possibles
 
  - Contrôle externe : dessins **expérimentaux** avec une comparaison
 
   entre groupes
 
  - Contrôle interne : dessin **corrélationnel** avec une comparaison
 
   dans un groupe
 
<nowiki>##</nowiki> Contrôle externe
 
Il applique un contrôle externe, c’est-à-dire qu’on veut maintenir
 
constantes les autres variables ou les causes concurrentes. On est dans
 
logique de comparaison entre groupes et cela nécessite que le groupe
 
soit identifiable en amont. Ici, c’est une logique de l’éprouvette comme
 
dans un laboratoire où il faut dessiner un groupe expérimental qui a ce
 
traitement et un groupe de contrôle qui n’a pas ce contrôle.
 
L’attribution d’un groupe reste toutefois aléatoire. L’idée ici est de
 
maîtriser la causalité ex-ante, c’est-à-dire avant l’analyse de données.
 
Les analyses vont être centrées sur les cas ou les groupes. Pour mener
 
une expérience, il faut que le groupe soit clairement identifiable en
 
amont. Par exemple avec l’immigration et les abus xénophobes, dans une
 
logique d’un dessin expérimental, on devrait comparer des cantons avec
 
une forte/faible population migrante.
 
Exemple
 
  - Connaissance des religions et des philosophies conduit-elle à une
 
   plus grande tolérance à l’égard de l’altérité ?
 
On peut prendre deux groupes distincts identifiables (groupe de contrôle
 
et groupe expérimental). Donc on peut comparer les groupes entre eux
 
dans la logique du dessin de recherche. On identifie deux groupes
 
distincts sauf qu’on peut en même temps maintenir constants d’autres
 
facteurs (la même école, la même classe, le même âge…). Au contraire, si
 
on veut saisir les influences de l’usage du vote par internet ou par
 
correspondance, sur la pratique du vote, on ne peut pas identifier en
 
amont les utilisateurs d’un ou de l’autre usage donc on doit appliquer
 
une autre logique.
 
<nowiki>##</nowiki> Contrôle interne
 
Cette autre logique est appliquée par le dessin corrélationnel. Au lieu
 
de comparer entre groupe, on fait un contrôle **dans** le groupe,
 
c’est-à-dire le contrôle interne en faisant varier aléatoirement les
 
variables. Dans le dessin expérimental, on essaie de contrôler un
 
maximum de paramètres tandis que dans le dessin corrélationnel, on veut
 
libérer les paramètres. Les groupes ne sont pas identifiables en amont
 
donc pour construire notre échantillon, on tire au sort des
 
observations. On garde l’aspect aléatoire pour garder l’effet spécifique
 
de chaque variable indépendante. Au lieu de comparer des groupes, on
 
prend dans l’analyse toute la population et on introduit toutes les
 
variables indépendantes. Donc on ne regarde pas seulement l’effet d’une
 
variable indépendante sur une variable dépendante mais on introduit
 
toutes les variables.
 
Dans la logique du dessin corrélationnel, on maîtrise la causalité
 
ex-post, c’est-à-dire au niveau des analyses. Les analyses ne sont pas
 
centrées sur les cas mais sur les variables.
 
Exemple :
 
  - Est-ce que le soutien électoral au parti d’extrême droite, est-il
 
   lié au statut économique de la personne, à son rejet des élites
 
   politiques ou à ses attitudes à l’égard des autorités ?
 
Ce qu’on va faire, c’est qu’on va prendre toute la population (ensemble
 
des votants) et faire varier cette variable dans l’ensemble de la
 
population. Cela va nous permettre ensuite de voir si le statut
 
économique est lié par exemple. On va appliquer une logique de
 
comparaison à l’intérieur du groupe en évaluation la relation entre les
 
variables.
 
<nowiki>##</nowiki> Deux chemins : contrôle vs aléatoire
 
Il y a donc deux chemins pour maîtriser les variations et maîtriser les
 
systèmes de causalité. On peut soi maîtriser la causalité avant les
 
analyses et la comparaison dans le groupe. Ou bien, on ne peut pas
 
identifier les groupes en amont donc on mise sur des relations entre
 
variables en s’approchant des causalités au niveau des variables. Ce
 
sont des chemins opposés :
 
« L’aléatoire est dans un sens le processus opposé du contrôle. Tandis
 
que contrôler veut dire maintenir la valeur de certaines variables
 
constantes, l’aléatoire veut dire libérer la valeur » (Spector)
 
Sauf que cette distinction n’est pas toujours décisive. Dans la réalité
 
de la recherche, on peut retrouver ces deux chemins dans un dessin de
 
recherche.
 
<nowiki>###</nowiki> Contrôle externe
 
Ces groupes peuvent comprendre différentes choses telles que des
 
individus, des Etats etc. Le dessin expérimental est le contrôle de base
 
de la causalité. C’est rare que ce soit possible d’avoir un tel dessin
 
en science sociale. Néanmoins, on voit de plus en plus l‘utilisation de
 
dessins expérimentaux. Le chercheur va manipuler artificiellement
 
une/plusieurs variables dans un groupe. Puis, il évalue l’effet de cette
 
variable entre les deux groupes. La différence que le chercheur peut
 
trouver entre ces deux groupes, lui permet de tirer une conclusion sur
 
l’effet de la variable indépendante sur la variable dépendante et donc
 
il ne doit pas contrôler les variables concurrentes. C’est l’idée qu’on
 
a deux éprouvettes contenant la même solution liquide, puis on les
 
compare et on étudie leurs effets. Les principes ou les conditions de
 
base d’un dessin expérimental sont :
 
  - Les groupes soient composés de la même manière. Le groupe
 
   expérimental et le groupe de contrôle doivent avoir la même
 
   composition. Il ne doit pas y avoir de variations entre eux. Pour
 
   évaluer une variation sur une variable, il faut obtenir les autres
 
   variables constantes sinon on ne peut pas évaluer les effets de la
 
   manipulation et donc de la causalité. Ainsi, l’effet qu’on observe
 
   pourrait être dû par d’autres variables.
 
  - Pour avoir des groupes identiques, il faut procéder à un tirage
 
   aléatoire. L’idée derrière est qu’une allocation aléatoire est le
 
   seul moyen d’avoir un groupe identique parce qu’on ne connaît par
 
   les caractéristiques de chaque cas.
 
  - Puis, on peut procéder à la manipulation d’une/plusieurs variables
 
   indépendantes. Cela permet d’asseoir cette variable sur le groupe
 
   expérimental. C’est pour cela que l’expérimentation est privilégiée
 
   par rapport à d’autres dessins de recherches. Ainsi, on a une base
 
   solide.
 
<nowiki>###</nowiki> La logique
 
Exemple : Si un chercheur souhaite évaluer l’influence de l’information
 
quant à l’écologie sur le vote vert des individus, il sépare des
 
individus en deux groupes, auxquels il a préalablement demandé
 
quelles
étaient leurs inclinaisons à voter écologiste.
 
Ensuite, le chercheur donne des informations à l’un des groupes, alors
 
que l’autre reste neutre. Le chercheur finit l’expérience en demandant,
 
suite à cette manipulation, quelle est l’inclinaison des individus de
 
chaque groupe à voter écologiste. Sur le tableau (fictif), on voit que
 
le lien est vérifié puisque les individus ayant obtenu de l’information
 
se déclare prêts à voter écologiste bien davantage que le groupe n’ayant
 
pas reçu d’information. Toutefois, on ne sait pas si cette inclinaison
 
durera dans le temps. Il est aussi possible de tester l’influence de
 
plusieurs variables, comme l’information « papier » et l’information
 
directe (des individus nous expliquent, parlent...).
 
Un autre exemple de ce qu’est un dessin de recherche expérimental
 
(contrôle externe) est l’expérience de Milgram portant sur la
 
soumission à l’autorité.
 
<nowiki>###</nowiki> Dessin expérimental : ses forces
 
On arrive presque à fermer un système et c’est le dessin de recherche
 
privilégié en termes de causalité. Il a une très forte validité interne
 
au sein de la recherche parce qu’on a un contrôle sur l’intervention et
 
ils ne sont pas coûteux parce qu’on a besoin d’un petit échantillon.
 
<nowiki>###</nowiki> Ses problèmes
 
Il a des faiblesses :
 
  - La faisabilité : pas toujours facile de manipuler une variable
 
   indépendante.
 
  - La même composition du groupe n’est pas évidente.
 
  - Possibilité de généralisation : beaucoup de recherche expérimentale
 
   ont une faible validité interne. Si on veut l’appliquer à la
 
   validité externe, c’est plus difficile. Souvent, les échantillons
 
   utilisés ne sont pas représentatifs. Les individus réagissent
 
   différemment dans un contexte de laboratoire que dans un cadre
 
   naturel.
 
  - On doit faire face aux problèmes éthiques : les règles de base sont
 
   que la participation doit être volontaire, les participants doivent
 
   être informés, on ne doit pas faire du tort aux participations et
 
   on doit respecter les participants. Sauf que souvent les
 
   expérimentés ne connaissent pas le but de la recherche ou ils ne
 
   sont que vaguement informés pour ne pas biaiser leurs comportements.
 
<nowiki>##</nowiki> Dessin quasi-expérimental
 
Le principe de comparaison entre groupes est maintenu sauf que ce dessin
 
se déroule en dehors du laboratoire. Le rôle du chercheur est aussi
 
différent car il n’y a pas de manipulation du chercheur puisque le
 
changement intervient naturellement. Il doit avoir la caractéristique de
 
séparer clairement deux groupes d’individus. On retrouve la logique du
 
groupe expérimental et la logique du groupe de contrôle.
 
On ne peut pas manipuler des variables sont leurs modalités dans la
 
nature. La notion de la temporalité est centrale ici. Ce type de dessin
 
est particulièrement adapté pour les changements tel que des changements
 
de valeur entre les générations ou les changements liés au parcours de
 
vie (un enfant, changement d’études etc). Ce dessin peut également
 
prévoir un changement dans l’espace tel que l’étude d’Ingelhart qui a
 
montré qu’on a trouvé des fonctions distinctes en fonction de la santé
 
de l’Etat.
 
<nowiki>###</nowiki> Expériences naturelles
 
On doit prendre la situation existante. Ici, le contrôle est moindre que
 
dans la situation expérimentale précédente. Ces écoles peuvent être
 
situées dans des quartiers ayant des niveaux économiques différents ou
 
les enseignements peuvent varier donc on n’a pas l’entièreté du
 
contrôle.
 
En prenant un exemple réel d’une expérience naturelle, on voulait
 
vérifier l’accès à la citoyenneté sur la mobilisation de l’extrême
 
droite. Ils ont fait une comparaison entre pays (comparaison dans
 
l’espace), ils ont catégorisé les différentes conceptions de la
 
citoyenneté et ils ont étudié les pays en Europe pouvant être classés
 
dans ces différentes cases. Puis, ils ont tiré des exemples sélectionnés
 
pour l’analyse et donc ils les ont comparés. C’est un exemple de
 
comparaison dans l’espace. Ils ont récolté des données pendant 10 ans et
 
ils voulaient être sûrs que cette classification soit sûre sauf que ce
 
n’était pas en lien avec la question de recherche. Il faut toujours
 
refaire le lien avec la question de recherche. La logique ici est
 
simplement la comparaison dans l’espace.
 
Nécessité d’avoir des données temporales et spatiales :
 
Temps longs : un siècle
 
Espace : pays européens
 
Unité d’analyse : vote des individus
 
<nowiki>###</nowiki> Dessin comparatif
 
Quais comme un dessin expérimental. La comparaison est ici centrale dans
 
sa logique ; elle peut se faire dans l’espace ou dans le temps. Sa place
 
parmi les autres stratégies de recherche, dans une recherche
 
qualitative, on a beaucoup de variables avec peu de cas et avec la
 
méthode quantitative, c’est l’inverse. Tandis que la recherche
 
comparative est située théoriquement au milieu.
 
<nowiki>###</nowiki> Dessins longitudinaux
 
Un cas spécifique de la comparaison dans le temps. On est toujours dans
 
des dessins quasi-expérimentaux. Ils sont de plus en plus en vogue dans
 
les sciences sociales. Il y a 3 types dessins longitudinaux :
 
  - **Panel **: la spécificité est la comparaison du même groupe dans le
 
   temps. On compare le même groupe à des moments différents. Les
 
   principes de base sont qu’on utilise les mêmes échantillons
 
   d’individus. L’intervention entre la première et la deuxième fois
 
   est naturelle et il n’y a pas d’intervention du chercheur. Un
 
   exemple classique est le panel suisse des Ménages donc toutes les
 
   personnes qui vivent dans un ménage. Ce sont des études d’opinions,
 
   de comportements ou de valeurs et ces personnes sont sondées chaque
 
   année. Son avantage : très bonne traçabilité de la cause ; on peut
 
   tracer les changements dans les comportements politiques parce qu’on
 
   a toujours les mêmes individus. Sauf qu’il y a des problèmes : comme
 
   c’est toujours le même groupe, il faut lutter contre « la mortalité
 
   d’un panel », c’est-à-dire que les gens arrêtent de participer. La
 
   moralité d’un panel, c’est que la durée de vie d’un échantillon est
 
   limitée. Très vite, on peut se retrouver avec un problème important
 
   de représentativité. La solution pour y remédier est de réintroduire
 
   de nouvelles personnes ou de nouveaux échantillons complets. Un
 
   autre problème se situe au niveau que le chercheur doit attendre
 
   longtemps pour pouvoir analyser ces données. Finalement, c’est un
 
   dessin coûteux en ressources parce qu’on utilise des incitations
 
   importantes, le mode de récolte des données est coûteux et de grands
 
   groupes travaillent.
 
  - **Semi-panel** : il applique la même démarche que dans le panel
 
   classique. La différence principale est que le groupe change à
 
   chaque fois. On utilise cette technique quand les chercheurs ont la
 
   difficulté de reprendre le même échantillon que dans la première
 
   vague donc on a des difficultés à suivre les personnes dans le
 
   temps. L’avantage clé par rapport au panel est que ce dessin
 
   augmente clairement la faisabilité de cette recherche. On garde en
 
   plus la comparaison dans le temps et l’évaluation de la causalité
 
   reste assez fiable. Il permet de regarder des individus au niveau
 
   agrégé.
 
  - **Panel rétrospectif** qui essaie de combler une autre faiblesse de
 
   l’étude panel classique. Un panel commence toujours dans une année
 
   spécifique et il n’est pas possible de remonter dans le temps. Pour
 
   ce faire, on peut soit utiliser des données secondaires récoltées
 
   par d’autres ou utiliser des données rétrospectives. L’avantage de
 
   ce dessin est la faisabilité de l’étude. Par exemple, pour
 
   l’engagement dans des organisations sociales, il est difficile
 
   d’identifier des personnes quand elles ne sont pas encore
 
   engagées. Donc on peut tracer la causalité dans une certaine
 
   mesure. Sa première difficulté est inscrite dans son nom puisque la
 
   rétrospective des problèmes est problématique car la mémoire est
 
   sélective. La sélectivité de la mémoire ne se fait pas au hasard et
 
   on est face à des biais sélectifs. De plus, on est face à une
 
   réinterprétation ou une reconstruction de la part des individus. Il
 
   y a aussi un problème de différence entre individus. Une solution
 
   pour y remédier est d’utiliser des moments épiphaniques (moments
 
   centraux) et on a tendance à mieux s’en souvenir. Sauf qu’il n’est
 
   plus vraiment un dessin quasi-expérimental car on ne peut plus
 
   identifier des groupes en amont. On bascule sur des dessins
 
   corrélationnels ayant une logique différente.
 
<nowiki>##</nowiki> Contrôle externe de la causalité : synthèse
 
Dessins **expérimentaux **: avec intervention du chercheur
 
Dessins **quasi** **expérimentaux **: sans intervention du chercheur /
 
expérimentation naturelle / dessin comparatif (coût faible) / panel,
 
semi-panel dessin rétrospectif.
 
<nowiki>###</nowiki> Contrôle interne : Dessin corrélationnel
 
On choisit ce dessin quand une comparaison entre deux groupes en amont
 
est impossible. On étudie la société telle qu’elle est. Le dessin
 
corrélationnel ou *cross-sectional* est une étude des variations à
 
l’intérieur d’un groupe et non entre les groupes. Il y a toujours une
 
logique de comparaison et de variation. Pour choisir un échantillon de
 
la population, on utilise une logique aléatoire en procédant à un tirage
 
au sort au sein d’une population. Avec ce procédé, toutes les
 
caractéristiques sont censées être représentées permettant une analyse
 
entre les variables.
 
<nowiki>###</nowiki> Contrôle de la causalité : synthèse
 
Les dessins **expérimentaux** et **quasi-expérimentaux **: logique de
 
contrôle externe, maîtriser sources de variation et groupes
 
identifiables en amont, procède à un contrôle ex-ante de la causalité,
 
logique du contrôle avec des paramètres constants.
 
Dessins **corrélationnels **: logique de contrôle interne (à l’intérieur
 
de groupe), maîtrise la causalité au moment de l’analyse avec
 
régressions, logique derrière est de défricher la causalité en
 
contrôlant la relation entre les variables (variable indépendantes et
 
variables dépendantes).
 
<nowiki>###</nowiki> Bilan
 
Dessins expérimentaux peuvent contrôler la causalité en amont de la
 
collecte des données car on maîtrise les effets des autres facteurs. On
 
peut contrôler les variables concurrentes.
 
Contrôle faible dans les dessins corrélationnels ; logique du tirage au
 
sort et on veut libérer au maximum les paramètres et assurer une
 
distribution aléatoire de ces paramètres au sein de la population
 
étudiée. Le contrôle se fait après par le biais de l’analyse qui prend
 
plein de causes concurrentes. La maîtrise des variables se fait soit
 
avant entre les groupes soit après entre les variables. Il s’agit de la
 
maîtrise de la variable indépendante sur la variable à expliquer. Il
 
s’agit d’un continuum de contrôle par le chercheur. La force du
 
contrôle peut se faire sur deux choses :
 
  - Manipulation : chercheur intervient et amène un changement ; il a un
 
   contrôle sur la variable dépendante. C’est le cas dans
 
   l’expérimentation et grâce à une telle constellation, le
 
   chercheur peut comparer le groupe expérimental et le groupe de
 
   contrôle.
 
  - Corrélationnel : chercheur ne contrôle pas ces paramètres donc
 
   libère au maximum la variation, on est face à une situation
 
   similaire pour la variable dépendante. Dans l’expérimentation, on a
 
   faible contrôle.
 
<nowiki>**</nowiki>Comment choisir son dessin de recherche ?**
 
Toujours en lien avec le pôle théorique de la recherche ; quelle cause à
 
contrôler ? Plusieurs dessins de recherche peuvent être pertinents et il
 
faut penser aux apports et aux limites de chaque dessin. Souvent, il est
 
conseiller de combiner des dessins de recherche (SELECTS).
 
Les dessins de recherche doivent être guidés par des théories sauf qu’on
 
est soumis à des contraintes temporelles, soumis à des contraintes
 
financières, soumis à nos propres compétences.
 
<nowiki>#</nowiki> Construction d’une recherche quantitative : des concepts aux mesures, un travail d’opérationnalisation
 
<nowiki>##</nowiki> Opérationnalisation : qu’est-ce que c’est ?
 
<nowiki>***</nowiki>L’opérationnalisation consiste à rendre les concepts mesurables***.
 
Il s’agit de passer d’un très haut niveau d’abstraction conceptuelle à
 
des indicateurs concrets adaptés à la recherche empirique. Par exemple,
 
comment mesurer la participation protestataire ? Ce concept abstrait
 
doit être, en plus ***de toutes les variables*** indépendantes
 
permettant de mesurer notre variable dépendante, opérationnalisés.
 
<nowiki>***</nowiki>Cette étape est très importante car elle constitue le point de relais
 
entre la théorie et l’empirie***.
 
A la base de chaque recherche sont des questions théoriques. Mais le but
 
de la recherche est de tester les hypothèses formulées ainsi que le
 
modèle théorique plébiscité. Pour se faire, le chercheur agit sur deux
 
axes distincts :
 
  - Il construit un ***dessin de recherche*** adapté et pertinent pour
 
   sa recherche.
 
  - Il ***opérationnalise*** tous les concepts afin de pouvoir les
 
   mesurer.
 
<!-- end list -->
 
  - ***Ces deux composantes centrales de toutes recherche font donc le
 
   pont entre la partie théorique et pratique***.
 
Dans toutes méthodes quantitatives, il faut toujours ***faire passer des
 
concepts au statut d’indicateur***, les mots au statut de chiffres.
 
Durant cette phase cruciale, il s’agit de concrétiser les concepts
 
théoriques imaginés en amont puisque ***les concepts théoriques
 
n’existent pas dans la réalité sociale \!*** Pour mesurer un concept
 
abstrait comme le racisme, le chercheur pose des questions préalablement
 
élaborées avec soin à des individus. En effet, demander directement aux
 
individus s’ils sont racistes ne produira, premièrement, pas de résultat
 
fiable à cause du biais de désirabilité sociale, mais surtout cette
 
question ne mesure pas le racisme, mais la possibilité d’exprimer le
 
racisme pour les individus. Ce travail de réflexion se fait en amont de
 
la recherche empirique afin qu’aucune maladresse ne puisse mettre en
 
péril la validité de la recherche.
 
<nowiki>##</nowiki> L’enjeux de l’opérationnalisation
 
L’opérationnalisation doit pouvoir permettre de tester ses hypothèses en
 
descendant dans l’échelle de l’abstraction. Les ***divers choix
 
effectués par le chercheur*** tout au long de sa recherche ont pour but
 
de conférer à la recherche un validité interne. Toutefois, aucun
 
résultat n’est accepté unanimement, justement à cause de ces choix
 
potentiellement discutables. De plus, il faut faire attention aux
 
erreurs de mesure pouvant remettre en question la validité de toute la
 
recherche. En effet, le chercheur doit réussir à ***combler de manière
 
adéquate le fossé existant entre théorie et empirie*** tout en prenant
 
en compte les ***différents niveaux d’abstraction*** de ses concepts.
 
Enfin, les données secondaires doivent être utilisées avec précaution,
 
l’indicateur devant parfaitement convenir à l’item étudié. En tant que
 
lecteurs, il faut toujours faire attention à la manière dont les
 
indicateurs sont sélectionnés.
 
« Les sociologues utilisent souvent des concepts qui sont formulés à un
 
niveau plutôt haut d’abstraction. Ils sont assez différents des
 
variables élaborées au niveau empirique. Le problème lié au fossé entre
 
la théorie et la recherche est celui de l’erreur de mesure ». (Blalock)
 
<nowiki>##</nowiki> Deux erreurs de mesure
 
Il existe ***deux types d’erreurs de mesure***, elle intervient soit au
 
<nowiki>***</nowiki>niveau théorique***, soit au ***niveau empirique***. Pour ce qui est
 
de la partie théorique, le chercheur doit faire attention à la validité
 
de sa mesure. Par exemple, conclure à une différence entre le pays X et
 
le pays Y sans prendre en compte les diverses techniques de contact
 
serait une erreur de mesure. De plus, le chercheur doit opérationnaliser
 
avec soin pour ne pas induire d’erreur au moment des mesures. Au niveau
 
empirique, la formulation des questions, la fiabilité des mesures ainsi
 
que la reproductibilité de la mesure doivent être considérés avec
 
attention pour ne pas induire d’erreur.
 
<nowiki>##</nowiki> Validité d’une mesure
 
<nowiki>***</nowiki>Pour qu’une mesure soit valide, elle doit utiliser des indicateurs
 
fiables permettant de mesure le concept étudié***.
 
  - Exemple d’une mesure valide : Utiliser la fréquence de participation
 
   aux votations et aux élections pour mesurer la participation
 
   conventionnelle.
 
  - Exemple d’une mesure non valide : Utiliser comme indicateur du
 
   bien-être individuel le salaire de l’individu \!
 
Mais comment faire en sorte de ne produire des mesures valides ? Cela
 
tient grandement à la rigueur de la démarche mais aussi à la créativité
 
du chercheur. ***Lazarsfeld a standardisé un processus de déconstruction
 
conceptuelle en quatre temps*** à cet effet :
 
1.  La première étape est conceptuelle : le chercheur part de concept
 
   abstrait, non directement mesurables. Souvent polysémique, ***le
 
   concept doit être défini précisément et de manière univoque***.
 
   Cette étape est cruciale car pour obtenir des mesures fiables, il
 
   faut être au clair avec le concept que l’on cherche à mesurer. Pour
 
   se faire, le chercheur doit s’aider de la littérature pour combler
 
   ses potentielles lacunes théoriques, mais aussi pour ne pas refaire
 
   un travail qui aurait déjà été préalablement effectué. Par exemple,
 
   le concept de compétence politique est défini de manière très variée
 
   selon les chercheurs \! Pour Dahl, il s’agit de l’autonomie du
 
   citoyen se structurant autour de la connaissance du champ politique
 
   et de la verbalisation de préférences claires, pour Kriesi, il
 
   s’agit de l’intérêt subjectif et objectif porté à la politique,
 
   pour Gaxie, la capacité à se situer dans l’univers politique...
 
   Ainsi, on voit que la définition du concept de base est cruciale. 

 
2.  La deuxième étape implique de ***spécifier les dimensions et les
 
   sous-dimensions du concept étudié***. En effet, un concept est
 
   toujours multidimensionnel. Ainsi, il s’agit d’identifier chaque
 
   facette du concept étudié et d’en extraire le sens de chacune. Pour
 
   les concepts simples, le chercheur décomposera son objet en
 
   dimensions telles que l’âge, le sexe, le lieu de
 
   résidence...
Toutefois, les concepts complexes seront eux
 
   décomposés en dimensions mais aussi en sous-dimensions pour rendre
 
   compte
de l’entier du phénomène. Mais
attention, tout comme pour le
 
   concept, chaque composante doit
être définie précisément et
 
   de
manière univoque. Cette étape est
très importante
 
   puisqu’elle
permet de ***descendre sur l’échelle de
 
   l’abstraction***. Sur ce schéma, on voit comment Gaxie a décomposé
 
   le concept de la participation politique, préalablement défini comme
 
   la capacité de se situer dans l’univers politique. 

 
3.  La troisième et ultime étape de la partie de l’opérationnalisation
 
   est celle de la ***sélection des indicateurs pertinents*** pour la
 
   recherche. Chaque dimension du concept peut être représentée par un
 
   ou plusieurs indicateurs. Un indicateur est une variable qui
 
   elle-même correspond à une mesure qui provient elle-même d’une
 
   question (Indicateur à Variable à Mesure à Question). Mais encore
 
   une fois, pour ce faire, le chercheur doit préalablement avoir
 
   parfaitement défini la (sous-)dimension en question. ***Un
 
   indicateur est créé par le chercheur afin de lui permettre de
 
   mesurer directement une dimension ou sous-dimension issue d’un
 
   concept abstrait***. C’est pourquoi il est toujours bien de mesurer
 
   un concept à l’aide de plusieurs indicateurs pour minimiser les
 
   risques d’erreur. Mais ***l’agencement des différents indicateurs
 
   sélectionnés par le chercheur doivent ensemble reconstituer le
 
   concept \! Ainsi, le nombre d’indicateurs ne doit pas être trop
 
   petit pour éviter tout effet discriminant***. Le chercheur doit donc
 
   sélectionner les bons indicateurs conférant à sa recherche une
 
   validité et une cohérence interne. Les deux questions ci-jointes
 
   sont issues d’un sondage ayant pour but de mesurer l’islamophobie.
 
   Toutefois, on remarque qu’elles consistent en de très mauvais
 
   indicateurs \! Premièrement car le concept très complexe de
 
   l’islamophobie est ici saisi au travers de seulement deux
 
   indicateurs, mais aussi parce que la seconde question a grandement
 
   influencé la réponse des femmes, voulant défendre leurs droits.
 
Ainsi, ***cette étape pose la question du nombre d’indicateurs
 
nécessaires pour rendre compte au mieux de la réalité mais aussi de la
 
manière de poser les questions pour que celles-ci suscitent les réponses
 
attendues***.
 
Ces trois étapes représentent l’opérationnalisation, pouvant être
 
définie comme une toujours plus grande descente dans l’échelle de
 
l’abstraction. Alors qu’elles interviennent en amont de la recherche,
 
avant la partie empirique, la quatrième étape du processus mis en place
 
par Lazarsfeld s’effectue en aval de la recherche, après la récolte des
 
données.
 
4.  Enfin, c’est lors de la quatrième étape que le chercheur ***forme
 
   ses indices***. Il s’agit pour le chercheur de reconstruire les
 
   dimensions de ses concepts après la récolte des données. C’est
 
   lors
de cette étape que le chercheur crée des échelles d’indices,
 
   lui permettant d’effectuer une analyse factorielle. Cette étape fait
 
   le chemin inverse des trois précédentes puisqu’il s’agit de remonter
 
   l’échelle de l’abstraction et ce, pour s’assurer que les indicateurs
 
   pris rendent bien compte du concept premier.
 
<nowiki>##</nowiki> Sélection des indicateurs
 
<nowiki>###</nowiki> Ultime étape de l’opérationnalisation
 
Il faut se demander si on prend un ou plusieurs indicateurs pour une
 
dimension. Il faut identifier des indicateurs pour chacune de nos
 
dimensions puisque chaque dimension est mesurée par des indicateurs
 
précis. Pour faire un bon travail, on dépend du travail en amont (étape
 
1 et 2). Il faut être bien au clair sur le sens de la dimension et si le
 
sens reste ambigu, cela veut dire qu’il y a encore d’autres dimensions
 
qui se cachent derrière donc il faut revenir à l’étape 2. Ce n’est pas
 
un processus linéaire mais bien circulaire qui englobe des
 
allers-retours \!
 
Si la dimension est clair, il faut 2 clés :
 
  - Notre inventivité et la tester
 
  - Reprendre des mesures élaborées par d’autres chercheurs
 
Pour arriver à une validité interne, il faut plusieurs indicateurs. Il
 
faut des concepts latents. Toutefois, la relation entre indicateurs et
 
concepts reste probabiliste, c’est-à-dire qu’il ne couvre jamais
 
entièrement le concept. Un indicateur indique et ce n’est pas une
 
reproduction parfaite. Chaque indicateur doit avoir la même relation à
 
la dimension. Dans l’idéal, ils pourraient devenir interchangeables. En
 
théorie c’est facile mais pas en réalité. Un indicateur indique toujours
 
un aspect d’une dimension c’est pour cela qu’il en faut plusieurs. Si on
 
met ensemble tous les items d’une dimension, on peut reconstruire
 
empiriquement un concept.
 
La règle de base pour le choix des indicateurs : plus d’indicateurs
 
mieux c’est mais pas trop. Moins il y a d’indicateurs, plus on a d’effet
 
discriminant.
 
Exemple avec l’islamophobie : les chercheurs ont pris deux indicateurs
 
pour indiquer l’islamophobie ; autoriser les pratiques religieuses en
 
Suisse et le port du voile. Le problème avec le second indicateur est
 
que les femmes soient plus islamophobes. Mais au final, le sont-elles
 
vraiment ou est-ce un effet de mesure ? Dans ce cas, la multiplication
 
des indicateurs aurait été souhaitable surtout qu’ici, on est face à un
 
concept complexe.
 
Un 2<nowiki><sup>ème</sup></nowiki> effet discriminant est quand 2 indicateurs produisent
 
deux résultats différents. On est face à une discrimination voulue parce
 
qu’on veut créer de la variation entre individus.
 
<nowiki>**</nowiki>Comment éviter ou produire ces effets discriminants ?**
 
Avec des données primaires, on peut faire des pré-test tandis que pour
 
les données secondaires, il faut passer impérativement par l’analyse
 
descriptive avant de les mettre en relation. On va voir ainsi comment
 
notre variable est distribuée selon les réponses et cela va juger la
 
qualité de notre indicateur.
 
<nowiki>**</nowiki>En résumé**
 
Pour les concepts simples ou périphériques, un indicateur suffit. Par
 
exemple : l’âge, si ce n’est pas un concept clé dans notre recherche, un
 
indicateur suffit.
 
Pour les concepts complexes et centraux, il faut plusieurs indicateurs
 
comme la compétence politique. Attention à la variable dépendante \! Il
 
faut faire attention à l’opérationnalisation et on prend rarement le
 
risque d’avoir qu’un indicateur pour la variable dépendante. Pour les
 
causes principales, on prend rarement qu’un seul indicateur.
 
  - Ainsi, l’opérationnalisation, c’est une descente dans l’échelle
 
   d’abstraction \!
 
<nowiki>##</nowiki> Formation des indices
 
Elle se fait après la récolte des données au moment de l’analyse. La
 
formation d’indices et la reconstruction du concept à partir des
 
indicateurs. On va faire la synthèse des indicateurs pour chaque concept
 
et c’est une étape qui se déroule après la récolte des données au moment
 
de l’analyse. Concrètement, on construit une mesure unique à partir de
 
ces informations numériques car au moment de l’analyse, on veut
 
travailler avec nos concepts et tester nos relations causales. On
 
construit nos concepts à la base de plusieurs indicateurs et on peut
 
apprendre différentes techniques (additionner). Attention \! cette étape
 
de la formation des indices n’est pas toujours nécessaire. Si nos
 
indicateurs mesurent la même chose, on peut en prendre qu’un seul \!
 
Pour la formation des indices, on prend les résultats et on monte en
 
abstraction pour mettre nos concepts en relation.
 
Opérationnalisation a un intérêt vital pour la théorie car elle permet
 
d’avoir une implication de la théorie et de l’empirie en spécifiant
 
les cadres théoriques. Cela permet d’éviter les deux mesures majeures ;
 
la **fiabilité** et la **validité**. La validité de la fiabilité permet
 
de juger de la qualité de nos mesures. La validité est la manière dont
 
on juge l’opérationnalisation d’un point de vue théorique. Une mesure
 
non-valide est celle qui ne mesure pas le concept qu’on a voulu mesure.
 
L’idée de la validité est simple mais difficile à réaliser ; elle dépend
 
directement du travail d’opérationnalisation. S’il n’est pas fait de
 
manière rigoureuse, on a de fortes chances d’avoir des mesures
 
non-valides.
 
Exemple : mesurer la participation politique en suisse avec un
 
indicateur de participation, il manque le pan de votation ou le pan de
 
la participation protestataire.
 
<nowiki>##</nowiki> Deux erreurs de mesure
 
La fiabilité est liée à la formulation et l’élaboration des questions.
 
Double stimuli (inputs)
 
Imprécision (jamais de question avec un « ou »)
 
Jamais bien de supposer les pratiques mais directement les demandées
 
parce que si on le suppose, les gens pensent qu’ils sont censés le faire
 
et ne répondent pas comment c’est effectivement.
 
On voit que la validité se situe au niveau de l’opérationnalisation même
 
donc au processus qui lie les concepts aux indicateurs pendant que la
 
fiabilité regarde le lien entre les indicateurs et la question.
 
Conséquence de ces erreurs : introduisent des biais qui peuvent être
 
systématiques (confronté à un problème de validité), les biais
 
systématiques sont des erreurs qui ont une structure et ne sont pas
 
distribuées au hasard. Elles ne sont pas intégrées dans les analyses en
 
termes d’erreur. Le biais systématique implique souvent un problème de
 
validité même s’il y a des problèmes de fiabilité qui sont de cette
 
nature mais ils sont plus rares.
 
Lien entre fiabilité et visibilité : pour avoir une mesure valide, elle
 
doit être fiable mais le contraire n’est pas forcément le cas. La
 
fiabilité est une condition nécessaire mais pas suffisante pour juger de
 
la robustesse de la mesure.
 
Pour faire un bon travail d’opérationnalisation et maximiser la
 
validité, il faut des concepts clairs, une déconstruction maximale des
 
concepts on multiple les indicateurs pour éviter les effets
 
discriminants. Ce travail d’opérationnalisation est très important car
 
il nous permet de nous approche de la réalité.
 
<nowiki>#</nowiki> Méthode statistique : introduction
 
L’analyse de données est souvent décrite comme étant formée de deux
 
pôles :
 
  - Statistiques *descriptives *: résumer ensemble de données, trouver
 
   des astuces pour montrer des éléments importants sans regarder les
 
   données unes à unes (résumé, graphique). Lorsqu’on va aller plus
 
   loin, on s’appuie sur la partie descriptive, souvent visuel, pour
 
   pouvoir émettre des questions. Puis, on pourrait peut-être faire des
 
   liens entre les données et si tel est le cas, on va généraliser et
 
   on va parler *d’ingérence statistique.*
 
<nowiki>##</nowiki> La statistique exploratoire (descriptive)
 
  - Simples à comprendre
 
  - S’appliquent à beaucoup de données (flexibles)
 
  - Se basent sur des représentations graphiques
 
Elle étudie la « structure » de groupe de données, détecte les
 
tendances, les formes, les observations atypiques… Elle suggère des
 
<nowiki>*</nowiki>hypothèses de travail* et des modèles qui peuvent être formalisées et
 
vérifiées dans le deuxième pôle.
 
<nowiki>##</nowiki> L’inférence statistique
 
Elle conduit à des conclusions statistiques à partir de données en
 
utilisant des notions de la théorie des probabilités. Cette partie
 
s’occupe des méthodes de test et d’estimation.
 
Nous en tant qu’étudions, on est un échantillon de la population qui est
 
l’ensemble de la population de l’université de Lausanne. La statistique
 
référentiel part de l’échantillon puis on se demande si on peut
 
l’extrapoler à tous les étudiants mais dans une certaine mesure. Il
 
faut faire attention en indiquant la marge d’erreur (fiabilité de passer
 
à un sous-ensemble (échantillon) à une population complète). L’inférence
 
statistique, on va donner des notions de fiabilités, une mesure de
 
confiance, quelle est la confiance qu’on apporte dans l’extrapolation.
 
<nowiki>##</nowiki> Vocabulaire
 
| **Unité statistique**    | Le plus petit sur lequel on porte l’analyse statistique                                                                                                                                                                                                                                   |
 
| ------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
 
| **Variable statistique** | Caractéristique d’une unité statistique                                                                                                                                                                                                                                                   |
 
| **Modalités**            | Valeurs distinctes que prend une variable statistique ; différentes valeurs possibles prises par une variable statistiques. Par exemple la variable statistique cheveu et unité étudiant, on peut avoir plusieurs couleurs pas en fonction de la couleur de cheveux de notre échantillon. |
 
| **Population**           | Ensemble sur lequel on porte une étude statistique ; ce sur quoi porte l’étude                                                                                                                                                                                                            |
 
| **Echantillon**          | Sous-ensemble de la population                                                                                                                                                                                                                                                            |
 
| **Paramètre**            | Une mesure calculée sur la population entière                                                                                                                                                                                                                                             |
 
| **Statistique**          | Une mesure calculée sur un échantillon (tiré d’une population)                                                                                                                                                                                                                            |
 
<nowiki>#</nowiki> Niveaux d’analyse et graphiques : Analyse des données et interprétation
 
<nowiki>##</nowiki> Informations
 
L’analyse quantitative offre une multitude d’outils mais il faut
 
sélectionner les outils en fonction de notre recherche. D’autant plus,
 
on peut avoir beaucoup de données à disposition donc il faut à nouveau
 
les sélectionner. Le sujet de recherche qui nous intéresse peut être
 
relativement complexe et par conséquent, il faut passer par différents
 
schémas et trouver un résumé à cela. Ainsi, il y a beaucoup
 
d’informations, d’outils et d’hypothèses. On s’en sort en travaillant
 
méthodiquement et en allant du plus simple au plus complexe.
 
Exemple : les données EMS / Article ADL
 
Il s’agit d’une étude sur des personnes âgées dans les EMS et on
 
s’intéressait à connaître leur activité journalière (question
 
genrée). Question : qu’est-ce qui impacte les activités journalières de
 
ces personnes âgées ? Est-ce que c’est l’âge, une forte corrélation avec
 
le genre ? Comment l’analyser ?
 
<nowiki>##</nowiki>
 
<nowiki>##</nowiki> Niveaux d’analyse
 
Une analyse de données doit toujours aller du plus simple au plus
 
compliqué :
 
  - Analyse **univariée **: on ne regarde qu’une variable et on
 
   l’explique
 
  - Analyse **bivariée **: on regarde deux variables (qui peuvent être
 
   en relation) ; est-ce que le genre est associé au niveau d’activité
 
   des personnes ?
 
  - Analyse **multivariée** **(modèle final) **: On teste les relations
 
   entre plusieurs variables pour obtenir un modèle qui va essayer
 
   d’intégrer les autres variables nous paraissant pertinent. Le
 
   modèle final ne signifie pas qu’on prend toutes les variables mais
 
   on va sélectionner les meilleurs apports pour expliquer.
 
<!-- end list -->
 
  - Chaque étape est liée dans le sens où elle apporte des informations
 
   pour continuer à l’étape suivante.
 
Exemple : article ADL
 
  - Analyse univariée : table 1, colonné « Overall % »
 
  - Analyse bivariée : Table 1, colonne « Male % », « Females % » et
 
   « p » : mise en relation de chaque variable avec le genre afin de
 
   déterminer si la distribution de la variable est associée au genre
 
   ou non.
 
  - Analyse multivariée : Table 6.
 
<nowiki>##</nowiki> Variables et modalités
 
Une *variable* est une caractéristique d’une unité statistique. Elle est
 
créée par la réponse donnée à une question. La variable « nationalité »
 
est créée en réponse à la question « quelle est votre nationalité ? ».
 
Les différentes « valeurs » possibles d’une variable, qu’elles soient
 
numériques ou non, constituent ses *modalités*.
 
<nowiki>###</nowiki> Types de variables
 
Il existe différents types de variables. Une classification habituelle
 
utilise les 4 catégories suivantes :
 
1.  **Variables qualitatives – catégorielles** :
 
   
 
   1.  <nowiki><span class="underline">Nominales </span></nowiki>: couleur des cheveux
 
       (pas un nombre \!)
 
   
 
   2.  <nowiki><span class="underline">Ordinales </span></nowiki>: il n’y a pas d’ordre
 
       parce que la couleur brune ne peut être supérieur à la couleur
 
       blonde. Lorsque je peux introduire un ordre (mauvais, moyen,
 
       bon, très bon), je vais les appeler les variables catégorielles
 
       ordinales.
 
2.  **Variables quantitatives – numériques **:
 
   
 
   1.  <nowiki><span class="underline">Discrètes </span></nowiki>: on peut les compter
 
       (décimal)
 
   
 
   2.  <nowiki><span class="underline">Continues </span></nowiki>: on peut avoir toutes
 
       les valeurs possibles sur un certain intervalle. Ce sont des
 
       variables comme le poids, la taille, la distance (toutes valeurs
 
       possibles mêmes avec virgule).
 
<!-- end list -->
 
  - Outils à disposition dépend du type de variable \! Certains outils
 
   sont polyvalents mais la plupart du temps, on fait attention.
 
Exemple : article ADL
 
  - Genre : variable qualitative nominale (dichotomique) ; il n’y a pas
 
   une notion d’ordre
 
  - Vision (taux de vision) : valeur ordinale parce que ce sont des
 
   modalités entre mauvais, moyen, bien, très bien.
 
  - Années d’entrées en EMS : variables discrète (peu d’années d’entrée)
 
  - MSD- ADL, long term scale : peut être considérée comme une variable
 
   continue
 
<nowiki>###</nowiki> Echelles d’intervalle et de rapport
 
Les variables numériques sont parfois aussi catégorisées comme échelles
 
d’intervalle et échelles de rapport. Comme dans la définition
 
précédente, les écarts séparant les valeurs successives d’une échelle
 
sont tous égaux. La différence entre intervalle et rapport réside dans
 
le rôle du zéro :
 
  - **Echelle intervalle **: Il n’y a pas de zéro absolu : son choix est
 
   une convention arbitraire.
 
Exemple : température en degré Celsius.
 
  - **Echelle de rapport **: Il y a un zéro absolu, non-arbitraire.
 
Exemple : Température en degrés Kelvin. Evaluation d’un trait
 
psychologique sur une échelle de 0 à 10. Temps de réaction.
 
<nowiki>###</nowiki> Distributions et fréquence
 
  - La **distribution d’une variable** est la liste de toutes les
 
   modalités (ou catégories de modalités) d’une variable avec leurs
 
   fréquences respectives.
 
  - La **fréquence d’une modalité** (ou effectif) est le nombre de
 
   personnes prenant cette modalité dans l’échantillon ou dans la
 
   population.
 
  - La **fréquence relative d’une modalité** est la proportion des
 
   données prenant cette modalité. Elle est exprimée soit sur une base
 
   de 100 (pourcentage) soit sur une base de 1.
 
<nowiki>###</nowiki> Analyse univariée
 
L’analyse univariée cherche avant tout à déterminer deux
 
caractéristiques de la distribution d’une variable :
 
  - Le centre (tendance centrale)
 
  - La dispersion (variabilité)
 
Pour cela, deux catégories d’outils sont mobilisées :
 
  - Les graphiques
 
  - Les résumés numériques
 
<nowiki>##</nowiki> Graphiques
 
<nowiki>###</nowiki> Généralités
 
Un graphique statistique doit représenter le plus fidèlement possible la
 
distribution d’une variable. **Principe de proportionnalité** : chaque
 
modalité est représentée par une surface proportionnelle à la fréquence
 
(relative) de cette modalité (si on augmente la taille, il faut prendre
 
garde à mettre en rapport la proportionnalité). Pour qu’un graphique
 
soit de bonne qualité, les points suivants doivent être considérées :
 
  - Clarté
 
  - Précision
 
  - Bien documenté (titre, légende)
 
  - Respect du principe de proportionnalité
 
<nowiki>##</nowiki> Principaux types de graphiques
 
Graphiques pour données catégorielles :
 
  - Graphique en barres
 
  - Graphique circulaire
 
Graphiques pour données numériques :
 
  - Histogramme
 
  - Diagramme en ligne (pour série temporelle)
 
  - Box-plot (basé sur des résumés numérisés)
 
Graphiques pour la relation entre deux variables :
 
  - Carré unitaire (variables catégorielles)
 
  - Diagramme de dispersion (variables numériques)
 
<nowiki>###</nowiki> Graphique en barres
 
Chaque modalité est représentée par une barre dont la hauteur est
 
proportionnelle à la fréquence (relative) de la modalité. Chaque barre a
 
la même largeur et est souvent séparée des autres barres par un espace.
 
Dans le cas d’une variable ordinale, les modalités doivent être placés
 
dans l’ordre sur le graphique. C’est le graphique à tout faire de la
 
statistique. Il peut s’adapter pratiquement à n’importe quelle variable
 
(salaire médian, taux de chômage, violence domestique…)
 
<nowiki>###</nowiki> Graphique circulaire
 
Un cercle ou un demi-cercle est découpé en autant de secteurs qu’il y a
 
de modalités à représenter. La surface de chaque secteur est
 
proportionnelle à la fréquence (relative) de la modalité qu’il
 
représente. Ce type de graphique est particulièrement adapté à la
 
représentation de distributions de pourcentages (répartition des
 
travailleurs étrangers en Suisse…).
 
<nowiki>###</nowiki> Histogramme
 
L’histogramme est le graphique type pour les variables numériques. Les
 
modalités de la variable sont au préalable réparties en nombre fini de
 
classes. Il n’y pas d’écart entre les classes : la valeur finale d’une
 
classe est la même que la valeur initiale de la classe suivant. La
 
classe à laquelle appartiennent réellement ces valeurs limites est
 
choisie arbitrairement. Les différentes classes sont placés sur l’axe
 
horizontal du graphique et un rectangle dont la surface est
 
proportionnelle à la fréquence (relative) de la classe est construit
 
au-dessus de chaque classe.
 
<nowiki>###</nowiki> Classes de l’histogramme
 
De manière générale, le nombre de classe ne devrait pas être plus grand
 
que \(\sqrt{n}\) où *n* est le nombre d’observations. Il y a 2 grandes
 
principes pour déterminer les classes :
 
1.  Toutes les classes ont la même amplitude (largeur).
 
<!-- end list -->
 
  - On divise l’étendue des données par le nombre de classe désiré.
 
<!-- end list -->
 
2.  Toutes les classes ont la même fréquence.
 
<!-- end list -->
 
  - On ajuste les limites des classes pour que le nombre d’observations
 
   soit assez similaire d’une classe à l’autre.
 
  - **Un histogramme s’interprète en termes de surfaces et non de
 
   hauteurs \!**
 
<nowiki>###</nowiki> ![](./media/image2.png)Diagramme en ligne
 
Le diagramme en ligne permet de représenter l’évolution au fil du temps
 
d’une variable numérique. La référence temporelle est placée sur un axe
 
(généralement l’axe horizontal) et les valeurs observées sont placées
 
sur l’autre axe. Les points représentants chaque observation sont reliés
 
de manière à mettre en évidence l’évolution dans le temps.
 
<nowiki>#</nowiki> Analyse univariée : Analyse des données et interprétation
 
<nowiki>##</nowiki> Introduction
 
<nowiki>###</nowiki> Caractéristiques d’une distribution
 
  - Les deux caractéristiques essentielles d’une distribution univariée
 
   sont :
 
   
 
     - La tendance centrale
 
   
 
     - La dispersion
 
D’autres caractéristiques peuvent se révéler importantes :
 
  - La symétrie
 
  - L’aplatissement
 
Les résumés numériques sont l’outil le plus utilisé pour analyser ces
 
caractéristiques (minimum, maximum, milieu). Comment jouer là-dessus
 
pour mieux décrire la distribution ?
 
<nowiki>###</nowiki> Relation entre centre et dispersion
 
Les notions de tendance centrale et de dispersion sont indissociables,
 
car la connaissance de l’une sans l’autre peut amener à des confusions
 
et des erreurs d’interprétation.
 
<nowiki>###</nowiki> Résumés numériques
 
Un résumé numérique (ou chiffre clé) est une statistique résumant par
 
une seule valeur une notion complexe. Un bon résumé numérique devrait
 
avoir les caractéristiques suivantes (conditions de Yule) :
 
  - Etre objectif
 
  - Tenir compte de toutes les observations
 
  - Avoir une signification concrète, être simple à interpréter.
 
  - Etre simple à calculer
 
  - Etre peu sensible aux fluctuations de l’échantillonnage : si on
 
   prend deux échantillons différents, on aura des valeurs différentes.
 
   Comment faire pour qu’elles soient moins différentes ?
 
  - Se prêter à des calculs algébriques ultérieures : on aime bien
 
   travailler avec la variance mais en termes d’interprétation, on
 
   préfère travailler avec l’écart-type.
 
<nowiki>##</nowiki> Tendance centrale
 
<nowiki>###</nowiki> Mode d’une distribution
 
Le mode d’une distribution est la modalité la plus fréquente de
 
celle-ci. Le mode peut se calculer sur n’importe quel type de variable.
 
Il n’est pas intéressant pour des variables prenant un grand nombre de
 
modalités différentes.
 
<nowiki>**</nowiki>Le mode n’est pas forcément unique et il ne représente pas forcément
 
le centre \!**
 
Exemple : échantillon de 30 personnes (4, 4, 8, 12, 15, 32, 40 etc). Le
 
mode de la distribution est la valeur de 40 heures, c’est-à-dire la plus
 
grande valeur observée \!
 
<nowiki>###</nowiki> Médiane
 
Dans le cas des salaires, une moyenne a l’habitude d’être sensible aux
 
données extrêmes et donc elle aurait la tendance d’aller vers les
 
salaires élevés.
 
La médiane d’une distribution est la valeur telle que 50% des données
 
sont plus petites qu’elle et 50% des données sont plus grande qu’elle.
 
Elle ne se calcule que sur des variables dont les modalités ont un ordre
 
(ordinales ou numérique).
 
Trois étapes pour le calcul :
 
1.  Classer les observations par ordre croissant
 
2.  Calculer le rang (position) de la médiane :
 
> rang (med(x)) = **<nowiki><span class="underline">n + 1</span></nowiki>**
 
>
 
> **2**
 
3.  Trouver la médiane
 
<nowiki>**</nowiki>Si le rang n’est pas entier, la médiane est la moyenne de deux
 
observations entourant le rang de la médiane \!**
 
Exemple : nombre d’heures hebdomadaires de travail
 
<nowiki>**</nowiki>Rang de la médiane **: ![](./media/image3.emf)
 
La médiane est la moyenne entre les 15<nowiki><sup>ème</sup></nowiki> et 16<nowiki><sup>ème</sup></nowiki>
 
<nowiki>observations par ordre croissant : ![](./media/image4.emf)</nowiki>
 
<nowiki>###</nowiki> Moyenne arithmétique
 
La moyenne arithmétique se calcule comme :
 
![](./media/image5.emf)
 
  - La moyenne ne se calcule que sur de vraies variables numériques. Une
 
   variable catégorielle recodée sous forme numérique n’est une vraie
 
   variable numérique \!
 
Exemple : nombre d’heures hebdomadaires de travail
 
<nowiki>###</nowiki> Médiane VS moyenne
 
![](./media/image6.emf)
 
La médiane est une notion de centre par rapport au nombre de données,
 
alors que la moyenne est une notion d’équilibre.
 
Par ailleurs, la médiane est robuste (insensible aux données extrêmes =
 
ne change pas), alors que la moyenne est non-robuste (facilement
 
influencée par les données extrêmes).
 
Exemple : salaire mensuel en France
 
Données du 4<nowiki><sup>ème</sup></nowiki> trimestre 2013 en France dans le secteur
 
privée. Typiquement, il y a quelques salaires qui sont excessivement
 
élevés faisant en sorte d’élever la moyenne des salaires tandis que la
 
médiane n’est pas influencée par des éléments externes.
 
<nowiki>##</nowiki> Dispersion
 
<nowiki>###</nowiki> Qu’est-ce que la dispersion ?
 
La dispersion est une notion de répartition des observations les unes
 
par rapport aux autres. Plus la dispersion est grande, plus observations
 
différentes les unes des autres. Telle que vue dans ce cours, la
 
dispersion s’applique avant tout aux variables numériques, mais il
 
existe une mesure de dispersion adaptée aux données catégorielles :
 
l’entropie. C’est un terme venant de la théorie de l’information.
 
<nowiki>###</nowiki> L’étendue d’une dispersion
 
Le minimum et le maximum représentent les valeurs limites d’une
 
variable. Ils n’existent pas lorsqu’une variable peut prendre des
 
valeurs allant jusqu’à plus au moins l’infini. On peut distinguer entre
 
le minimum et le maximum théoriques d’une variable et les valeurs
 
minimales et maximales réellement observées.
 
Exemple : nombre d’heures hebdomadaires de travail
 
Sur l’échantillon considéré, le minimum vaut 4 heures et le maximum 40
 
heures. Sur un plan théorique, le minimum possible pour cette variable
 
est de 0 heure et le maximum est de 168 (nombres d’heures possibles par
 
semaine), même si cette dernière valeur ne sera que difficilement
 
atteinte. Dans cet exemple, la valeur maximale théorique peut aussi
 
dépendre des lois en vigueur dans le pays considéré.
 
<nowiki>###</nowiki> Quartiles
 
Les quartiles complètent la médiane en divisant le nombre de données en
 
4 groupes plutôt que 2. Le premier quartile noté q1 et tel que 25% des
 
données sont plus petites que lui. Le troisième quartile noté q3 est tel
 
que 75% des données sont plus petites que lui. Le calcul des quartiles
 
se fait comme celui de la médiane, mais les rangs (positions) se
 
calculent comme suit :
 
![](./media/image7.emf)
 
Si les rangs ne sont pas des nombres entiers, on approxime la valeur des
 
quartiles par interpolation linéaire.
 
<nowiki>###</nowiki> Définitions
 
Pour l’interpolation linéaire, il faut introduire de nouvelles
 
définitions :
 
Considérons une seule variable mesurée sur *n* observations
 
![](./media/image8.emf)
 
<nowiki>**</nowiki>Définition **: La statistique d’ordre d’un échantillon est donnée par
 
les valeurs de l’échantillon ordonnées de la plus petite à la plus
 
<nowiki>grande. Elle est notée : ![](./media/image9.emf)</nowiki>
 
<nowiki>**</nowiki>Définition **: Le quantile d’ordre ![](./media/image10.emf)est une
 
valeur telle que ![](./media/image10.emf)% des données sont inférieures
 
et (100 - ![](./media/image10.emf))% des données sont supérieures.
 
<nowiki>**</nowiki>Les quartiles sont donc les quantiles d’ordre 25 (1<nowiki><sup>er</sup></nowiki>
 
quartile), 50 (médiane) et 75 (3<nowiki><sup>ème</sup></nowiki> quartile)**
 
<nowiki>###</nowiki>
 
<nowiki>**</nowiki>Calcul d’un quantile**
 
1)  Ranger les données par ordre croissant (=statistiques d’ordre)
 
2)  Calculer le rang *r* = ![](./media/image11.emf)
 
3)  Trouver la valeur correspondante au rang :
 
   
 
   1.  Si *r* est entier, il s’agit de la r-ième valeur (des
 
       statistiques d’ordre)
 
   
 
   2.  Si *r* n’est pas entier, la valeur est :
 
       ![](./media/image12.emf)
 
<nowiki>Notation : Si \[r\] et \[r\] désignent respectivement la partie entière</nowiki>
 
inférieure et supérieure de *r*.
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> Boxplot
 
Le boxplot, ou résumé à 5 valeurs, est un graphique simplifié de la
 
distribution d’une variable.
 
![](./media/image13.emf)
 
Entendue : différence entre maximum et minimum (sur quelle plage nos
 
données sont distribuées)
 
Ecart interquartile : différence entre le 1<nowiki><sup>er</sup></nowiki> et le
 
3<nowiki><sup>ème</sup></nowiki> quartile : lorsque j’ai éliminé de mes données les 25%
 
des plus petites et grandes, j’ai toutes les données comprises entre le
 
1<nowiki><sup>er</sup></nowiki> et le 3<nowiki><sup>ème</sup></nowiki> quartile.
 
<nowiki>###</nowiki> Schematic plot
 
C’est une variante du boxplot dans laquelle les données extrêmes
 
(petites et grandes) ne sont pas intégrées dans le graphique, mais sont
 
représentées séparément. Dans certains cas, les données extrêmes sont
 
même totalement absentes du graphique.
 
<nowiki>###</nowiki> Variance
 
La variance est la moyenne de la somme des carrées des écarts à la
 
moyenne.
 
La variance est calculée comme :
 
| **Population**           | **Echantillon**          |
 
| ------------------------ | ------------------------ |
 
| ![](./media/image14.emf) | ![](./media/image15.emf) |
 
La variance prend des valeurs allant de 0 à l’infini. La valeur 0
 
indique une totale absence de variation : toutes les valeurs observées
 
sont identiques. Plus la variance est grande, plus les valeurs sont
 
dispersées, c’est-à-dire différentes les unes des autres. La variance ne
 
s’exprime pas dans la même unité que les données observées.
 
  - Elle est difficilement à interpréter / trouver mathématiquement mais
 
   difficile à interpréter empiriquement.
 
<nowiki>###</nowiki> Ecart-type
 
L’écart type est défini comme la racine carrée de la variance :
 
| **Population**           | **Echantillon**          |
 
| ------------------------ | ------------------------ |
 
| ![](./media/image16.emf) | ![](./media/image17.emf) |
 
Il s’interprète de manière similaire à la variance mais avec l’avantage
 
de s’exprimer dans la même unité que les données observées. L’écart-type
 
représente la distance typique que l’on s’attend à observer entre
 
n’importe quelle donné de l’échantillon et la moyenne de celui-ci.
 
<nowiki>###</nowiki> Coefficient de variation
 
Le coefficient de variation est une mesure de dispersion relative,
 
utilisée pour décrire la précision d’une valeur estimative.
 
  - La valeur et l’écart-type ont le désavantage d’être influencés par
 
   l’ordre de grandeur des données observées.
 
  - Le coefficient de variation est une mesure de **dispersion
 
   relative**, indépendant de l’unité de mesure :
 
![](./media/image18.emf)
 
  - Il permet de comparer la dispersion de variables mesurées dans des
 
   unités totalement différents les unes des autres.
 
Exemple : nombre d’heures hebdomadaires de travail
 
<nowiki><table></nowiki>
 
<thead>
 
<nowiki><tr class="header"></nowiki>
 
<nowiki><th>Vu comme</th></nowiki>
 
<nowiki><th>Une <strong>population</strong></nowiki><nowiki></th></nowiki>
 
<nowiki><th>Un <strong>échantillon</strong></nowiki><nowiki></th></nowiki>
 
<nowiki></tr></nowiki>
 
</thead>
 
<tbody>
 
<nowiki><tr class="odd"></nowiki>
 
<nowiki><td></nowiki><nowiki><strong>Moyenne</strong></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><img src="./media/image19.emf" style="width:0.69068in;height:0.26111in" /></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><img src="./media/image20.emf" style="width:0.66597in;height:0.24447in" /></nowiki><nowiki></td></nowiki>
 
<nowiki></tr></nowiki>
 
<nowiki><tr class="even"></nowiki>
 
<nowiki><td></nowiki><nowiki><strong>Variance</strong></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><p><img src="./media/image21.emf" style="width:2.75625in;height:0.27022in" /></nowiki><nowiki><img src="./media/image22.emf" style="width:0.86042in;height:0.24583in" /></nowiki><nowiki></p></nowiki>
 
<nowiki><p><img src="./media/image23.emf" style="width:0.94375in;height:0.16154in" /></nowiki><nowiki></p></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><img src="./media/image24.emf" style="width:0.86736in;height:0.17347in" /></nowiki><nowiki></td></nowiki>
 
<nowiki></tr></nowiki>
 
<nowiki><tr class="odd"></nowiki>
 
<nowiki><td></nowiki><nowiki><strong>Ecart-type</strong></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><img src="./media/image25.emf" style="width:1.9125in;height:0.27945in" /></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><img src="./media/image26.emf" style="width:0.74236in;height:0.19987in" /></nowiki><nowiki></td></nowiki>
 
<nowiki></tr></nowiki>
 
<nowiki><tr class="even"></nowiki>
 
<nowiki><td></nowiki><nowiki><strong>Coefficient variation</strong></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki></td></nowiki>
 
<nowiki><td></nowiki><nowiki><img src="./media/image27.emf" style="width:0.88958in;height:0.35583in" /></nowiki><nowiki></td></nowiki>
 
<nowiki></tr></nowiki>
 
</tbody>
 
<nowiki></table></nowiki>
 
<nowiki>#</nowiki> Collecte des données : Introduction Enjeux de la collecte et types de données
 
On laisse derrière nous le pôle méthodologique où on a établi un dessin
 
de recherche adéquat et on a opérationnalisé nos concepts afin de le
 
rendre réalisable. On va porter notre attention sur la récolte de
 
données individuelless en passant par le sondage qui sera l’outil
 
principal.
 
![](./media/image28.emf)
 
L’enjeu principal dans la récolte de données est d’arriver à être
 
systématique. Les données sont des éléments d’information qui sont
 
récoltés de façon systématique que ce soit sous forme quantitative ou
 
qualitative. Ceci est également exprimé dans la citation de King et
 
all. :
 
« Data are systematically collected elements of information about the
 
world ». (1994)
 
<nowiki>##</nowiki> Enjeux de la collecte de données
 
<nowiki>###</nowiki> Récolte systématisée
 
Il est nécessaire de trouver des supports qui permettent une telle
 
systématicité et d’éviter des biais potentiels. Par exemple, si on veut
 
connaître le volume de participants aux manifestations de rue, on se
 
rend compte que les chiffres varient selon la source (police,
 
organisateurs de la manifestation, médias). Il existe toujours
 
différentes stratégies possibles pour en rendre compte sauf qu’il est
 
important de justifier notre choix de source de données.
 
Une stratégie pour faire une collecte systématique est de prendre
 
systématiquement la même source d’information. Une autre serait de
 
faire une moyenne des sources disponibles. Le point essentiel est
 
d’avoir toujours le même indicateur dans l’espace et dans le temps
 
sinon la collecte n’est pas systématique. Ceci est facile en théorie
 
mais en pratique, ce n’est pas toujours possible. Dans la pratique, il
 
faut essayer de minimiser deux types de biais :
 
  - Biais aléatoires ou structurels
 
  - Biais systématiques : variations structurelles
 
Exemple : nombres de participants dans une manifestation
 
Si on prend comme source les chiffres de la police, on est confronté à
 
un biais systématique, c’est-à-dire une tendance à sous-estimer le
 
nombre de participants. Si on prend comme source les chiffres des
 
organisateurs d’une manifestation, on est aussi confronté à un **biais
 
systématique** et il y a une surestimation du nombre de participants.
 
Par contre, si on prend comme source les chiffres des médias, on risque
 
d’avoir un **biais aléatoire**, c’est-à-dire une fois une sous et
 
l’autre fois une surestimation. On est confronté à des variations
 
aléatoires qui ne sont pas systématiques et qui sont dues à un problème
 
de fiabilité de la mesure. Ainsi, il faut changer l’indicateur pour
 
éviter des résultats non fiables.
 
<nowiki>###</nowiki> Objectifs
 
Pour avoir des données de bonnes qualités, on doit se fixer comme
 
objectifs de récolter des données de manière systématique. Il faut
 
<nowiki>**</nowiki>éviter les biais aléatoires** puis **identifier les biais
 
systématiques** et les prendre en compte dans l’analyse des résultats.
 
Dans la recherche comparative, pour éviter les biais aléatoires, il faut
 
garder le même support ou le même indicateur. On parle notamment de
 
<nowiki>*</nowiki>critères* et *indicateurs* *invariants*, c’est-à-dire des indicateurs
 
qui ne changent pas dans le temps et l’espace.
 
Pour évaluer la classe sociale dans laquelle un ménage se trouve, on
 
peut utiliser plusieurs indicateurs. Certains indicateurs (possession
 
d’une télévision en couleur) ont été créés vers 1980 sauf est-ce qu’il
 
faut le garder, le supprimer ou le modifier ? Dans un panel, on veut
 
toujours garder les mêmes indicateurs pour éviter des biais aléatoires
 
mais ceci n’empêche pas l’introduction d’autres problèmes de mesure
 
comme dans cet exemple. Les biais aléatoires et systématiques sont un
 
enjeu dans le temps, comme dans le panel, mais d’autres exemples peuvent
 
être trouvés dans la comparaison entre pays comme le taux de chômage qui
 
peut être mesuré selon des critères différents dans l’espace.
 
Particulièrement dans la recherche comparative, on est dans le besoin
 
de combiner différentes bases de données pour comparer la population.
 
Exemple : la controverse autour du votant américain
 
Cette controverse se jouait par beaucoup de publications (1960-2000)
 
mais notamment autour de deux ouvrages, à savoir *The American Voter* et
 
<nowiki>*</nowiki>The Changing American Voter*. Le modèle de Michigan a été critiqué 16
 
ans après par le second ouvrage sauf que ce sont des différents
 
indicateurs qui ont été pris pour formuler la critique. Donc le second
 
ouvrage a lui-même été critiqué.
 
<nowiki>###</nowiki> Qualité des données
 
Pour obtenir une qualité des données, il faut trouver les biais. Il est
 
notamment nécessaire de **cerner les biais potentiels**. Il faut
 
toujours être l’affût de ce problème sinon on pourrait être confronté à
 
un *artefact statistique* qui est un faux résultat puisqu’on n’a pas
 
utilisé les bons indicateurs ou on a oublié de regarder les relations
 
avec des variables concurrentes.
 
La règle d’or est de **maximiser la validité** **des mesures** et de
 
<nowiki>**</nowiki>maximiser** **la** **fiabilité des mesures**. Au moment de
 
l’opérationnalisation, on peut maximiser la validité des mesures. Il
 
est impératif d’être scrupuleux dans l’opérationnalisation de nos
 
concepts et de prendre plusieurs indicateurs pour les concepts clés.
 
Par exemple : une mesure du chômage pour évaluer l’état de l’économie
 
Il faut être conscient et transparent sur les limites potentielles de
 
nos mesures. Le taux de chômage peut être corrélé à l’état de l’économie
 
sauf qu’ils ne sont pas synonymes.
 
Une fois que la validité est assurée, il faut également s’assurer que
 
nos mesures sont fiables. Ce contrôle se fait au moment de la sélection
 
des indicateurs et on évalue si la mesure produit le même résultat dans
 
l’espace et dans le temps. Une technique pour s’en assurer est de
 
reprendre des mesures existantes qui ont déjà été testées. On va
 
également essayer de collecter un maximum de données, notamment pour
 
les variables dépendantes et indépendantes centrales. Dans la réalité,
 
ceci se fait toujours sous contrainte de temps et il faut trouver un
 
équilibre dans l’idée de maximiser des informations sur les choses qui
 
nous intéressent.
 
Dans une recherche sur l’opinion publique, 4 indicateurs sur
 
l’environnement ont été choisis. Dans cet exemple, on peut s’imaginer
 
que chaque indicateur mesure quelque chose de légèrement différent et
 
cela pourrait générer des résultats différents. Pour augmenter la
 
robustesse des analyses, il faut analyser chaque indicateur avant de
 
développer des résultats. Généralement, plusieurs indicateurs nous
 
permettent de renforcer la consistance de la recherche car plus
 
d’indicateurs vont dans la même sens, plus notre résultat est robuste
 
et le teste de notre analyse n’est pas due au hasard.
 
<nowiki>###</nowiki> Anticiper les problèmes
 
Si on est systématique et qu’on veille à une bonne qualité de données,
 
on devrait être capable d’anticiper les problèmes avant la collecte des
 
données et donc **de les déjoués en amont**. Ces problèmes sont propres
 
à chaque recherche.
 
Par exemple : il faut être conscient qu’on aurait pour chaque recherche
 
des populations sous-représentées tel que les jeunes.
 
Un autre problème dont il faut être conscient est la
 
<nowiki><span class="underline">fiabilité des codeurs</span></nowiki>, c’est-à-dire que
 
si on analyse les articles dans la presse, on utilise plusieurs codeurs
 
pour déterminer la chose dont ils parlent. Il faut s’assurer et mettre
 
des stratégies en place pour que chaque personne identifiée les sujets
 
de la même manière.
 
Il faut toujours voir s’il y a des <nowiki><span class="underline">différences</nowiki>
 
linguistiques<nowiki></span></nowiki> dans une variable (confidence – trust / pas de
 
distinction en français).
 
Si on regarde dans la temporalité, on pourrait avoir des
 
<nowiki><span class="underline">données manquantes</span></nowiki> comme c’est le cas
 
lors de la 2<nowiki><sup>ème</sup></nowiki> guerre mondiale. Faut-il écarter ce temps de
 
notre analyse ou en d’autres termes, comment le gérer ?
 
  - Si on anticipe les problèmes avant la collecte, on peut trouver les
 
   problèmes en amont.
 
<nowiki>###</nowiki> Réplicabilité
 
Répliquer des études quantitatives est difficile mais en répliquant le
 
processus de données, on diminue cette difficulté. C’est le cas avec
 
<nowiki>*</nowiki>The American Voter* où on reprend les données actuellement mais on ne
 
le réplique pas entièrement. Il est nécessaire de tenir un journal de
 
bord sur le processus de récolte de données puisqu’on aura une
 
transparence sur le processus de récolte. Cela va nous permettre
 
d’expliquer comment on a procédé dans les détails et les problèmes
 
qu’on a rencontré au fil de notre recherche. Cela nous permet aussi
 
d’identifier les biais qui se sont introduits. Si on prend compte de
 
ces biais au moment de l’analyse et de l’interprétation des résultats,
 
on peut augmenter la qualité de nos résultats. Un journal de bord est
 
aussi utile pour éviter les artefacts statistiques. Les métadonnées sont
 
des données sur nos données comme par exemple expliquer comment s’est
 
passé notre entretien. Le journal de bord et les métadonnées permettent
 
d’expliciter le processus de récolte de données.
 
  - Pour avoir une bonne qualité de données, il faut :
 
<!-- end list -->
 
1.  Etre systématique et éviter les biais
 
2.  S’assurer de la validité et de la fiabilité de nos données
 
3.  Essayer d’anticiper des problèmes
 
4.  Permettre la réplicabilité le plus possible
 
<nowiki>##</nowiki> Différents types de supports
 
Beaucoup d’informations peuvent être trouvées sur des supports textuels
 
comme des interventions parlementaires. Un **support textuel** majeur
 
est la presse ou les médias plus généralement pour saisir les débats
 
publics comme la migration pour évaluer la structure des débats avant
 
des élections par exemple. Ces exemples devraient montrer qu’il existe
 
pleins de données textuelles qui peuvent être converties en données
 
chiffrées.
 
Ceci est également le cas pour des **données orales** pouvant venir de
 
la TV, de la radio, d’internet etc.
 
En plus des supports textuels et oraux, il y a la technique **d’enquêtes
 
par questionnaire** qui implique de récolter des données directement
 
auprès des acteurs. C’est une technique fortement standardisée
 
puisqu’elle est très utilisée en science sociale. Néanmoins, ce n’est
 
pas la seule technique pour collecter des données.
 
<nowiki>###</nowiki> Créativité et imagination
 
Il n’est pas facile de récolter des données en raison de la
 
non-disponibilité ou de la difficulté d’accès à des supports de
 
collecte. On nous apprend des outils de base dans ce cours mais il faut
 
compter sur notre créativité et notre imagination. La recherche de
 
Zuccato a proposé d’analyser les eaux usées pour déterminer le taux de
 
cocaïne que les gens prennent.
 
Il existe différents processus de récolte de donnée et donc différents
 
types de données qui ont par conséquent différentes types d’application.
 
<nowiki>##</nowiki> Différents types de données
 
<nowiki>###</nowiki> Primaires vs secondaires
 
Il faut toujours réfléchir si on veut récolter des données primaires ou
 
utiliser des données secondaires. Les **données** **primaires** sont les
 
données que le chercheur récolte lui-même et elles sont spécifiques à
 
une recherche. Ses <nowiki><span class="underline">avantages</span></nowiki> sont
 
nombreux et substantiels :
 
  - Elles sont le fruit d’un dessin de recherche qui correspond à la
 
   problématique de la recherche.
 
  - Ce sont des données dont la chercheuse a besoin et elles sont
 
   adaptées pour répondre à la question de recherche et pour tester
 
   les hypothèses.
 
  - On peut partir du postulat que la validité est bonne et que les
 
   indicateurs sont adéquats.
 
La raison pour laquelle les chercheurs n’utilisent pas ce type de
 
données est qu’il y a des **désavantages** considérables. Ce type de
 
données est coûteux en temps en argent. De plus, on peut ne pas avoir la
 
formation requise pour bien récolter les données primaires.
 
A cause de ces désavantages, les chercheurs utilisent des **données
 
secondaires**, à savoir des données récoltées par d’autres chercheurs.
 
Leurs **avantages** sont qu’elles :
 
  - Soient disponibles et il n’y a pas de coût ni en temps, ni en argent
 
   ni en formation.
 
  - Elles permettent de faire des comparaisons plus facilement.
 
Sauf que leur **désavantage** est que ce sont des données qui :
 
  - Ne sont pas toujours adaptées à notre recherche.
 
  - On n’a pas toujours les bons indicateurs
 
  - On est plus confronté à des problèmes de validité.
 
  - La récolte de données peut comporter des biais qu’on ne connaît pas
 
   forcément.
 
  - Question : Comment choisir entre ces deux types de données ?
 
Avant de se lancer dans une collecte de données, il faut s’assurer qu’il
 
n’existe pas des données secondaires utilisables. Et si c’est le cas, on
 
peut essayer d’améliorer certains indicateurs en combinant les indices.
 
On privilégie les données secondaires dans la mesure où elles sont
 
adaptées. Sauf qu’il faut être attentif aux problèmes de validité des
 
mesures. Il faut également bien regarder les métadonnées parce qu’elles
 
nous donnent beaucoup d’informations.
 
<nowiki>###</nowiki> Exhaustives vs échantillonnées
 
Les **données exhaustives** sont les données collectées par l’Etat. Ce
 
sont des données sur l’ensemble de la population qui suppose une
 
énumération complète comme pour les recensements de la population ou
 
pour saisir le flux de migrants. L’avantage principale de ces données
 
apparaît dans son nom puisque l’exhaustivité implique qu’il n’y a pas de
 
bais en termes de représentativité donc il n’y aurait pas d’erreur
 
d’échantillonnage. Toutefois, elles ne sont **pas forcément de bonne
 
qualité** :
 
  - Par exemple, si c’est la police qui collecte des données sur la
 
   violence, ce sont eux qui déterminent les indicateurs et ce n’est
 
   pas forcément en cohérence par rapport à notre recherche. Donc
 
   l’exhaustivité n’est pas assurée \!
 
  - De plus, ces données contiennent très peu de variables différentes.
 
  - Elles coûtent au niveau de l’argent et au niveau de la lourdeur de
 
   la collecte
 
  - Recensements sont en voie de disparition
 
Dans la plupart des cas, on travaille avec des **données
 
échantillonnées** qui sont des données tirées d’une portion de la
 
population appelée la « population mère ». Ce peut être la population
 
suisse, des éditions de journaux etc. L’idée d’utilisée un échantillon à
 
la place d’une population est une idée révolutionnaire. Cela consiste à
 
prendre un échantillon représentatif de l’ensemble de la population. A
 
partir de cet échantillon, on fait des inférences statistiques sur la
 
population qu’elle représente. C’est Kiaer qui a eu cette idée au
 
19<nowiki><sup>ème.</sup></nowiki> Ce type de données ont des **avantages**
 
puisqu’elles :
 
  - Augmentent les possibilités de collecte de données dans plusieurs
 
   domaines.
 
  - Augmentent la faisabilité des recherches
 
  - Rendent le travail de recherche plus facile.
 
  - En plus de cette flexibilité, elles nous donnent une plus grande
 
   importance en tant que chercheur puisqu’on dépend moins de l’Etat.
 
   Ceci ne veut pas dire qu’on est complètement indépendant puisque les
 
   recherches coûtent cher.
 
  - La majorité des outils techniques a été élaborés pour ce type de
 
   données. Finalement, ce type de données permet une gestion plus
 
   facile des données car on a un plus petit fichier de données.
 
Les **désavantages** sont que :
 
  - Les chercheurs nécessitent une expertise puisque la sélection de
 
   l’échantillon est un vrai enjeu car il faut assurer la qualité et
 
   la représentativité des inférences.
 
  - De plus, chaque échantillon est confronté à la question de la
 
   représentativité. Cela signifie qu’il y a généralement une
 
   structure dans les non-réponses qui rend l’échantillon non
 
   représentatif.
 
  - Question : comment choisir entre ces deux types de données ?
 
On privilégie les données échantillonnées à cause de leur flexibilité.
 
On opte pour l’exhaustivité pour de petites populations. Dans les deux
 
cas, il faut être attentif. Pour les données exhaustives, même si elles
 
sont appelées comme ça, il faut toujours faire attention au biais de
 
sélection. Ceci se fait par exemple sur les groupes qui sont sondées ;
 
les migrants, oui mais lesquels ? Pour les données échantillonnées, il
 
faut toujours analyser la qualité et le taux de non-réponse pour avoir
 
une bonne représentativité.
 
<nowiki>###</nowiki> Individuelles vs agrégées
 
La différence majeure est l’unité d’analyse sur laquelle on collecte des
 
informations. Les **données individuelles** collectent des données sur
 
les individus comme pour la participation politique, les valeurs ou les
 
aptitudes. L’unité d’analyse sont les individus avec leurs
 
caractéristiques. Cela permet d’analyser la variation, c’est-à-dire la
 
différence entre les individus.
 
Les **données agrégées** sont des données sur des agrégats tels que des
 
Etats, des villes, des quartiers, des organisations. Ces données sont
 
utilisées au niveau macro comme pour l’analyse spatiale du politique. Ce
 
sont les caractéristiques des régions par exemple et pas des individus
 
qui y habitent. Par contre, la logique analytique des données agrégées
 
est partagée avec celles des données individuelles ; la logique d’étude
 
des variations sauf que c’est entre les agrégats et pas les individus :
 
Est-ce que la taille des communes a une influence sur la participation
 
électorale ?
 
<nowiki>###</nowiki> Erreur écologique
 
Il est important de distinguer ces deux niveaux pour ne pas faire des
 
erreurs écologiques.
 
Au niveau individuel, on peut trouver empiriquement que les individus
 
avec des difficultés financières tendent à voter à gaucher mais cela ne
 
signifie pas qu’en période de crise, les partis de gauche ont les scores
 
les plus élevés. Si on confond le niveau macro et micro, on fait une
 
erreur écologique.
 
On peut distinguer entre hypothèses et données. Les deux peuvent être de
 
niveau <nowiki><span class="underline">individuel</span></nowiki> ou
 
<nowiki><span class="underline">agrégé</span></nowiki>. Tant qu’on teste les hypothèses
 
avec les données récoltés au même niveau, il n’y a pas de problème.
 
L’erreur écologique consiste à analyser les hypothèses avec les
 
données récoltes qui ne sont pas du même niveau (agrégé avec
 
individuel). En d’autres termes, c’est le fait de tester des hypothèses
 
au niveau individuel avec des données agrégées. Ou encore, le fait
 
d’analyser des propriétés individuelles inférées sur la base
 
d’observations faites au niveau agrégé.
 
Exemple : l’étude de Pisa a trouvé que la Suisse est forte en
 
mathématique mais cela ne signifie pas que tout écolier est fort en
 
mathématique. Il y a ainsi une forte variance et donc pas
 
d’homogénéité \!
 
A l’origine de cette erreur, il y a l’étude de W. Robinson qui
 
s’intéresse au lien entre le taux d’analphabétisme et le taux
 
d’immigré dans un Etat américain.
 
<nowiki>###</nowiki> Conclusion
 
Il faut faire attention à l’unité d’analyse de la recherche \! On peut
 
agréger des données individuelles mais l’inverse n’est pas possible \!
 
Une manière pour combiner les deux niveaux sont les analyses
 
multiniveaux qui est une analyse poussée mais même ici, on conserve
 
chaque niveau séparément. On analyse la relation à un niveau en étant
 
sous le contrôle de l’autre. Néanmoins, on analyse toujours les
 
interactions entre les différents niveaux.
 
<nowiki>#</nowiki> Elaboration d’un questionnaire standardisé : Principes généraux
 
<nowiki>##</nowiki> Construction d’un questionnaire
 
<nowiki>***</nowiki>L’enjeu principal autour de la construction d’un questionnaire est la
 
fiabilité des mesures***. En effet, Kalton et Moser explique bien «
 
qu’aucun sondage ne peut être meilleur que son questionnaire ».
 
<nowiki>***</nowiki>Chaque question correspond à une mesure devant être utilisable pour
 
répondre à nos hypothèses premières***. Pour la recherche, on dit
 
souvent que la qualité du questionnaire est primordiale. Ainsi, une
 
mauvaise question entrainera la récolte de mauvaises mesures.
 
<nowiki>##</nowiki> Deux types d’erreur
 
1.  Il peut y avoir une erreur au niveau théorique
 
   
 
   1.  Problème de la validité de la mesure : évaluation de la mesure
 
       au niveau théorique
 
   
 
   2.  Opérationnalisation
 
2.  Erreur au niveau empirique
 
   
 
   1.  Problème de fiabilité de la mesure : évaluation de la mesure au
 
       niveau empirique (idée de la consistance de la mesure)
 
   
 
   2.  Fidélité, robustesse, reproductibilité
 
   
 
   3.  Formulation des questions
 
<nowiki>###</nowiki> Fiabilité des mesures
 
L’idée de la fiabilité est simple en théorie mais difficile à mettre en
 
œuvre. Il y a des questions qui peuvent être comprises de manière
 
différente que ce qu’on le croit. La reproductibilité correspond au
 
fait ***qu’un même output sera produit si un même input est appliqué***.
 
C’est en lien avec la reproductibilité qu’il n’est pas toujours possible
 
de comparer entre elles des données, devant pour ce faire avoir été
 
produites de la même manière. C’est pourquoi les questionnaires doivent
 
être construits de sorte à ce que les ***réponses données proviennent
 
toutes d’un même input***. C’est pourquoi les questions doivent être
 
précises, simples... Afin que tous les répondants les comprennent de la
 
même manière et se positionnent par rapport à des inputs précis. Cet
 
exercice est d’autant plus difficile si le questionnaire doit être passé
 
auprès d’une population hétérogène (langue, culture, religion...)
 
différentes, les mots pouvant être socialement situés. ***En plus des
 
questions devant être intelligemment conçues pour être comprises de
 
manière uniforme au sein de la population cible, le questionnaire doit
 
également être uniformément transmis \!*** En effet, les intervieweurs
 
ne doivent pas inclure dans la question posée leur interprétation
 
propre.
 
Il existe plusieurs sources de non-fiabilité des mesures. Comme nous
 
l’avons dit, les ***questions peuvent être comprises différemment***
 
selon l’enquêté. Il faut encore noter que les mots peuvent changer de
 
sens au fil du temps mais aussi dans l’espace. Cette dimension est
 
importante à prendre en compte notamment lorsqu’il s’agit de répliquer
 
une étude ancienne. Il faudra alors se demander si les questions doivent
 
être traduites dans un vocabulaire plus actuel pour obtenir le même type
 
de réponses que jadis ou ces mots avaient des connotations différentes.
 
De plus, si ***la question contient deux inputs***, c’est à dire si la
 
question demande aux répondant de se positionner sur deux éléments de
 
question à la fois, le chercheur ne pourra savoir à quel stimuli
 
l’enquêté a répondu. Il faut également être vigilant au fait que
 
<nowiki>***</nowiki>la désirabilité sociale joue un rôle important lors de la passation
 
de questionnaire***. La désirabilité sociale est une sorte d’autocensure
 
lorsque l’enquêté craint d’être jugé négativement s’il donne une réponse
 
particulière à une question. Elle évolue dans le temps si bien qu’il est
 
aujourd’hui tout à fait commun de dire être divorcer, contrairement à
 
avant. Par contre, dire aujourd’hui que l’on est raciste est très
 
difficile, terme fortement déprécié. Enfin, il faut s’assurer que
 
<nowiki>***</nowiki>tous les enquêteurs posent les questions de la même manière*** lors
 
de la passation du questionnaire et ce, pour n’induire aucun biais de
 
compréhension.
 
<nowiki>###</nowiki> Source de non-fiabilité des mesures
 
Ce n’est pas seulement les questions en soi qui peuvent poser problèmes
 
mais également les répondants. En plus, ce sont souvent des groupes
 
différents qui répondent à nos questions. Ils ont des ancrages sociaux
 
différents et des différenciations générationnelles ce qui fait qu’ils
 
peuvent comprendre les questions différemment. De plus, il est
 
nécessaire de prendre les contextes en compte ; cela change en fonction
 
du temps et de l’espace. Par rapport, ce ne sont pas seulement les
 
personnes âgées qui posent des problèmes mais tout répondant confondu
 
lorsqu’il s’agit de questions délicates. Cela rend compte à la
 
désirabilité sociale où les gens répondent en fonction de ce qui est
 
perçu comme « bien » socialement ; personne n’est raciste et tout le
 
monde participe politiquement. Finalement, les enquêteurs peuvent poser
 
des questions différentes jusqu’au point où la compréhension de la
 
question varie.
 
  - Toutes ces sources nous montrent que la fiabilité se travaille au
 
   moment de l’élaboration du questionnaire. Cela ne signifie pas
 
   seulement au moment d’écrire et de penser des questions mais qu’il
 
   faut également faire des pré-tests pour identifier des biais
 
   potentiels.
 
<nowiki>##</nowiki> Questionnaire standardisé : de quoi s’agit-il ?
 
On récolte des informations de manière systématique. L’idée est de
 
passer le même questionnaire à tout l’échantillon. L’approche de cette
 
démarche quantitative est de fermer au maximum l’espace d’expression
 
pour l’individu. Pour la grande majorité, le questionnaire utilise des
 
questions fermées, c’est-à-dire des questions avec des réponses déjà
 
pré-codées. On va donc maximiser la standardisation entre le répondant
 
avec un input et un même output. Le résultat de cette démarche est de
 
recevoir peu d’informations sur un grand nombre de personnes pour
 
pouvoir les analyser de manière systématique les statistiques et les
 
covariances. L’entretien qualitatif quant à lui veut ouvrir au maximum
 
l’espace d’expression de l’individu et on laisse simplement parler
 
l’interviewé. Avec une approche qualitative, la logique est
 
différente. Pour le questionnaire, il y a peu d’informations pour
 
beaucoup de personnes tandis qu’avec une approche qualitative, on reçoit
 
beaucoup d’informations sur peu de personnes. Puis on va analyser ces
 
informations par une démarche interprétative.
 
Les deux techniques sont complémentaires et il est possible de les
 
utiliser mais **<nowiki><span class="underline">pas</span></nowiki>** de les mélanger \!
 
Il faut d’abord en réaliser une puis l’autre en suivant
 
chronologiquement les procédures.
 
<nowiki>###</nowiki> Difficultés
 
Le fait que les personnes ne comprennent pas toujours de la même manière
 
les questions sauf qu’on peut minimiser ce problème. Un autre problème,
 
moins évitable, est qu’on force des réponses sur des enjeux sur lesquels
 
les personnes n’ont que peu de connaissance. La conséquence est que les
 
gens vont répondre « on the top of the head » ; ils ne vont pas
 
réfléchir de par eux-mêmes. Les politologues sont les experts pour
 
poser des questions trop difficiles. Cela peut être frustrant et c’est
 
pour cela que les sondages peuvent avoir mauvaise presse.
 
Il faut prendre pour ce faire les questions pour ce qu’elles sont,
 
c’est-à-dire des approximations. Cela permet d’éviter les plus gros
 
biais. Ce problème d’ailleurs n’est pas seulement valable pour les
 
questionnaires mais pour toute enquête de terrain. En dépit de ces
 
problèmes, le questionnaire reste un instrument intéressant pour les
 
connaissances sociologiques.
 
Une fois les questionnaires remplis, il y a une irréversibilité de la
 
mesure parce qu’in ne peut pas retourner auprès des répondants. Ces
 
réponses vont nous permettre de mettre en discussion nos hypothèses et
 
notre théorique. Avec une démarche qualitative, on peut toujours
 
compléter nos informations.
 
<nowiki>###</nowiki> Que mesure-t-on au moyen d’un QS ?
 
1.  Ce que les individus pensent avec leurs attitudes, leurs croyances
 
   et leurs valeurs
 
2.  Ce que les individus font : leurs comportements et leurs expériences
 
   passées
 
3.  Ce que les individus sont : leurs attributs personnels
 
Cette distinction est impérative car ces 3 catégories ne posent pas les
 
mêmes difficultés dans l’élaboration des questions :
 
![](./media/image29.emf)
 
Il est important de distinguer ces trois catégories puisqu’elles sont
 
toutes des sources potentielles de non fiabilité mais pour des raisons
 
différentes. En effet, tout ce qui provient directement de l’esprit des
 
individus n’est pas facile à saisir et source de non fiabilité. En
 
effet, le contexte de passation du questionnaire, la formulation des
 
questions... aura un grand impact sur les réponses données, bien plus
 
que lorsque les personnes parlent de faits plus objectifs comme leur
 
agissements (font) ou leur statut social (sont). De plus, il faut
 
prendre en compte les efforts de cohérence individuelle dont les
 
individus font preuve pour conter leur vie, mais aussi de problèmes de
 
mémoire pouvant biaiser les réponses. Pour ce qui est des questions
 
liées à « l’être» des individus, il est très fréquent de les placer en
 
fin de questionnaire puisque ces questions, potentiellement intrusives,
 
peuvent rebuter des répondants en début d’étude. 

 
Voici maintenant un exemple montrant à quel point la formulation des
 
questions est important et influence les réponses données :
 
![](./media/image30.png)
 
Exemple de Rugg et Cantril 1944 :
 
Q1 : Des gens disent que depuis que l’Allemagne est en train de battre
 
la Russie et bientôt l’Angleterre, il est nécessaire que les USA
 
viennent en aide à l’Angleterre, qu’en pensez-vous ?
 
Q2 : Des gens disent que depuis que l’Allemagne va probablement vaincre
 
la Russie dans quelques semaines et bientôt diriger toute sa force armée
 
contre l’Angleterre, il est plus important que jamais que les USA
 
viennent en aide à l’Angleterre, qu’en pensez-vous ?
 
La différence peut être dû au fait de l’influence de la question mais
 
aussi à l’hétérogénéité des groupes.
 
Exemple de Zaller 1992 :
 
Questions rétrospectives : Continuer à penser à la question à laquelle
 
vous de répondre, j’aimerais que vous me dites quelles sont les idées
 
qui vous viennent à l’esprit lorsque vous répondiez à cette question.
 
Questions Stop-and-think : Avant de répondre à la question, j’aimerai
 
que vous me dites ce que vous ressentez, ce qui vous viens à l’esprit
 
lorsque vous pensez à cette question.
 
![](./media/image31.emf)
 
  - Il se trouve que lorsque les gens réfléchissent après avoir donné la
 
   réponse, on trouve moins d’ambivalence dans la réflexion que s’ils
 
   formulent la question avant.
 
<nowiki>##</nowiki> Elaboration d’un questionnaire
 
Trois axes :
 
1.  **Formulation des questions **: parfois un travail artisanal surtout
 
   pour la construction de questions nouvelles. Dans ce processus,
 
   l’inventivité et l’ingéniosité du chercheur est importante car on
 
   n’a pas mal de liberté dans ce processus. Sauf qu’elle est limitée
 
   dans un certain nombre de pièges à éviter. Puis, il faut acquérir
 
   l’expérience qui nous permet d’éviter les mesures pour avoir une
 
   bonne fiabilité et validité des mesures.
 
   
 
     - <nowiki><span class="underline">Peut-on y répondre</span></nowiki> (à ma
 
       question) ? Pour chaque question, on doit se demander si mes
 
       répondants ont les connaissances nécessaires pour répondre aux
 
       questions. Sauf que les gens ne vont souvent pas admettre leur
 
       ignorance. De plus, ils ne vont pas utiliser la coche « ne sait
 
       pas ». Ainsi, toutes les personnes ne peuvent pas répondre aux
 
       questions.
 
   
 
     - <nowiki><span class="underline">Veut-on y répondre ?</span></nowiki> Il faut être
 
       sensible au fait que les gens ne veulent pas répondre à nos
 
       questions. Cela a deux incidences ; au niveau de non-réponses ou
 
       au niveau de qualité des réponses livrées. Il faut informer les
 
       répondants de notre recherche et les assurer de leur anonymat.
 
   
 
     - <nowiki><span class="underline">Accroître la fiabilité :</span></nowiki> Pour
 
       accroitre la fiabilité et la validité des questions présentées
 
       dans un questionnaire, il est important de ***proscrire les
 
       leading questions***, c’est à dire une question amenant un
 
       élément extérieur pouvant influencer la réponse de l’enquêté.
 
       Il s’agit, par exemple, de demander simplement : Etes-vous pour
 
       une augmentation des impôts ? Et non pas : Etes-vous pour une
 
       augmentation des impôts pour améliorer la protection sociale des
 
       citoyen-e-s ?
 
> ![](./media/image32.emf)Un autre moyen d’accroitre la fiabilité d’une
 
> question est ***d’éviter les questions aprioristiques***. En effet, il
 
> s’agit de remettre dans le ***contexte*** la question pour éviter les
 
> biais ou encore d’appliquer un ***filtre***. Un exemple de questions
 
> aprioristiques serait : Qu’avez-vous voté lors des dernières élections
 
> ? Ainsi, pour éviter tout biais, il faudrait plutôt construire la
 
> question en utilisant un filtre comme suit :
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> Désirabilité sociale
 
Ainsi, cette deuxième question associée permet de vérifier que la
 
première réponse est correcte. Enfin, ***la désirabilité sociale peut
 
introduire de nombreux biais dans une recherche***. Il faut donc être
 
attentif que l’acceptabilité sociale de la réponse potentiellement
 
donnée à la question posée soit suffisamment grande pour que les
 
individus puissent se permettre de le dire. Ainsi, les questions de type
 
<nowiki>:</nowiki> Etes-vous raciste ? Sont évidemment à proscrire. Comme le montre cet
 
exemple, la désirabilité sociale affecte considérablement les résultats.
 
Pour rétablir cela, il est intéressant d’appliquer un filtre afin de
 
trier les personnes répondant sous la pression de la désirabilité
 
sociale.
 
![](./media/image33.emf)
 
Ainsi, on voit que sur les questions sensibles pour lesquelles les
 
répondants ont peur d’être jugés ou mal vus par l’enquêteur, les
 
réponses données peuvent être différentes de ce qu’il en est en
 
réalité. Pour ***contrer ce biais de désirabilité sociale***,
 
plusieurs options s’offre au chercheur. Premièrement, il peut s’agir de
 
<nowiki>***</nowiki>déculpabiliser le répondant***, notamment en incluant dans la
 
question un stimuli déculpabilisant. Par exemple, pour une question
 
portant sur le taux de participation, il s’agirait de demander non pas «
 
avez-vous voté » mais plutôt «lors des votations, environ la moitié des
 
personnes se rendent aux urnes. En ce qui vous concerne, avez-vous voté
 
? ». Une autre solution réside dans le fait de ***libérer la parole***,
 
ce que l’on appelle communément l’effet pommade. Il s’agit par exemple
 
d’utiliser la sympathie pour que le répondant se sente plus à l’aise
 
de s’exprimer sincèrement. Voici un exemple tiré d’une enquête effectuée
 
par Mayer en 2002 qui illustre cette méthode de prévention du biais de
 
désirabilité sociale :
 
![](./media/image34.emf)
 
<nowiki>###</nowiki> Désirabilité sociale – solutions
 
Bradburn propose ***trois solutions différentes pour annihiler le plus
 
possible les biais de désirabilité sociale***, en opposition à
 
l’approche habituelle qui consisterait à poser directement et sans
 
détour une question. En effet, l’approche usuelle consisterait à
 
demander au répondant : Avez-vous tué votre femme ? Mais cette question,
 
très sensible, risque de ne produire des résultats que peu concluants.
 
C’est pourquoi il propose trois approches plus fines, destinées à
 
libérer la parole de l’enquêté :
 
  - ***L’approche des cartes*** : Plusieurs cartes sont présentées au
 
   répondant qui doit rendre à l’enquêteur celle correspondant à sa
 
   réponse. Ce procédé a pour particularité de ne pas demander au
 
   sujet de verbaliser sa réponse, ce qui peut avoir être plus facile
 
   lorsque des sujets difficiles sont abordés. 

 
  - ***L’approche « tout le monde »*** : Cette approche consiste à
 
   déculpabiliser le répondant en lui faisant sentir qu’il n’est pas
 
   le seul à penser/agir/être... ainsi. Cela permet au répondant de se
 
   sentir moins seul et isolé dans sa situation et donc de libérer sa
 
   parole. 

 
  - ***L’approche « les autres »*** : Cette approche consiste à
 
   demander, en préambule, au répondant s’il connaît quelqu’un dans une
 
   situation peut avouable avant de lui demander si lui-même s’y
 
   trouve. Cela permet encore une fois de déculpabiliser le répondant
 
   en lui montrant qu’il n’est pas le seul dans cette situation.
 
C’est toujours avec le même souci d’accroitre la fiabilité des mesures
 
que ***les questions rétrospectives doivent être considérées avec
 
attention***. En effet, il faut tenir compte que les individus peuvent
 
avoir oublié ou réinterprété des évènements passés si bien que la
 
fiabilité peut être mise à mal. De plus, la validité s’en voit aussi
 
menacé puisque le risque est de ne pas mesurer ce que le chercheur
 
souhaite. Voici un exemple de question rétrospective : 

 
![](./media/image35.emf)
 
Comme on le voit sur cet exemple, un bon moyen de contrôler les biais
 
que peut induire ce type de questions est de ***poser des repères
 
temporels*** (cette année, durant le mois de...).
 
<nowiki>###</nowiki> Formulation des questions synthèse
 
En résumé, lorsque l’on construit les questions d’un sondage, il faut
 
penser :
 
  - ***Si les répondants sont en mesure de répondre aux questions
 
   posées***. C’est pourquoi il faut ***bannir les pratiques
 
   aprioristes*** et ne jamais postuler que les répondants savent, la
 
   connaissance n’étant pas socialement répartie de manière homogène. 

 
  - ***Si les répondants vont être d’accord de répondre aux questions
 
   posées***. Pour 
ce faire, il faut respecter les enquêtés et établir
 
   un lien de coopération avec l’enquêteur. C’est pourquoi les
 
   questions intrusives doivent être placées en toute fin du
 
   questionnaire. 

 
  - A la ***fiabilité du questionnaire***, c’est à dire si le stimuli
 
   présent dans chaque question produira le même type d’output, c’est
 
   à dire ***si tous les enquêtés comprendront la question de la même
 
   manière et répondront en fonction de cette compréhension commune***.
 
   C’est pourquoi il faut poser des questions précises, claires,
 
   accessibles et courtes, ne postulant jamais que les individus
 
   savent. 

 
  - A la ***validité du questionnaire***, c’est à dire si le
 
   questionnaire permet au chercheur de mesurer ce qu’il souhaite.
 
   C’est pourquoi il faut faire très attention aux « leading
 
   questions » qui peuvent influencer les réponses données.
 
  - A prendre en compte ***les potentiels biais que peuvent induire
 
   chaque question.*** Ainsi, il faut être attentif aux biais que ***la
 
   désirabilité sociale*** peut induire dans chaque enquête en
 
   formulant finement les questions, mais aussi ***se méfier des
 
   questions rétrospectives*** faisant appel à la mémoire
 
   potentiellement approximative des répondants. 

 
<nowiki>##</nowiki> Format des questions
 
Comme nous l’avons préalablement expliqué, il est très rare que des
 
questionnaires de type quantitatifs n’intègrent de questions ouvertes.
 
C’est pourquoi il faut également ***réfléchir attentivement à la
 
formulation et au format de réponse proposés aux enquêtés***. Ainsi,
 
trois enjeux principaux sont à considérer lors de cette étape. 

 
5.  Il faut se demander ***si les réponses proposées permettent aux
 
   enquêtés de répondre à la question posée***.
 
6.  Il faut se questionner quant à ***la qualité statistique désirée par
 
   le chercheur***. En effet, selon les formats de réponses, le
 
   chercheur ne pourra pas effectuer les mêmes procédés statistiques
 
   sur ces données ni même recueillir le même type d’informations.
 
7.  Il faut se demander si ***les réponses proposées sont
 
   statistiquement discriminantes***. En effet, ce que l’on cherche
 
   dans une recherche, ce ne sont pas des constantes mais bien des
 
   variations permettant une réelle analyse statistique \! 

 
<nowiki>###</nowiki> Peut-on y répondre ?
 
![](./media/image36.emf)La formulation des réponses standardisées sont
 
primordiales puisqu’elles vont permettre au répondant de répondre à la
 
question posée d’une manière particulière. C’est un véritable enjeu pour
 
la fiabilité du questionnaire \! En effet, ***se pose alors la question
 
de proposer, ou non, aux répondants de ne pas se positionner***. Il faut
 
se demander que faire des ***sans-opinions ou des positions centrales***
 
qui sont des catégories particulières et problématiques. Certains
 
chercheurs décident de ne pas proposer de telles catégories de réponse
 
lors de leurs questionnaires, ce qui correspond à forcer les individus à
 
répondre \! Cette considération est directement reliée au fait qu’un
 
sondage impose une problématique aux répondants qui peuvent ne jamais
 
avoir préalablement pensé à cette thématique. Ainsi, ***les
 
sans-opinions (ou les positions centrales) sont parfois de vraies
 
réponses pleines de sens, signifiant que la personne n’a réellement pas
 
de préférences nettes quant au sujet traité \!*** Mais il faut aussi
 
considérer la tendance humaine à choisir la position centrale lui
 
permettant de s’économiser une réflexion couteuse en temps et en énergie
 
(rationnel). ***C’est pourquoi les sans-opinions et les positions
 
centrales posent problème lors de l’interprétation des réponses, ces
 
catégories étant constituées de personnes n’ayant réellement pas
 
d’opinion et d’autres ayant choisi cette modalité de réponse pour
 
s’économiser les couts d’une réflexion approfondie***. Certains
 
chercheurs choisissent donc de considérer ces catégories de réponses
 
comme des données manquantes, alors que d’autres attachent une grande
 
importance à l’analyse de ces modalités. Ce graphique montre que la
 
catégorie centrale est bien plus souvent choisie par les individus que
 
les autres modalités de réponse. Reste à savoir si les individus ont
 
répondu ainsi car ils se considèrent réellement au centre de
 
l’échiquier politique ou simplement car ils ne savaient pas ou se
 
positionner et ont choisi de s’économiser les couts de la réflexion.
 
![](./media/image37.emf)
 
Cet exemple permet d’atténuer l’effet de la catégorie centrale. En
 
effet, cette catégorie moyenne existe mais du fait qu’on lui ait
 
attribué un sens, elle devient plus évidente à interpréter.
 
![](./media/image38.emf)De plus, ***la construction des modalités de
 
réponses implique de se questionner quant à la formulation des réponses
 
mais aussi quant à leur nombre***. En effet, le chercheur peut décider
 
d’offrir à ses répondants une modalité de réponse dichotomique (oui /
 
non, d’accord / pas d’accord...) ou plusieurs catégories de réponses.
 
Plus les catégories de réponses sont nombreuses, plus les informations
 
collectées seront riches. Toutefois, elles deviennent également plus
 
difficilement interprétables. Dans de très rare cas, le chercheur
 
choisit d’offrir aux répondants de s’exprimer librement quant à la
 
question posée (qualitatif). Cette modalité de réponse est choisie
 
lorsque le chercheur ne parvient pas à constituer lui-même des
 
catégories de réponse pertinentes
relatives à la question posée (si
 
le
sujet est mal connu par exemple).
***Généralement, aucune
 
question
ouverte n’est présente dans les
enquêtes
 
quantitatives.
***Toutefois, ce tableau montre que
ces deux types de
 
réponse
(ouverte ou fermée) ont chacune
des avantages et
 
des
désavantages. ***Il est toutefois
possible de mobiliser les deux
 
types de réponses*** (ouverte et fermée) en les combinant entre elles.
 
Il s’agit de demandé à l’enquêté de répondre librement à la question
 
posée et l’enquêteur rapporte ensuite lui-même la réponse à des
 
catégories standardisées en fonction de ce qu’aura exprimé l’enquêté.
 
Voici un exemple de ce type hybride :
 
![](./media/image39.png)
 
<nowiki>###</nowiki> ![](./media/image40.png)Quelle qualité statistique ?
 
![](./media/image41.png)***La qualité statistique est donnée par le
 
format de réponse choisie par le chercheur***. En effet, cela dépend du
 
type de variables pour lequel le chercheur a opté. Elles peuvent être
 
<nowiki>***</nowiki>quantitatives*** (variables à intervalles ou variables dichotomiques)
 
ou ***qualitatives*** (variables nominales ou variables ordinales). Il
 
est aussi possible de combiner entre elles différentes questions pour
 
obtenir des échelles, c’est d’ailleurs ce qui est fréquemment fait avec
 
les variables ordinales. Toutefois, ces échelles correspondent parfois
 
davantage à une réalité statistique que sociale, c’est à dire qu’elles
 
font plus sens mathématiquement que pour les répondants eux-mêmes. Comme
 
le montre ce schéma, les différentes variables permettent chacune de
 
prendre en compte des éléments différents. Très peu de variables
 
permettent de considérer le point 0 dans les réponses.
 
<nowiki>***</nowiki>Les variables nominales*** sont considérées comme des variables
 
catégorielles. En effet, ***les choix de réponse ne sont pas chiffrés
 
si bien que c’est au chercheur de recoder lui-même les réponses au
 
moment de l’analyse statistique***. Voici un exemple de variable
 
nominale :
 
![](./media/image42.png)
 
<nowiki>***</nowiki>Les variables ordinales*** sont des variables quantitatives puisque
 
les réponses, bien que correspondant à une définition écrite, sont des
 
<nowiki>***</nowiki>réponses chiffrées*** que le chercheur peut directement utiliser lors
 
de l’analyse statistique (exemple 1). En effet, il est bien plus facile
 
pour un répondant de se positionner sur une échelle chiffrée lorsque les
 
chiffres sont associés à une définition faite de mot, contrairement aux
 
échelles numériques n’indiquant qu’une gradation dans les préférences
 
de l’individu. Comment savoir si l’on se situe plus entre le 3 ou le 4,
 
qui ne corresponde à rien d’explicite (exemple 2) :
 
![](./media/image43.png) Exemple 1 :
 
<nowiki>Exemple 2 : ![](./media/image44.png)</nowiki>
 
De nombreuses recherches préfèrent actuellement utiliser des variables
 
nominales, faisant plus de sens auprès des individus, bien que cela soit
 
plus difficile à utiliser lors des analyses statistiques. Car en effet,
 
<nowiki>***</nowiki>choisir l’un ou l’autre de ces types de réponse est un enjeu
 
important puisque lors de l’analyse statistiques, il ne sera pas
 
possible d’utiliser les mêmes outils analytiques \!***
 
<nowiki>###</nowiki> Sont-elles discriminantes ?
 
<nowiki>***</nowiki>Toute analyse statistique a pour but de mettre en évidence des
 
variations***. En effet, les constantes sont peu intéressantes puisque
 
la base de tous calculs statistiques repose sur les variances \! Il est
 
toutefois utile d’utiliser les constantes dans la phase descriptive de
 
la recherche, mais les analyses intéressantes ne portent pas sur elles.
 
Ainsi, le premier graphe cherche à être éviter par les chercheurs, ne
 
pointant aucune variation alors que le deuxième est statistiquement
 
beaucoup plus intéressant.
 
![](./media/image45.emf)
 
  - Ainsi, il est important de proscrire les variables qui débouchent
 
   sur des constantes. ***On parle de discrimination en ce qu’il s’agit
 
   de ne considérer, pour l’analyse, que les variables donnant lieu à
 
   des variations pouvant être statistiquement analysées***.
 
<nowiki>###</nowiki> Synthèse
 
Ainsi, lorsque l’on construit les réponses proposées aux répondants,
 
<nowiki>***</nowiki>il faut tout d’abord se demander si les individus pourront, par ce
 
biais, répondre à la question posée***. La formulation des questions
 
doit être réfléchie et ce, afin de garantir la fiabilité des mesures
 
obtenues par ce biais. Il s’agit également de décider d’inclure, ou non,
 
une catégorie de réponse permettant aux répondants de ne pas se
 
prononcer sur un objet. En effet, ***savoir si oui ou non on force les
 
répondants à se positionner est un réel enjeu pour l’analyse
 
statistique***. De plus, bien que les réponses dichotomiques soient très
 
simples à analyser, elles ne permettent pas de récolter des informations
 
riches quant aux répondants si bien que ***le nombre de réponses
 
proposées aux individus doit également être réfléchi***. Enfin, la
 
forme même des questions est primordiale puisqu’elles impliquent
 
d’analyser les données de manière particulière. Par souci
 
d’efficacité, très peu voir aucune question ouverte n’est posée dans
 
les enquêtes quantitatives. ***Pour ce qui est de la qualité statistique
 
visée par le chercheur, elle dépend directement du type de réponses
 
proposées***. Elles peuvent être nominales, ordinales, à intervalles ou
 
dichotomiques. Selon le type choisi, ***l’analyse des données s’en verra
 
affectée***. Il faut toutefois être attentif au sens sociologique de la
 
réponse \! En effet, bien que les échelles chiffrées soient très
 
pratique d’un point de vue statistiques, elles peuvent manquer de sens
 
pour les répondants. Enfin, il faut se demander si les ***réponses sont
 
statistiquement discriminantes***. C’est toujours avec le même souci
 
d’observer des variations que le chercheur tente de récolter par le
 
biais de questions posées des différences entre les individus. C’est
 
pour cela qu’***avant chaque enquête, on effectue des pré-tests \!***
 
<nowiki>##</nowiki> ![](./media/image46.png)La structure du questionnaire
 
Une fois que les questions et les réponses ont été définies par le
 
chercheur, ***il faut encore réfléchir à l’agencement de ces questions
 
(associées à leurs réponses possibles) au sein du questionnaire***. Il
 
s’agit de définir l’ordre dans lequel les questions seront posées, la
 
structure des sections composant le questionnaire et leur ordre entre
 
elles mais aussi la longueur du questionnaire total. Ces considérations
 
sont importantes car il s’agit ici ***d’éviter au maximum les effets de
 
structures***, c’est à dire que les questions s’influencent entre elle
 
en ce qui concerne les réponses des répondants.
 
<nowiki>###</nowiki> L’ordre des questions
 
Il est important de réfléchir à l’ordre dans lequel les questions seront
 
présentées et ce, afin d’éviter au maximum l’interdépendance entre
 
questions. Il est fréquent que les questions concernant un même objet
 
soient présentées groupées dans un questionnaire. Toutefois, ***il faut
 
faire attention à ce que les réponses données par les répondants ne
 
soient pas influencées par l’ordre dans lequel les questions sont
 
posées***. Car il est vrai que l’influence entre question est bien plus
 
grande lorsque les questions sont présentées en batterie, par rapport à
 
un questionnaire ou elles seraient réparties dans toute sa longueur.
 
C’est toutefois pour rendre le questionnaire plus cohérent et pratique
 
que les batteries de questions sont fréquemment utilisées par les
 
chercheurs. C’est donc ***dans le but d’éviter les distorsions que
 
l’ordre des questions doit être réfléchi***. Il faut toutefois être
 
attentif au fait que s’il on décide de reprendre une batterie de
 
questions d’une enquête déjà effectuée dans le but de comparer les
 
résultats obtenus, il faut que les questions restent dans le même ordre
 
et ce, pour ne pas créer des effets de structures différents pouvant
 
influencer les réponses et donc induire de fausses variations. Voici un
 
exemple d’interdépendance entre question qui pointe très clairement que
 
le fait de répondre en premier à la question 1 influence la réponse
 
donnée à la question 2 :
 
![](./media/image47.png)
 
<nowiki>###</nowiki> La structure des sections
 
L’enjeu premier de la structure des sections du questionnaire est de
 
<nowiki>***</nowiki>laisser les structures de sens des individus remonter***. Ainsi, une
 
section doit être une ***séquence logique*** permettant à l’individu se
 
structurer progressivement sa pensée. C’est pourquoi on commence
 
toujours avec les questions les plus faciles, demandant le moins de
 
réflexion possible. Ensuite, on place les questions plus difficiles, le
 
répondant pouvant s’appuyer sur ses précédentes réponses pour structurer
 
un avis, avant de terminer par les questions les plus intrusives. En
 
effet, il est très important de les placer à la fin et non au début, au
 
risque de faire fuir un certains nombres de répondants.
 
<nowiki>###</nowiki> La longueur du questionnaire
 
La longueur du questionnaire est aussi un enjeu important. Un
 
questionnaire trop long risque de perdre tout une partie des répondants
 
n’ayant pas suffisamment de temps à y consacrer. C’est pourquoi ***il
 
est communément admis qu’un questionnaire ne dois pas durer plus de 30 à
 
45 minutes***. C’est pourquoi les questions présentées au sein du
 
questionnaire, en plus de comporter tous les précédents points discutés,
 
doivent être efficaces et utiles. Toutefois, cela ne représente qu’un
 
ordre de grandeur qu’il faut ***adapter à la population étudiée***. En
 
effet, il sera possible de questionner plus longtemps certaines
 
populations, comme des gens intéressés par la politique, et bien moins
 
longtemps d’autres populations, comme des personnes âgées. De plus,
 
<nowiki>***</nowiki>la longueur du questionnaire doit prendre en compte le mode de
 
passation utilisée***. Un questionnaire passé en face à face durera plus
 
long qu’un questionnaire administré par téléphone, qui lui-même sera
 
plus long que les questionnaires auto-administrés (internet, papier...).
 
<nowiki>###</nowiki> Synthèse
 
Lorsque l’on agence un questionnaire, il faut être ***attentif à l’ordre
 
des questions afin de limiter au maximum les effets de structures***. De
 
plus, réfléchir à ***la structure des sections*** au sein du
 
questionnaire est un enjeu important puisqu’elle doit servir à ***faire
 
remonter les structures de sens des répondants*** et ainsi, éviter les
 
réponses « de surface » (répondre la première chose qui nous vient à
 
l’esprit). Enfin, ***la longueur du questionnaire doit être adaptée à
 
la population cible ainsi qu’à la méthode de passation et ce, afin de ne
 
pas décourager de répondants***.
 
<nowiki>##</nowiki> Passation du questionnaire
 
Comme nous l’avons préalablement dit, il existe ***trois types
 
d’administration de questionnaire***. Choisir l’un plutôt que l’autre
 
implique une réflexion importante puisque ***la manière de faire passer
 
le questionnaire aura une influence sur les réponses récoltées***. Un
 
questionnaire peut être passé : 

 
  - En ***face à face***, c’est à dire que l’enquêteur et l’enquêté se
 
   retrouve lors d’un entretien au cours duquel l’enquêteur fait passer
 
   le questionnaire au répondant. Cela peut ***influencer les réponses
 
   de l’enquêté et ce, en fonction des propriétés sociales de
 
   l’enquêteur*** (femme, personnes de couleur, handicap...). 

 
  - En ***face à face indirect***, c’est à dire que l’enquêteur fait
 
   passer le questionnaire à l’enquêté sans être physiquement présent.
 
   C’est le cas des études par téléphone par exemple. Ce mode de
 
   passation annihile un certain nombre de biais, le répondant ne
 
   pouvant pas, de par ses propriétés sociales influencer le répondant
 
   puisque ce dernier n’a pas de contact direct avec lui. 

 
  - Par ***auto-administration***, c’est à dire que le répondant répond
 
   seul au questionnaire. C’est la technique la moins couteuse mais
 
   aussi la moins fiable. 

 
<!-- end list -->
 
  - Ainsi, ***le chercheur choisira l’une ou l’autre de ces méthodes de
 
   passation de questionnaire en fonction de la population cible, du
 
   taux de réponse désiré, de la longueur du questionnaire mais surtout
 
   en fonction des ressources à disposition (temps mais surtout
 
   argent).*** Chaque type de passation de questionnaire comporte des
 
   avantages et des inconvénients, comme le résume bien les deux
 
   tableaux suivants : 

 
![](./media/image48.png)
 
![](./media/image49.png)
 
<nowiki>###</nowiki> Conclusion
 
En résumé, on peut dire que ***l’élaboration d’un questionnaire
 
standardisé est un travail minutieux***. Chaque étape est essentielle et
 
nécessite une réflexion approfondie pour assurer la qualité des données
 
récoltées. C’est pourquoi l’élaboration d’un questionnaire représente
 
une étape difficile dans la mise en place d’une recherche quantitative.
 
<nowiki>##</nowiki> Les pré-tests
 
Une fois les questions, les modalités de réponses et le questionnaire
 
agencé dans son ensemble, les chercheurs lui font ***passer des
 
pré-tests***. Jamais un questionnaire n’est directement soumis à la
 
population cible. ***Les pré-tests permettent de déceler tous problèmes
 
induit pas le questionnaire***. Cela permet également de détecter si
 
certaines questions débouchent sur des variables qui sont peu
 
pertinentes pour l’analyse statistique. Le but est de voir si les
 
personnes participant au pré-test...
 
  - Comprennent uniformément les questions 

 
  - Si les catégories de réponses proposées font sens pour eux 

 
  - Si les catégories de réponses sont exhaustives 

 
  - Si les effets de structures ne sont pas trop grands 

 
  - Si le questionnaire leur semble cohérent 

 
  - Si la longueur du questionnaire n’est pas trop grande
 
La plupart du temps, les pré-tests se font auprès de 25 à 75 personnes
 
au sein de la population sondée. ***Le nombre de pré-tests n’est
 
préalablement pas connu puisque cela s’effectue de manière circulaire
 
et ce, jusqu’à ce qu’un nouveau pré-test ne décèle plus aucun problème
 
au sein du questionnaire***. C’est pourquoi on peut dire qu’au minimum,
 
deux pré-tests doivent être effectués avant la passation véridique du
 
questionnaire. 

 
<nowiki>#</nowiki> Echantillon : logique de l’échantillonnage
 
<nowiki>##</nowiki> Echantillon vs population
 
Dans la majorité des cas, la population qui nous intéresse ne peut pas
 
être observée de manière exhaustive. On travaille de ce fait avec un
 
échantillon de la population. Les caractéristiques de la population
 
sont inconnues puisqu’on ne détient pas toutes les informations tandis
 
que les caractéristiques de l’échantillon sont connues. Ainsi,
 
l’objectif est de déterminer les caractéristiques de la population en
 
fonction de celles de l’échantillon.
 
<nowiki>**</nowiki>Exemples**
 
Comment construire un échantillon dans les cas suivants ?
 
Etude de la perte de poids chez des personnes ayant perdu du poids par
 
elles-mêmes, sans avoir recours à des médecins ou des associations ?
 
![](./media/image50.emf)En général, on a une population et on va en
 
tirer un échantillon (pas ce qui nous intéresse mais il y a un besoin de
 
passer par un sous-ensemble – coûts, accessibilité, etc.). N :
 
population *n *: échantillon
 
<nowiki>##</nowiki> Qualité d’un bon échantillon
 
<nowiki>###</nowiki> Représentativité de l’échantillon
 
Un bon échantillon est **représentatif** de la population étudiée. Sauf
 
qu’il ne faut pas comprendre un échantillon représentatif comme une
 
photocopie en modèle réduit. On ne doit pas prendre toutes les
 
informations de la population. De plus, **un échantillon représentatif
 
est un échantillon dans lequel toutes les grandes caractéristiques de la
 
population qui sont utiles pour l’étude vont se retrouver**. Il est
 
parfois nécessaire de surreprésenter ou de sous-représenter certaines
 
catégories dans notre étude. Ces sur- et sous-représentations
 
volontaires seront corrigées au niveau des analyses statistiques à
 
l’aide de pondérations.
 
<nowiki>**</nowiki>Exemples **:
 
  - Etude sur les pratiques religieuses des résidents du canton de Vaud
 
  - Certaines religions sont très faiblement représentées dans le canton
 
   de Vaud
 
  - Prendre un échantillon aléatoire au sein de tous les résidents du
 
   canton de Vaud ne permettrait pas d’étudier les minorités
 
   religieuses.
 
<!-- end list -->
 
  - Nécessité de surreprésenter les personnes appartenant à des
 
   minorités religieuses
 
<nowiki>###</nowiki> Définition de la population étudiée
 
L’échantillon doit être représentatif de la population étudiée. Il faut
 
définir au préalable la population étudiée \! Cela implique des critères
 
d’inclusion et d’exclusion. Bien entendu, il faut s’assurer que la
 
population ainsi définie :
 
  - Permet bien de répondre aux objectifs de l’enquête
 
  - Est contactable de manière à en constituer un échantillon ; comment
 
   une partie de la population est contactable ? Si on ne peut
 
   l’atteindre, comment allons-nous procéder ?
 
<nowiki>###</nowiki> Taille de l’échantillon
 
La taille optimale *n* de l’échantillon n’est pas facile à déterminer
 
car elle dépend notamment :
 
  - Des méthodes statistiques qui seront utilisées
 
  - De la variabilité des données
 
  - De la **précision désirée** pour les résultats
 
Pour les situations simples (moyenne, comparaison de 2 populations, …)
 
des formules permettent de calculer la taille d’échantillon optimale.
 
Des facteurs extra-statistiques tels que la facilité de collecte des
 
données et les moyens (temps et argent) à disposition des enquêteurs
 
sont aussi considérer. Attention \! Il ne sert à rien de travailler avec
 
un échantillon plus grand que nécessaire \!
 
Exemple : estimation d’une proportion
 
Estimer la proportion de votants
 
En considérant le pire des cas (incertitude maximale), nous obtenons les
 
tailles d’échantillon nécessaires :
 
![](./media/image51.emf)
 
Exemples :
 
  - Votations no-billag (méthodologie utilisée) = sondage est une
 
   photographie des opinions publiques à un moment donné ; indication
 
   marge erreur, le nombre de personnes constituant l’échantillon
 
  - Elections au Grand Conseil Genevois ; indication marge erreur, le
 
   nombre de personnes constituant l’échantillon
 
<nowiki>###</nowiki> Variabilité de l’échantillon
 
Si je prends deux échantillons, je fais un sondage maintenant et dans
 
une heure je fais le même sondage mais avec un échantillon différent,
 
j’aurais de résultats distincts. Enormément d’échantillons différents
 
peuvent être obtenus à partir d’une même population, mais en pratique,
 
un seul d’entre eux sera utilisé pour les analyses statistiques. Quelles
 
implications ces différences ont-elles sur la qualité des résultats
 
statistiques ?
 
<nowiki>##</nowiki> Procédures d’échantillonnage
 
<nowiki>###</nowiki> Différentes procédures d’échantillonnage
 
Différentes procédures existent pour obtenir un échantillon. La règle
 
est de toujours essayer d’appliquer la procédure optimale par rapport au
 
contexte. Parfois, une même étude peut recourir à plusieurs procédures
 
de manière à recouvrir au mieux la population visée (*mixed modes*).
 
Dans ce cas, comment combiner au mieux les différents échantillons
 
obtenus ?
 
<nowiki>###</nowiki> Base de sondage
 
  - **Base de sondage** (=listing) : liste permettant de contacter
 
   individuellement toutes les personnes faisant partie de la
 
   population étudiée.
 
  - **Echantillon probabiliste **: défini à partir d’une
 
   <nowiki><span class="underline">base de sondage</span></nowiki>. S’il n’existe pas de
 
   base de sondage, alors on a un
 
   <nowiki><span class="underline">échantillonnage non-probabiliste</span></nowiki>.
 
   Pour les votations, pour la base de sondage, on pourrait avoir le
 
   registre de tous les votants. Si la question se pose sur la
 
   consommation de cocaïne, on n’aura pas de base de sondage et pour ce
 
   faire, on devrait procéder autrement et donc passer par une méthode
 
   empirique.
 
  - Il est préférable d’avoir un échantillon probabiliste car :
 
   
 
     - Permet d’éviter des biais de sélection
 
   
 
     - Permet de généraliser facilement à l’ensemble de la population
 
       (inférence)
 
<nowiki>###</nowiki> Défaut de couverture
 
Une base de sondage incomplète engendre des biais car une partie de la
 
population visée ne sera pas présente. On appelle cela un **défaut de
 
couverture**. Les causes principales pour ce genre de phénomène est
 
qu’il peut y avoir des changements par rapport à une situation de
 
référence ou une non-connaissance de certains cas.
 
Par exemple : L’annuaire téléphonique n’est pas une base
 
d’échantillonnage exhaustive puisqu’on peut éviter d’y être en tant
 
que citoyen, de moins en moins de personnes ont des numéros fixes et
 
souvent, il n’y avait que le numéro d’une seule personne de la famille
 
et cela touchait qu’une seule personne.
 
<nowiki>###</nowiki> Tirages avec remises
 
Les tirages sont indépendants les uns des autres :
 
  - Un cas est sélectionné dans la population, il est étudié
 
   (questionnaire), puis il est remis dans la population.
 
  - Un second cas est ensuite sélectionné et étudié, etc.
 
Le risque est qu’on peut sélectionner et étudier à plusieurs reprises le
 
même cas. Les <nowiki><span class="underline">avantages</span></nowiki> est qu’ils sont
 
plus simples à gérer, permettent un meilleur anonymat et ils sont plus
 
pratiques d’un point de vue mathématique. Sauf si l’on travaille avec un
 
échantillon de relativement grande taille par rapport à celle de la
 
population (taux de sondage élevé), on considère en général que les
 
tirages sont avec remises.
 
<nowiki>###</nowiki> Tirages sans remise
 
Les tirages sont dépendants les uns des autres :
 
  - Un cas est sélectionné dans la population, il est étudié mais il
 
   n’est pas remis ensuite dans la population.
 
  - Un second cas est sélectionné et étudié, etc.…
 
Les cas sont différentes les uns des autres. Les
 
<nowiki><span class="underline">avantages</span></nowiki> sont que les résultats sont
 
plus précis (variance plus petite) que les tirages avec remises.
 
Cependant, la différence s’amenuise rapidement avec l’augmentation de la
 
taille de l’échantillon.
 
<nowiki>###</nowiki> Méthodes empiriques de sondage
 
L’échantillonnage empirique est généralement utilisé lorsqu’il n’y a pas
 
de base de sondage. La probabilité qu’un membre de la population soit
 
inclue dans l’échantillon n’est pas connue. Les principales méthodes
 
empiriques sont :
 
  - Les quotas
 
  - Les itinéraires
 
  - L’emplacement
 
  - Le volontariat
 
  - La boule de neige
 
Toutes ces méthodes génèrent des **échantillons d’opportunité** (formé
 
sur la base de méthodes empiriques) par opposition aux échantillons
 
probabilistes.
 
<nowiki>####</nowiki> Les quotas
 
On choisit un certain nombre de caractéristiques dont on connaît la
 
distribution au sein de la population étudiée (âge, sexe…). Ces
 
caractéristiques doivent être relevant pour l’étude en cours. On
 
constitue un échantillon en respectant les mêmes proportions pour ces
 
caractéristiques que celles de l’ensemble de la population. Un sondage
 
par quota est plus simple à mettre en œuvre qu’un sondage probabiliste,
 
car les personnes interrogées d’un groupe sont parfaitement
 
interchangeables et une personne manquante peut être remplacée par
 
n’importe quelle autre personne du même groupe.
 
<nowiki>**</nowiki>Exemple **:
 
Supposons que la population fréquentant habituellement un centre de
 
fitness lausannois comporte 60% de femmes, 20% des clients ont moins de
 
18 ans et 20% plus de 60 ans, et la moitié travaille dans le secteur
 
bancaire.
 
On constitue ensuite un échantillon en respectant les mêmes proportions
 
pour ces caractéristiques que celles de l’ensemble de la population.
 
Un enquêteur pourrait alors recevoir les consignes suivantes :
 
![](./media/image52.emf)
 
Si l’on connait en plus la répartition croisée des trois variables sexe,
 
âge et secteur d’activité, on pourrait alors avoir quelque chose
 
d’encore plus précis :
 
![](./media/image53.emf)
 
<nowiki>####</nowiki> Les itinéraires
 
L’enquêteur suit un itinéraire défini très précisément, avec un point de
 
départ et un point d’arrivée. Il doit ensuite réaliser des interviews
 
dans un certain nombre d’endroits (logements ou autres) soit définis au
 
préalable par exemple par tirage au sort, soit selon un critère précis
 
(par exemple interroger une personne sur 5 qu’il rencontre ou une
 
personne tous les 500 mètres). L’itinéraire coïncide avec une voie
 
ferrée entre deux villes et on veut étudier les nuisances perçus par
 
les personnes habitant à proximité de cette voie.
 
<nowiki>####</nowiki> L’emplacement
 
Un lieu et un moment sont définis pour la création de l’échantillon. On
 
interroge alors les personnes qui s’y trouvent.
 
Exemples : enquête réalisée devant l’entrée d’un magasin ; au service
 
des urgences du CHUV ; au départ de la ligne 31 des tl, à Renens, le
 
lundi entre 6h30 et 8h30.
 
<nowiki>####</nowiki> Le volontariat
 
On se base sur le bon vouloir des gens et seuls ceux qui veulent
 
répondent et entrent dans l’échantillon. Le problème est que ce n’est
 
pas forcément représentatif de la population, une personne pourrait
 
remplir le questionnaire plusieurs fois et les personnes peuvent
 
répondre au hasard etc.
 
<nowiki>####</nowiki> La boule de neige
 
Dans un système de type boule de neige, on choisit tout d’abord un
 
ensemble de personnes faisant partie de la population étudiée. On
 
demande ensuite à ces personnes d’en contact d’autres qu’elles
 
connaissent et qui font aussi partie de la population étudiée. Ces
 
personnes en contacteront d’autres à leur tour etc. L’échantillon final
 
sera constitué de toutes les personnes contactées. Le problème est qu’on
 
ne sait pas qui il y a dans la population et le nombre est incertain
 
parfois. Pour ce faire, on y insert des probabilités.
 
Exemple : enquête auprès de consommateurs de drogues.
 
<nowiki>####</nowiki> Le RDS (Respondent-Drive-Sampling)
 
Il s’agit d’une tentative visant à rendre probabiliste la méthode de la
 
boule de neige. La grande différence réside dans le fait que le RDS ne
 
cherche pas uniquement à collecter un échantillon mais aussi à
 
déterminer certaines caractéristiques de la population concernée,
 
notamment sa taille. L’autre différence consiste à réduire l’impact du
 
choix des personnes utilisées pour amorcer la collecte des données sur
 
l’échantillon final.
 
<nowiki>###</nowiki> Avantages des méthodes empiriques
 
  - Simples à mettre en œuvre
 
  - Ne nécessitent pas de base de sondage exhaustive
 
  - Permettent de collecter de l’information dans des situations
 
   difficiles
 
<nowiki>###</nowiki> Désavantages des méthodes empiriques
 
  - Tous les membres de la population n’ont pas la même probabilité de
 
   faire partie de l’échantillon.
 
  - Les individus sont interchangeables. Un non-répondant pourra être
 
   remplacé par une autre personne même si le non-répondant a peut-être
 
   des caractéristiques très différentes de celles de l’autre personne.
 
  - Il est difficile de calculer des marges d’erreur ou de manière plus
 
   générale de faire l’inférence statistique de bonne qualité.
 
<nowiki>###</nowiki> Probabilité d’inclusion
 
Dans une méthode probabiliste, chaque membre de la population a une
 
probabilité connue a priori d’être inclus dans l’échantillon. Cette
 
probabilité est appelée la **probabilité d’inclusion**. Pour pouvoir
 
calculer les probabilités d’inclusions, il est obligatoire de disposer
 
d’une base de sondage exhaustive de la population étudiée.
 
<nowiki>###</nowiki> Taux d’échantillonnage
 
Le taux d’échantillonnage *f* (ou taux de sondage) est calculée
 
comme![](./media/image54.emf) avec :
 
  - N : taille de la population
 
  - *n* : taille de l’échantillon
 
<!-- end list -->
 
  - Ces deux inconnus sont supposés être connues et finies.
 
<nowiki>###</nowiki> Différence avec les quotas
 
Au contraire de la méthode des quotas dans laquelle on essaie
 
généralement de mimer au plus juste la population étudiée, les
 
méthodes probabilistes permettent de sur-échantillonner ou de
 
sous-échantillonner sciemment certaines catégories de la population.
 
L’avantage est de pouvoir ainsi disposer pour les analyses d’un nombre
 
suffisant de personnes de chaque catégorie. En sachant par quel facteur
 
certaines catégories ont été sur ou sous-représentées, il sera ensuite
 
possible de corriger les estimations en conséquence en attribuant à ces
 
personnes une pondération différente de celle des autres personnes.
 
<nowiki>###</nowiki> Plans d’échantillonnage simples
 
Un sous-ensemble de *n* cas est sélectionné de façon mé dans l’ensemble
 
de la population.
 
Deux procédures usuelles :
 
  - **Echantillonnage aléatoire simple **: les *n* cas sont sélectionnés
 
   au hasard de telle manière que la probabilité d’être sélectionné
 
   soit la même pour chaque membre de la population étudiée.
 
  - **Echantillonnage systématique **: sur la base d’un registre de la
 
   population, on sélectionne aléatoirement un cas assez proche du
 
   début de la liste, puis on sélectionne systématiquement un cas tous
 
   les X éléments de la liste (pas de l’échantillonnage, X = 10, 25,
 
   100…).
 
<nowiki>####</nowiki> Limites de l’échantillonnage simple
 
Ne s’applique que si la population est homogène dans son ensemble ou du
 
moins, si les sous-populations sont toutes de même taille et s’il n’y a
 
pas de raison de supposer que le taux de non-réponse différera d’une
 
sous-population à l’autre. Si certains sous-groupes intéressants pour
 
l’étude sont rares par rapport à la taille de la population, on ne
 
collectera que peu ou pas de données les concernant. Dans le cas de
 
l’échantillonnage systématique, il ne doit pas y avoir de liens entre
 
le pas de l’échantillonnage et les individus sélectionnés. (Si on prend
 
1 sur 2, il ne faut pas que ce soient systématiquement les hommes dans
 
des couples mariées).
 
<nowiki>###</nowiki> Plans d’échantillonnage à plusieurs niveaux
 
La population est d’abord divisée en plusieurs sous-populations en
 
fonction d’une variable de contrôle, puis des procédures
 
d’échantillonnage sont appliquées à chaque sous-population. Les
 
sous-populations peuvent elles-mêmes être redivisées sur la base d’un
 
autre critère. Ces procédures s’appliquent lorsque la population étudiée
 
n’est pas homogène et que l’on veut s’assurer que toutes les composantes
 
de l’échantillon se retrouveront dans l’échantillon.
 
  - Deux cas limite : les **tirages par strates** et les **tirages par
 
   grappes**.
 
<nowiki>####</nowiki> Tirages par strates
 
Un échantillon aléatoire est sélectionné dans chacun des
 
sous-populations :
 
![](./media/image55.emf) C’est utilisé lorsque les données sont
 
supposées être homogènes au sein de chaque sous-population mais
 
hétérogènes entre ces mêmes sous-populations (Exemples de strates :
 
cantons, genres…)
 
<nowiki>####</nowiki> Tirages par grappes
 
Un échantillon de sous-populations est sélectionné aléatoirement puis
 
chacune des sous-populations sélectionnée est étudiée de façon
 
<nowiki>exhaustive : ![](./media/image56.emf)</nowiki>
 
Utilisé lorsque les données sont homogènes d’une sous-population à
 
l’autre mais hétérogènes au sein de chaque sous-population. (Exemples
 
de grappes : ménages, classes d’écoles)
 
<nowiki>###</nowiki> Les 3 logiques des méthodes multi-niveaux
 
1.  Au niveau de l’ensemble de la population étudiée, les estimations
 
   des paramètres intéressants doivent être exactes (sans biais) et
 
   précises.
 
2.  Au niveau des sous-populations que l’on veut pouvoir étudier, on
 
   doit disposer de suffisamment de données pour obtenir des résultats
 
   exacts et précis.
 
3.  L’échantillon total doit être réparti entre les sous-populations de
 
   manière à prendre en compte et à exploiter la variabilité de chacune
 
   d’entre-elles.
 
![](./media/image57.emf)
 
<nowiki>###</nowiki> Avantages des méthodes probabilistes
 
  - Permettent de collecter un échantillon vraiment représentatif de la
 
   population.
 
  - Autorisent la prise en compte lors des analyses statistiques de
 
   sous-population sur ou sous-représentées.
 
  - Permettent de faire l’inférence statistique et de déterminer les
 
   caractéristiques de la population sur la base de celles de
 
   l’échantillon.
 
<nowiki>###</nowiki> Désavantages des méthodes probabilistes
 
  - Plus difficiles à mettre en œuvre que les méthodes empiriques -\> il
 
   faut penser à plus de choses \!
 
  - Nécessitent une base de sondage exhaustive de la population étudiée.
 
  - Sensibles à des problèmes imprévus : questionnaire non-transmis à
 
   certains membres de l’échantillon
 
<nowiki>##</nowiki> Traitement préalable des données
 
<nowiki>###</nowiki> Saisie des données
 
Les données doivent être saisies dans une base de données que ce soit
 
durant la collecte des données ou après :
 
  - Saisie manuelle (clavier d’ordinateur)
 
  - Saisie automatique (code barre, scanner, questionnaire informatisé
 
   sur internet)
 
<!-- end list -->
 
  - Toute saisie de données implique des risques d’erreurs.
 
<nowiki>###</nowiki> Données manquantes
 
Les données manquantes sont des données dont la récolte avait été
 
planifiée mais qui n’ont pas pu être récoltées :
 
  - <nowiki><span class="underline">Non-réponses totales </span></nowiki>: un répondant
 
   n’a pas du tout répondu à l’enquête.
 
  - <nowiki><span class="underline">Non-réponses partielles </span></nowiki>: un
 
   répondant n’a pas répondu à une partie des questions.
 
Simplement ignorées ? Non car il y a des conséquences sur les analyses
 
statistiques :
 
  - <nowiki><span class="underline">Biais </span></nowiki>: la valeur estimée ne
 
   correspond pas à la réalité
 
  - <nowiki><span class="underline">Manque de précision </span></nowiki>: marge d’erreur
 
   et variabilité des résultats élevées.
 
<nowiki>###</nowiki> Non-réponses totales
 
3 types de non-répondants :
 
1.  Non-valides : impossibilité de réponse (décédés, déménagés, ne
 
   faisant pas réellement partie de la population cible.
 
2.  Non-contacts : impossibilité de contacter
 
3.  Refus : refus de répondre
 
L’impact sur les résultats dépend de la catégorie de non-répondants.
 
Dans le cas d’enquêtes longitudinales, on parle d’**attrition**
 
lorsqu’une personne arrête de répondre à l’enquête après une certaine
 
vague de celle-ci.
 
<nowiki>###</nowiki> Non-réponses partielles
 
Causes aux non-réponses partielles :
 
  - Questionnaire trop long
 
  - Manque d’intérêt
 
  - Questions sensibles
 
  - Bug lors de la sauvegarde des données
 
Dans le cas de questionnaires formatisés, il est possible de rendre
 
obligatoire les réponses. La présence de non-réponses partielles
 
implique que les calculs statistiques ne se feront peut-être pas
 
toujours sur le même échantillon.
 
<nowiki>###</nowiki> Traitement des données manquantes
 
Les données manquantes traitées :
 
  - Durant la collecte : incitations à répondre (cadeau, tirage au
 
   sort…)
 
  - Après la collecte : Imputation, reconstitution de la vraie valeur à
 
   partir d’un autre fichier de données.
 
Dans certains cas, il n’y malheureusement pas de moyen pour traiter les
 
données manquantes et il ne rste qu’à prendre en compte le fait que
 
certaines données sont absentes.
 
<nowiki>###</nowiki> Données aberrantes
 
Les données aberrantes sont les données dont la valeur est clairement
 
fausse :
 
  - Valeurs trop grandes ou trop petites (personne de 3m)
 
  - Valeurs impossibles (âge négatif)
 
  - Incompatibilité entre les valeurs de deux variables (enfant ayant le
 
   permis de conduire)
 
Ces données doivent être détectées puis corrigées ou dans le pire des
 
cas remplacées par des données manquantes.
 
<nowiki>###</nowiki> Construction de nouvelles variables
 
Certains items d’un questionnaire forment une échelle et ne sont pas
 
destinées à l’analyse séparément. Il est aussi possible de créer de
 
nouvelles variables en combinant les variables existantes.
 
Exemples :
 
  - Internet Addiction Teste (IAT) : échelle mesurant le degré avec
 
   lequel l’utilisation qui est faite d’internet est problématique. Il
 
   est composé de 20 items prenant des valeurs de 1 à 5 et son score
 
   total est calculé en additionnant les 20 réponses obtenuse.
 
<nowiki>  - BMI (Body Mass Index) : ![](./media/image58.emf)</nowiki>
 
<nowiki>#</nowiki> Inférence statistique – analyse des données et interprétation
 
<nowiki>##</nowiki> Statistique inférentielle
 
<nowiki>###</nowiki> Jugement sur l’échantillon
 
Un échantillon a du sens dans l’interprétation où on tire des choses de
 
l’échantillon pour les inférer dans la population. Le centre d’intérêt
 
n’est pas vraiment l’échantillon mais bien la population. On part d’un
 
échantillon pour avoir des caractéristiques et elles vont être
 
similaires à celles de la population si notre échantillon est bien
 
formé. Il va ainsi représenter la population.
 
![](./media/image59.emf)
 
L’<nowiki><span class="underline">objectif </span></nowiki>: de déterminer les
 
caractéristiques / paramètres / estimations / valeurs d’une population
 
à partir d’un échantillon issu de celle-ci. On a deux outils principaux
 
pour l’inférence statistique :
 
  - *Estimation* (ponctuelle (une seule valeur) ou par intervalle
 
   (intervalle de valeur)
 
  - *Tests d’hypothèses* (on se fixe certaines hypothèses et on regarde
 
   si elles sont vraies ou fausses. On va parler d’un faisceau de
 
   preuves qui vont nous permettre de valider / réfuter nos
 
   hypothèses).
 
<!-- end list -->
 
  - Ces outils sont utilisés dans presque tous les modèles statistiques.
 
   L’estimation par intervalle et les tests sont basés sur des lois de
 
   probabilité continues théoriques.
 
Exemple : le niveau d’activité physique
 
Nous voulons étudier le niveau d’activité physique des jeunes de 18 ans
 
en Suisse. Ce niveau d’activité physique est défini comme le nombre de
 
jours par semaine où l’on effectue une activité physique soutenue. Nous
 
disposons d’un échantillon de n = 77 personnes (37 hommes et 40 femmes)
 
alors que la population étudiée est d’environ 80'000 personnes.
 
  - Question : comment obtenir à partir de l’échantillon des résultats
 
   qui s’appliquent fiablement à l’ensemble de la population ?
 
<nowiki>###</nowiki> Utilité des lois continues
 
Les données observées d’une variable ou certaines caractéristiques en
 
découlant (moyenne, variance…) peuvent souvent prendre une
 
quasi-infinité de valeurs. On s’intéresse alors à la distribution de ces
 
quantités et l’on utilise pour cela des lois de probabilité continues
 
dont les principales sont :
 
  - **Loi normal (loi de Laplace-Gauss)**
 
  - Loi du chi-2 (comparaison bivariante entre 2 populations avec
 
   variables de type qualitative ; variable dépendante d’une autre ?)
 
  - Loi de Student (si on ne connaît pas grand-chose sur la population ;
 
   avec échantillon suffisamment grand)
 
  - Loi de Fisher-Snedecor (comparaison de variance de deux ou plusieurs
 
   variances)
 
<!-- end list -->
 
  - Ces lois sont parfaitement connues et des tables statistiques
 
   permettent de déterminer les probabilités qui leurs sont associées.
 
<nowiki>##</nowiki> Définition de la loi normale
 
Soit une variable X représentant la somme de nombreux effets dont aucun
 
ne domine les autres. Alors, ![](./media/image60.emf)C’est une écriture
 
considérant une variable aléatoire nommé X (donnée continue tel que la
 
quantité en gramme de yogourt) suivant les valeurs d’une loi dont les
 
paramètres sont la moyenne et la variance au carré. C’est une
 
distribution symétrique puisque les valeurs de l’infini à l’infini.
 
Elle se caractérise par deux paramètres, à savoir la moyenne et la
 
variance.
 
Dans le graphique à gauche, on disperse les valeurs. On l’interprète à
 
droite en tant que valeurs possibles pour l’axe des X et en ordonnées
 
(axe des Y) ce sont des probabilités. La probabilité devient plus faible
 
en s’éloignant des 0.
 
![](./media/image61.emf)
 
<nowiki>###</nowiki> Loi normale centrée- réduite
 
Il est toujours possible de passer d’une loi normale X de moyenne
 
\(\mu\) et de variance \(\sigma^{2}\) à une autre loi normale ayant
 
d’autres caractéristiques. En particulier, la loi normale de moyenne 0
 
et de variance 1 est appelée la **loi normale centrée-réduite**. Elle
 
est notée Z est défini comme :
 
![](./media/image62.emf)
 
  - Cela revient à soustraire la moyenne et diviser par l’écart-type de
 
   la loi normale X d’origine.
 
Les probabilités sont représentées par la surface comprise entre la
 
fonction de densité de la loi et l’axe horizontal :
 
![](./media/image63.emf)
 
Cette loi normale, comme toute loi de distribution, permet de faire des
 
calculs de probabilité. La probabilité qu’un cas apparaissent est
 
représenté par la surface sous la courbe formée à l’aide du jeu de
 
données. Ainsi, lorsque l’on calcule des probabilités, on ne
 
s’intéresse qu’à une partie spécifique du graphique : entre – 1.96 et
 
+ 1. 96 pour avoir 95% de la surface sous la courbe. Mais le plus
 
important est de savoir que tout calcul de probabilité provient d’une
 
loi normale.
 
Les probabilités les plus importantes en fonction d’un seuil z :
 
![](./media/image64.emf)
 
  - Pour toute fonction de probabilité, l’air sous la courbe = 1 et cela
 
   signifie qu’on a le 100% de toutes les valeurs. La fonction de
 
   densité est la courbe de la fonction. Si on s’écarte de 1.96, la
 
   probabilité d’être dans cette zone est de 0.95.
 
<nowiki>###</nowiki> Théorème central-limite
 
Soit une suite (X<nowiki><sub>1,</sub></nowiki> X<nowiki><sub>2</sub></nowiki>… X<nowiki><sub>n</sub></nowiki>) de *n*
 
variables aléatoires (\(\mu\), \(\sigma^{2}\)). Lorsque *n* -\>
 
\(\infty\), la distribution de ![](./media/image65.emf) tend vers la loi
 
N (\(\mu\), \(\sigma^{2}\)). Quelle que soit la distribution d’une
 
variable numérique dans la population, la distribution de la moyenne de
 
la variable suit une loi normale.
 
<nowiki>##</nowiki> Estimation
 
<nowiki>###</nowiki> Concepts
 
<nowiki>**</nowiki>L’estimation** consiste à assigner une valeur à un paramètre de la
 
population sur la base de ce qui a été trouvé au sein d’un échantillon
 
issu de celle-ci.
 
<nowiki>**</nowiki>Estimation ponctuelle **: on assigne une valeur précise au paramètre.
 
<nowiki>**</nowiki>Estimation par intervalle **: on assigne un intervalle de valeurs au
 
paramètre.
 
  - Lorsqu’on a une estimation et non la vraie valeur (généralement
 
   inconnue) du paramètre, on surmonte le nom du paramètre d’un
 
   chapeau : \(\widehat{\mu}\) au lieu de \(\mu\).
 
<nowiki>###</nowiki> Principe de l’estimation ponctuelle
 
Si l’échantillon utilisé est de bonne qualité, il doit représenter
 
fidèlement la population. Par conséquent, les paramètres estimés dans
 
l’échantillon doivent prendre des valeurs proches de celles de la
 
population. L’estimation ponctuelle consiste donc à estimer **la**
 
valeur d’un paramètre de la population sur la base de la valeur calculée
 
sur l’échantillon. Elle est notée à l’aide du paramètre surmonté d’un
 
<nowiki>accent circonflexe (un chapeau) : ![](./media/image66.emf).</nowiki>
 
<nowiki>###</nowiki> Propriété : absence de biais
 
Le **biais** d’un estimateur est la différence entre l’espérance de cet
 
estimateur et la vraie valeur du paramètre estimé. Un estimateur est
 
<nowiki>**</nowiki>non-biaisé** si son espérance (valeur moyenne) est égale à la vraie
 
valeur de la population.
 
![](./media/image67.emf)![](./media/image68.emf)
 
<nowiki>###</nowiki> Propriété : convergence
 
Un estimateur ![](./media/image69.emf) est dit **convergent** si,
 
lorsque la taille n de l’échantillon devient grande, le biais
 
disparaît :
 
![](./media/image70.emf)
 
Et la variance devient nulle :
 
![](./media/image71.emf)
 
  - Cela revient à dire que lorsque la taille de l’échantillon augmente,
 
   l’estimation devient de plus en plus précise.
 
<nowiki>###</nowiki> Estimateur absolument correct
 
Un estimateur non-biaisé et convergent est dit **absolument correct**.
 
Souvent, la valeur du paramètre calculée à partir de l’échantillon est
 
une estimation valable de la valeur de ce même paramètre au sein de la
 
population.
 
<nowiki>###</nowiki> Estimateur de la moyenne
 
La moyenne est un estimateur absolument correct :
 
![](./media/image72.emf) non biaisé et convergent :
 
![](./media/image73.emf)
 
Exemple : niveau d’activité physique
 
![](./media/image74.emf)
 
\(\widehat{\mu}\) = 2.75 est l’estimation ponctuelle de la moyenne pour
 
la population.
 
<nowiki>###</nowiki> Estimateur de la variance
 
La formule de la variance d’une population ne définit pas un estimateur
 
sans biais. C’est pourquoi, un estimateur absolument correct de la
 
<nowiki>variance est : ![](./media/image75.emf)</nowiki>
 
Exemple au niveau de l’activité physique :
 
![](./media/image76.emf)
 
\(\sigma^{2}\) = 2.35 est l’estimation ponctuelle de la variance pour la
 
population.
 
<nowiki>###</nowiki> Principe de l’estimation par intervalle
 
Un échantillon n’est pas toujours une image parfaitement fidèle de la
 
population. En faisant une estimation ponctuelle, on attribue une valeur
 
précise ![](./media/image77.emf) à un paramètre mais on court le risque
 
que la valeur ainsi obtenue soit éloignée de la réalité. Au lieu de
 
fournir une estimation ![](./media/image77.emf), on construit un
 
intervalle de valeurs de la forme :
 
![](./media/image78.emf)
 
dans lequel la vraie valeur du paramètre a une certaine probabilité
 
fixée à l’avance, notée ![](./media/image79.emf) de se trouver.
 
![](./media/image79.emf) est appelé le **degré de confiance**
 
![](./media/image80.emf) est le **risque de première espèce**
 
<nowiki>###</nowiki> Choix du risque de première espèce
 
![](./media/image81.emf)
 
Le choix du risque de première espèce ![](./media/image82.emf) est
 
déterminant car il influence directement l’utilité des résultats :
 
  - Si ![](./media/image82.emf) est très **petit**, l’intervalle est
 
   très fiable, mais il devient tellement large qu’il ne nous
 
   renseigne plus de façon utile sur la vraie valeur du paramètre.
 
  - Si ![](./media/image82.emf) est très **grand**, l’intervalle est
 
   très précis (=étroit) mais la probabilité qu’il recouvre
 
   effectivement la vraie valeur du paramètre est faible.
 
<!-- end list -->
 
  - On choisit généralement un risque de ![](./media/image82.emf) de 5%.
 
Exemple : le niveau d’activité physique
 
Au seuil ![](./media/image82.emf) = 5%
 
Intervalle de confiance pour l’échantillon \[2.42 ; 3.10\].
 
<nowiki>Femmes seulement : \[2.10 ; 3.10\]</nowiki>
 
<nowiki>Hommes seulement : \[2.41 ; 3.42\]</nowiki>
 
Y a-t-il des preuves attestant que le niveau d’activité physique dans la
 
population est différent entre les femmes et les hommes ?
 
On ne peut pas l’estimer précisément puisque le seuil de
 
l’![](./media/image82.emf) est de 5%, on aurait donc que 95% de
 
probabilité et on est faiblement renseigné sur la vraie valeur du
 
paramètre. Comme les deux intervalles entre hommes et femmes ont des
 
valeurs communes, on ne peut pas déterminer avec justesse qu’il y a des
 
différences entre les deux catégories.
 
La véritable valeur se trouve quelque part dans l’intervalle \! Est-ce
 
qu’on peut avoir une identique pour les deux intervalles ? Les deux
 
intervalles se superposent et ici, avec une probabilité d’erreur de 5%,
 
il n’est pas possible de dire que statistiquement, le taux d’activité
 
des femmes est différent de celui des hommes. Il n’y a pas suffisamment
 
de preuves que c’est distinct.
 
<nowiki>###</nowiki> Intervalle de confiance et taille de l’échantillon
 
L’intervalle de confiance pour une moyenne \(\mu\) s’écrit :
 
![](./media/image83.emf)
 
![](./media/image84.emf)
 
On prend la moyenne de notre échantillon et on s’écarte un petit peu
 
vers la gauche et la droite. Cette précision s’exprime mathématiquement
 
par un quantile qui est le Z d’ordre 1- \(\alpha\)(risque de se tromper)
 
/ 2. Donc l’intervalle recherchée ne se retrouve pas dans l’intervalle
 
de confiance.
 
La **précision** de l’estimation correspond au demi intervalle de
 
<nowiki>confiance : ![](./media/image85.emf)</nowiki>
 
<nowiki>Il en découle que : ![](./media/image86.emf)</nowiki>
 
  - La taille de l’échantillon *n* ainsi calculée représente la taille
 
   minimale nécessaire pour atteindre la précision d recherchée. Si je
 
   connais la variance d’une population et de la précision voulue, je
 
   peux calculer la taille de l’échantillon.
 
<nowiki>**</nowiki>Exemple : le niveau d’activité physique**
 
L’échantillon utilisé comporte *n* = 77 personnes (données valides). Au
 
niveau global, l’intervalle de confiance pour ![](./media/image82.emf) =
 
5% vaut \[2.41 ; 3.10\] et la précision obtenue est
 
![](./media/image87.emf).
 
Pour obtenir une précision d=0.1, toutes choses étant égales par
 
ailleurs, il aurait fallu un échantillon de taille :
 
![](./media/image88.emf) soit au minimum 903 personnes. En pratique, il
 
est aussi nécessaire jongler avec le budget qui va influencer la taille
 
de l’échantillon et la précision qu’on pourrait obtenir.
 
<nowiki>#</nowiki> Tests d’hypothèses : analyse des données et interprétation
 
<nowiki>##</nowiki> Principe
 
On formule une hypothèse sur la population étudiée. On vérifie si
 
l’échantillon utilisé provient bien (avec un certain degré de
 
confiance) de la population étudiée. Le test statistique lui-même
 
correspond à la règle de décision. Que tester ? :
 
  - La valeur d’un paramètre (notamment son égalité à 0 = test de
 
   significativité)
 
  - L’égalité de deux ou plusieurs paramètres
 
  - La forme de la distribution d’une ou plusieurs variables
 
<nowiki>##</nowiki> Hypothèses nulles et alternatives
 
Un test consiste à choisir entre deux hypothèses en fonction d’un
 
échantillon :
 
  - L’hypothèse nulle, notée H<nowiki><sub>0</sub></nowiki> est l’hypothèse de base du
 
   test, celle qui est considérée comme vraie jusqu’à preuve du
 
   contraire. (= status quo)
 
  - L’hypothèse alternative, notée H<nowiki><sub>1</sub></nowiki>, est son « contraire ».
 
   (= ce que l’on aimerait montrer)
 
<nowiki>Exemple : ![](./media/image89.emf)</nowiki>
 
H<nowiki><sub>0</sub></nowiki> est rejetée dès lors que la valeur de la statistique de
 
test observée dans l’échantillon est trop différente de la valeur
 
théorique postulée sous H<nowiki><sub>0</sub></nowiki> pour la population. Grâce au
 
calcul, on veut savoir si c’est plausible d’avoir H<nowiki><sub>0</sub></nowiki>.
 
L’hypothèse nulle porte généralement sur une seule valeur ou sur une
 
égalité entre paramètres. On parle d’hypothèse simple :
 
![](./media/image90.emf)
 
L’hypothèse alternative regroupe généralement un très grand nombre de
 
situations différentes. C’est une hypothèse composite avec 3 variantes :
 
![](./media/image91.emf)
 
<nowiki>**</nowiki>Exemple : au tribunal**
 
Une personne est jugée. Les hypothèses suivantes sont formulées :
 
![](./media/image92.emf)
 
![](./media/image93.emf)
 
  - P (condamner un innocent) = \(\alpha\) Erreur de type I
 
  - P (acquitter un coupable) = \(\beta\) Erreur de type II
 
Ne pas condamner un innocent est prioritaire par rapport à acquitter un
 
coupable \!
 
<nowiki>###</nowiki> Risques, puissance
 
![](./media/image94.emf)
 
\(\text{α\ }\) = Erreur de première espèce (type I) =\> risque de
 
rejeter faussement H<nowiki><sub>0</sub></nowiki>
 
\(\beta\) = Erreur de deuxième espèce (type II) =\> risque de rejeter
 
faussement H<nowiki><sub>1</sub></nowiki>
 
1 – \(\beta\) = puissance du test (probabilité de ne pas se tromper en
 
rejetant H<nowiki><sub>0</sub></nowiki> )
 
<nowiki>##</nowiki> Risque de première et de seconde espèce
 
  - Risque \(\text{α~}\):
 
   
 
     - Spécifié par le chercheur avant d’effectuer le test
 
   
 
     - Fixé généralement à 5%.
 
  - Risque \(\beta\) :
 
   
 
     - N’est pas choisi librement mais dépend des autres éléments de
 
       l’analyse (risque \(\alpha,\) taille de l’échantillon, écart
 
       entre les 2 hypothèses du test…)
 
   
 
     - Plutôt que \(\beta\), on considère souvent la notion de
 
       **puissance** du test, à savoir la probabilité d’accepter
 
       (lorsqu’elle doit l’être) l’hypothèse alternative
 
       H<nowiki><sub>1</sub></nowiki> : 1 – \(\beta\) = P(accepter H<nowiki><sub>1</sub></nowiki> /
 
       H<nowiki><sub>1</sub></nowiki> vraie)
 
<!-- end list -->
 
  - Risque de première et de deuxième espèce sont liés puisque si
 
   j’augmente un, je diminue l’autre et vice versa.
 
Exemple d’un test unilatéral à droite :
 
![](./media/image95.emf)
 
Situations problématiques :
 
\(\alpha\) est trop petit -\> \(\beta\) est grand
 
H<nowiki><sub>1</sub></nowiki> peut différent de H<nowiki><sub>0</sub></nowiki> -\> \(\beta\) est grand
 
![](./media/image96.emf)
 
Sur ce graphique, on peut observer deux lois normales, chacune
 
correspondant à une hypothèse. A gauche, on a la distribution de
 
H<nowiki><sub>0</sub></nowiki> (notre hypothèse nulle) si elle est vraie. A droite, on a
 
la distribution H<nowiki><sub>1</sub></nowiki> si c’est l’hypothèse alternative qui est
 
vraie. Ces deux intervalles découpent l’ensemble des possibles en
 
matière de moyenne en deux zones, celle proche de H<nowiki><sub>0</sub></nowiki> et
 
celle proche de H<nowiki><sub>1</sub></nowiki>. « r » représente la zone de rejet,
 
c’est-à-dire que selon où on se situe par rapport à elle, on
 
acceptera l’une ou l’autre des hypothèses. Ainsi, la surface de la zone
 
orange représente la probabilité de rejeter faussement l’hypothèse nulle
 
alors que la surface de la zone verte représente le risque de rejeter
 
faussement l’hypothèse alternative.
 
Si on souhaite non pas avoir un alpha à 5% comme généralement accepté,
 
mais un alpha à 1%, la courbe se déplacera sur la droite si bien que
 
c’est bêta qui deviendra plus grand. Cela correspond à rapprocher
 
notre hypothèse nulle de notre hypothèse alternative faisant par la même
 
grandir bêta. De plus, comme nous l’avons vu, deux hypothèses proches
 
sont difficilement distinguables pour le test d’hypothèse \! La seule
 
solution pour réduire le risque alpha et bêta, c’est d’augmenter la
 
taille de l’échantillon. Ainsi, c’est au terme d’une réflexion préalable
 
que l’on peut voir si l’étude projetée en vaut la peine et sous quelles
 
conditions.
 
<nowiki>##</nowiki> P- valeur et son utilisation
 
La **p-valeur** ( ou **degré de signification**), notée p, est la
 
probabilité d’avoir observé l’échantillon utilisé sachant que
 
l’hypothèse nulle H<nowiki><sub>0</sub></nowiki> est vraie. La p-valeur s’interprète
 
aussi comme la probabilité d’obtenir à partir d’un autre échantillon
 
tiré de la même population une valeur du paramètre testé plus extrême
 
(plus éloignée de H<nowiki><sub>0</sub></nowiki>) que la valeur réellement observée.
 
Après avoir fixé le niveau du risque de première espèce, alpha, le
 
résultat du test s’obtient à l’aide de la règle de décision suivant :
 
![](./media/image97.emf)
 
Pour un test unilatéral à droite, la situation décrite par le graphique
 
suivant conduit au rejet de H<nowiki><sub>0</sub></nowiki>, car la p-valeur (zone
 
hachurée verticalement) est plus petite que le risque alpha (zone
 
hachurée horizontalement)
 
![](./media/image98.emf)
 
Sur ce schéma, on voit que la p-valeur représente la probabilité d’être
 
à droite de Z<nowiki><sub>0</sub></nowiki>. Ainsi, si le test prouve, pour la p-valeur,
 
une valeur supérieure à la zone de rejet, la p-valeur sera plus petite
 
qu’alpha et H<nowiki><sub>0</sub></nowiki> sera affirmer. Mais comme on voit sur le
 
graphique, la p-valeur est plus petite qu’alpha si bien qu’H<nowiki><sub>0</sub></nowiki>
 
est rejetée.
 
  - Pour conclure par rapport à un test statistique, on observe la
 
   p-valeur, si elle supérieure au risque alpha, le status quo demeure
 
   (H0). Par contre on rejette H<nowiki><sub>0</sub></nowiki> si p est inférieure ou
 
   égale à alpha. Si p est supérieure à alpha, on accepte H0 parce que
 
   la probabilité est supérieure à 0.05.
 
![](./media/image99.emf)Exemple : le niveau d’activité physique
 
  - Hypothèse nulle : H<nowiki><sub>0</sub></nowiki> : \(\mu\) = 2.5
 
  - Hypothèse alternative : H<nowiki><sub>1</sub></nowiki> : \(\mu\) ≠ 2.5
 
  - Le risque \(\alpha\) est fixé à 5%.
 
Ces données sont rentrées dans R. On voit que la p-valeur est égale à
 
0.151 donc 15.1% \! Ce résultat est plus grand qu’\(\alpha\) (5%) si
 
bien que l’on se trouve dans la zone d’acceptation de l’hypothèse nulle
 
H0. On peut donc continuer de dire qu’en moyenne, les jeunes de moins de
 
18 ans pratiquent une activité physique 2.5 jours par semaine. Cet
 
histogramme représente l’activité physique de l’échantillon sur la
 
dernière semaine. De cette manière, on voit que l’on est éloigné d’une
 
loi normale puisque la répartition ne se fait pas de manière symétrique
 
autour d’un axe unique.
 
![](./media/image100.emf)
 
<nowiki>##</nowiki> Vue d’ensemble
 
![](./media/image101.emf)
 
<nowiki>###</nowiki> Rappel
 
Statistiquement, il y a suffisamment d’évidences pour rejeter
 
H<nowiki><sub>0</sub></nowiki> mais on ne va jamais dire qu’on l’accepte. Avec l’exemple
 
de la machine à sou, on va dire que si on joue 100 fois et qu’on perd à
 
chaque fois, on va dire qu’on va rejeter l’hypothèse H<nowiki><sub>0</sub></nowiki>. De
 
ce fait, on arrive à un rejet de l’hypothèse nulle. A chaque fois, on
 
essaie de montrer une relation et de ce fait, on aimerait avoir
 
suffisamment d’évidences pour montrer quelque chose qui se trouve dans
 
l’hypothèse alternative. Les raisons pour ne pas rejeter l’hypothèse
 
nulle sont multiples : elle peut être vraie, l’échantillon n’est pas
 
assez grand…. Dans ces tests, on a l’hypothèse nulle (=status quo) et
 
l’hypothèse alternative (ce qu’on veut montrer). Pour conclure un
 
test, il y a une règle : avant d’effectuer le test, on se fixe une marge
 
d’erreur (=erreur de première espèce notée alpha qui se trouve avec une
 
probabilité à 5%) puis là, on peut faire le test. Le test nous donne
 
pleins d’indications mais entre autres, la p-valeur qui est une
 
probabilité comprise en 0 et 1. Puis on compare cette probabilité à
 
notre seuil critique qui est alpha. Si c’est plus petit que 5%, on
 
rejette l’hypothèse nulle sinon on ne la rejette pas. La p-valeur est la
 
probabilité basée sur un échantillon d’être éloigné de H<nowiki><sub>0</sub></nowiki>.
 
Avec le jeu, c’est la probabilité d’avoir 5 fois de suite un échec
 
sachant qu’on a 1/10 de gagner. La probabilité d’avoir un résultat aussi
 
éloigné de ce que l’on s’attend ; si on perd 10 fois, la probabilité
 
d’avoir un tel score est la p-valeur (probabilité théorique d’avoir un
 
tel résultat). C’est ce qui nous permet de conclure par rapport au
 
risque pris préalablement.
 
  - Tout ceci pour faire un test statistique. Il nous permet d’indiquer
 
   si oui ou non on a suffisamment de preuves pour affirmer quelque
 
   chose. Par contre, pour l’instant, on n’a pas encore l’intensité de
 
   l’effet. Si statistiquement on peut dire que oui, peut-être que cet
 
   effet est très petit.
 
<nowiki>#</nowiki> Analyse bivariée : dépendance vs indépendance / corrélation vs causalité – analyse des données et interprétation
 
<nowiki>##</nowiki> Complexité du monde réel
 
Il est très rare qu’une variable soit totalement indépendante de son
 
environnement. Chaque variable est probabilité liée à d’autres
 
variables, voire même influencée par celles-ci. La statique bivariée a
 
pour but de mettre en relation deux informations différentes afin de
 
vérifier si elles sont ou non liées. La mise en évidence d’un tel lien
 
peut notamment servir à faire des prédictions sur la valeur prise par
 
une variable en fonction de celle prise par une autre. L’analyse
 
bivariée donne aussi des informations utiles permettant ensuite de
 
construire un modèle multivarié.
 
<nowiki>###</nowiki> Objectifs et outils
 
Concrètement, les objectifs de l’analyse bivariée sont :
 
  - Déterminer si une relation existe entre deux variable d’un
 
   échantillon.
 
  - Si une relation existe, quantifier la force de cette relation.
 
  - Vérifier si la relation observée sur un échantillon est dû au hasard
 
   ou si elle est aussi valide au niveau de l’ensemble de la population
 
   considérée.
 
Les outils utilisés en statistique bivariée dépendent fortement du type
 
de variables analysées :
 
  - 2 variables *qualitatives *: tables de contingence (représenter dans
 
   un tableau croisé les quantités de chacun des deux variables et
 
   leurs modalités), chi-2 (distribution de chi-2) et V de Cramer
 
   (score calculé à partir du chi-2)
 
  - 2 variables *quantitatives *: diagramme de dispersion (pour voir la
 
   forme que prennent ces deux variables), corrélation de Pearson
 
   (score calculé)
 
  - 2 variables *ordinales *: corrélation de Spearman (corrélation
 
   s’attache au rang de ces variables et à partir d’eux, on va
 
   calculer une corrélation de Spearman)
 
<!-- end list -->
 
  - On peut mélanger les variables, on peut rendre une variable
 
   qualitative en une variable quantitative
 
Exemple : Données GSOEP
 
Nous disposons de données extraites du German Socio-Economic Panel
 
(GSOEP), un panel représentatif des ménages allemands pour l’année 1994.
 
Ces données concernant 3377 individus âgés de 25 à 64 ans. Variables
 
liées au travail :
 
Variables liées au travail :
 
  - TRAVAIL : variable indiquant si la personne a un emploi : non/oui
 
  - COL BLEU : variable indiquant si la personne a un emploi type « col
 
   bleu » (travail manuel) : non/oui
 
  - COL BLANC : variable indiquant si la personne a un emploi de type
 
   « col blanc » (travail de bureau) : Oui/non
 
  - INDEP : variable indiquant si la personne a un travail indépendant :
 
   non/oui
 
Variables liées à la santé
 
  - SANTE : satisfaction autoreportée avec la santé sur une échelle de 0
 
   à 10
 
  - HANDI : variable indiquant si la personne a un handicap : non/oui
 
  - HANDI.POUR : degré de handicap en pourcents (o pour les personnes ne
 
   souffrant d’aucun handicap)
 
  - DOC.3M : nombre de visites chez un docteur durant les 3 derniers
 
   mois
 
  - DOC\_4C : nombre de visites chez un docteur durant les 3 derniers
 
   mois en 4 catégories
 
Variables socio-démographiques :
 
  - GENRE : homme/femme
 
  - AGE : âgé en années
 
  - REVENU : revenu net mensuel du ménage en marks allemands / 10000
 
  - ENFANTS.16 : variable indiquant s’il y a des enfants de moins de 16
 
   ans dans le ménage….
 
<nowiki>##</nowiki> Variables qualitatives
 
<nowiki>###</nowiki> Fréquences absolues conjointes
 
Une table de contingence est l’équivalent d’une distribution de
 
fréquence mais pour <nowiki><span class="underline">deux</span></nowiki> variables
 
simultanément. Il y a un croisement entre ces deux variables.
 
![](./media/image102.emf)
 
<nowiki>###</nowiki> Fréquences relatives
 
Ces 4 valeurs divisées par le nombre de personnes (=3377). Le
 
pourcentage est indiqué en bas (9.061% par exemple).
 
![](./media/image103.emf)
 
<nowiki>###</nowiki> Fréquences conditionnelles par ligne
 
![](./media/image104.emf)On fixe une modalité (genre) à homme, puis on
 
dit des choses sur la variable travail. Donc je me situe comme si
 
j’étais avec 1812 personnes. Quelle est la distribution variable
 
travail sachant que les personnes que j’ai à disposition sont des
 
hommes ? Il y aurait environ 17% d’hommes qui auraient un travail
 
contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17%
 
n’ont pas de travail et les autres oui. Cela revient à restreindre notre
 
échantillon puisqu’on considère qu’une seule des deux modalités du
 
genre. On peut aussi regarder la distribution de la variable genre (par
 
colonne) ; je prends uniquement ceux qui n’ont pas de travail et je
 
regarde la distribution de la variable genre.
 
Autre exemple : COL BLANC et DOC\_4c, On a le total (3377), les
 
répartitions (table de contingence) et ici, on analyse par ligne (=100
 
dans le total).
 
Question : en regardant ce tableau, si on a une personne issue de ce
 
panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir
 
la répartition des visites de médecin ou pas ? Est-ce que l’information
 
donnée (COL BLANC) nous apporte quelque chose ? Quasi pas \! Quelle est
 
la probabilité qu’une personne soit allée plus de deux fois chez le
 
médecin ? 44.120% \! Si on prend une personne au hasard, quelle est la
 
probabilité que cette personne soit allée deux fois chez le médecin ? Le
 
calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que
 
la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce
 
qu’il faut comprendre, c’est que si les deux variables col blanc et
 
nombre de visite sont liées, a priori, le lien est extrêmement faible.
 
  - Ce « lien » est la dépendance ou pas.
 
<nowiki>###</nowiki> Indépendance
 
Deux variables A et B sont *indépendantes* si la connaissance de la
 
modalité prise par A n’influence pas la distribution de B et vice versa.
 
Sur une table de contingence, cela implique que :
 
  - Les distributions conditionnelles par ligne sont toutes identiques
 
  - Les distributions conditionnelles par colonne sont toutes
 
   identiques.
 
<nowiki>###</nowiki> Indépendance et information marginale
 
En cas d’indépendance des 2 variables, toute l’information de la table
 
de contingence est résumée par les distributions séparées (margines) des
 
deux variables. On peut alors reconstituer la distribution conjointe de
 
<nowiki>la manière suivant : ![](./media/image105.emf)</nowiki>
 
Exemple de situation d’indépendance parfait
 
![](./media/image106.emf)On a fait les totaux par ligne et par colonne,
 
on regarde les fréquences absolues (n<nowiki><sub>ij</sub></nowiki>) et les fréquences
 
relatives (f<nowiki><sub>ij</sub></nowiki>). (On divise 16/80=0.2).
 
<nowiki>###</nowiki> Dépendance et degré d’association
 
Lorsque deux variables ne sont pas indépendantes, elles sont
 
dépendantes. Il est utile de mesurer leur degré d’association. Plus le
 
degré d’association est élevé, plus il devient possible d’utiliser une
 
variable pour prédire l’autre. Sauf qu’association ≠ causalité \!
 
<nowiki>###</nowiki> Chi-2
 
Une façon d’estimer la force de la relation entre les deux variables
 
d’un tableau croisé consiste à comparer les données observées avec la
 
situation que l’on aurait en cas d’indépendance. La statistique du
 
chi-2, notée K<nowiki><sup>2</sup></nowiki> est définie comme :
 
![](./media/image107.emf)![](./media/image108.emf)où -\>
 
  - Est la fréquence de la case d’indices *ij* sous l’hypothèse
 
   d’indépendance.
 
Cette statistique du chi-2 est comprise entre 0 et une certaine valeur.
 
La valeur maximale est la taille de l’échantillon (n) x le minimum
 
nombre de ligne -1 et le nombre de colonne -1. ![](./media/image109.emf)
 
  - Si K<nowiki><sup>2</sup></nowiki> vaut zéro, nous sommes dans la situation
 
   d’indépendance.
 
  - Si K<nowiki><sup>2</sup></nowiki> est supérieur à zéro, il y a dépendance ou
 
   association.
 
  - Plus K<nowiki><sup>2</sup></nowiki> est grand, plus l’association est forte mais
 
   attention, K<nowiki><sup>2</sup></nowiki> dépend de la taille de la table de
 
   contingence.
 
Exemple : fréquences observées et attendues
 
![](./media/image110.emf)Sur ce tableau, on voit la distribution
 
conjointe de deux variables différentes : homme/femme et travail/pas de
 
travail. La distribution conjointe représente la relation entre les deux
 
variables. Ici, c’est en nombre d’individus que la table se présente. On
 
voit que parmi les hommes, 83% ont un emploi alors que chez les femmes,
 
seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre
 
échantillon, les hommes occupent plus fréquemment un emploi que les
 
femmes. Ces fréquences conditionnelles peuvent aussi être calculées par
 
colonnes. Ce que l’on remarque alors c’est que parmi les individus
 
n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui
 
est des personnes occupant un emploi, seules 37% des femmes On voit, sur
 
la base de ces tableaux, que les hommes et les femmes ne sont pas égaux
 
face au travail. Toutefois, on ne peut pas conclure à une causalité ni
 
spéculer sur la force de cette différence dans la population totale.
 
![](./media/image111.emf)La distribution des deux variables sont
 
parfaitement identiques : elles sont donc parfaitement indépendantes
 
l’une de l’autre. Ainsi, il est possible de retrouver la distribution
 
en se basant uniquement sur les totaux des lignes et des colonnes en
 
suivant la formule (total de i x total de j)/total.
 
A partir du moment que l’on ne se trouve pas dans une situation
 
d’indépendance parfaite, c’est une situation de dépendance.
 
Toutefois, cette dépendance peut être plus au moins forte. Plus la force
 
d’association entre deux variables est élevée, plus il devient possible
 
de prédire l’une par rapport à l’autre. Mais attention, dépendance ne
 
signifie pas causalité \!
 
<nowiki>###</nowiki> Normalisation du chi-2
 
La valeur maximale du chi-2 dépend de la taille de la table de
 
contingence ainsi que de l’effectif total. Il est donc difficile
 
d’évaluer le résultat. Une solution consiste à normaliser le résultat
 
afin qu’il évolue entre des bornes finies et connues. La mesure de V de
 
Cramer est définie comme :
 
![](./media/image112.emf)
 
où K<nowiki><sup>2</sup></nowiki> est la statistique du chi-2, *n* est le nombre de
 
données, \(\mathcal{l}\) est le nombre de ligne et *c* est le nombre de
 
colonnes.
 
<nowiki>La mesure V a pour bornes : ![](./media/image113.emf)</nowiki>
 
  - 0 signifie l’indépendance parfaite entre les variables
 
  - 1 signifie une association maximale
 
  - Le V de Cramer est facile à comparer entre des tables de dimensions
 
   différentes et comportant un nombre d’observations différent.
 
![](./media/image114.emf)
 
<nowiki>###</nowiki> Test du chi-2
 
Tous les calculs précédents (chi-2 et V de Cramer) concernant
 
l’échantillon de données utilisé. Pour déterminer s’il y a dépendance
 
ou indépendance au niveau de la population, il faut effectuer un test
 
d’hypothèses :
 
  - H<nowiki><sub>0</sub></nowiki> : indépendance entre les 2 variables
 
  - H<nowiki><sub>1</sub></nowiki> : Dépendance entre les 2 variables
 
Le même test permet aussi de savoir si le V de Cramer prend une valeur
 
égale ou supérieure à zéro dans la population.
 
Exemple :
 
On considère un risque de première espèce à \(\alpha\) = 5%.
 
![](./media/image115.emf)
 
<nowiki>###</nowiki> Degrés de liberté
 
En statistique, les degrés de liberté (*degrees of freedom*)
 
représentent le nombre de données ou d’éléments d’un problème qui
 
peuvent être fixés sans contrainte, indépendamment les uns des autres.
 
Exemples :
 
  - Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi
 
   que leur moyenne, alors il y a 4 degrés de liberté car la valeur de
 
   la 5<nowiki><sup>ème</sup></nowiki> observation peut être retrouvée en utilisant la
 
   moyenne.
 
  - Pour un test d’indépendance sur une table de contingence pour
 
   \(\mathcal{l}\) ligles et c colonnes, il y a (\(\mathcal{l}\)-1) x
 
   (c-1) degrés de liberté car les autres éléments de la distribution
 
   d’indépendance peuvent être retrouvés en utilisant les totaux
 
   connus des lignes et des colonnes.
 
<nowiki>**</nowiki>A retenir **:
 
Lorsqu’on a affaire des variables de type catégorielles ou qualitatives,
 
on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut
 
calculer la force de dépendance via le V de Cramer et on associe un test
 
dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et
 
la dépendance.
 
Exemple : le niveau de mathématiques avec la taille des pieds (plus on a
 
des grands pieds, plus on est bons en mathématique
 
Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus
 
qu’on ne connaît pas la population. Il est possible d’avoir deux
 
variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause
 
de l’autre. Ainsi, il n’y a pas toujours de cause à effet \! On peut
 
trouver des relations fortes entre deux variables mais cela ne signifie
 
pas nécessairement qu’il y a une relation de cause à effet \! Par
 
contre, le nombre d’années d’apprentissage pourrait être la cause
 
d’avoir de meilleurs résultats en mathématique \!
 
  - Même si deux variables sont fortement corrélées, il faut toujours
 
   remettre en question la cause à effet.
 
  - Pour connaître la dépendance, on peut faire une représentation
 
   graphique mais on utilise des tables de contingence. On regarde les
 
   valeurs conjointes entre ces deux variables. Une fois qu’on a ces
 
   valeurs conjointes, on pourra expliciter la dépendance ou
 
   l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est
 
   une valeur qui explique la différence entre la situation
 
   d’indépendance et la situation que j’ai. Si elle est égale à 0,
 
   c’est l’indépendance complète. L’autre formule est le V de Cramer
 
   qui se situe entre 0 et 1. Pour des variables qualitatives, on les
 
   compare en utilisant le V de Cramer.
 
<nowiki>##</nowiki> Variables quantitatives
 
<nowiki>###</nowiki> Diagramme de dispersion
 
Le diagramme de dispersion permet la mise en relation de deux variables
 
numériques. La relation est-elle linéaire ?
 
![](./media/image116.emf)
 
On a deux variables numériques. La relation est-elle linéaire ?
 
Graphiquement, on fait un diagramme de dispersion.
 
<nowiki>###</nowiki> Intérêt des relations linéaires
 
Les relations linéaires sont simples à analyser et comprendre
 
(proportionnalité linéaire (=immédiate) entre variable explicative et
 
variable expliquée). Il existe de nombreux outils pour les analyser
 
(corrélation linéaire (coefficient), régression linéaire (fonction
 
explicative par rapport à une autre)…). En cas de non-linéarité :
 
  - Transformation des données (linéarisation de la relation)
 
  - Méthodes non-linéaires
 
<nowiki>###</nowiki> Covariance
 
La covariance de deux variables X et Y est définie comme la moyenne des
 
produits des écarts à la moyenne des deux variables :
 
![](./media/image117.emf)
 
C’est une différence par rapport à la moyenne et on multiplie les
 
différences par rapport à la moyenne de l’autre valeur. La covariance
 
peut prendre n’importe quelle valeur comprise entre - \(\infty\) à +
 
\(\infty\). Mais comment savoir s’il y a un lien entre les deux
 
variables si les valeurs vont de l’infini à l’infini.
 
Si toutes les valeurs sont égales pour la variable X et toutes égales
 
pour la variable Y (sans variation) ; si la covariante est égale à 0,
 
toutes les valeurs sont proches de la moyenne et on n’a qu’une seule
 
valeur. Par contre, avec une différence, la covariance peut prendre des
 
valeurs négatives ou positives.
 
<nowiki>###</nowiki> Interprétation de la covariance
 
La covariance permet de déterminer le sens de la relation entre les deux
 
variables :
 
  - COV (X,Y) \> 0 les variables évoluent dans le même sens. Les deux
 
   variables ont tendance à prendre simultanément des valeurs grandes
 
   ou petites.
 
  - COV (X,Y) \< 0 les variables évoluent en sens contraire. Si une
 
   variable prend une valeur élevée, l’autre variable a tendance à
 
   prendre une petite valeur, et vice verse.
 
  - En l’absence de relation linéaire, la covariance vaut zéro.
 
<nowiki>###</nowiki> Limites de la covariance
 
La covariance souffre de deux défauts :
 
1)  Elle dépend de l’unité de mesure des variables (avoir la même unité
 
   pour les variables)
 
2)  Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
 
<!-- end list -->
 
  - Difficile de l’interpréter
 
Exemples :
 
Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a
 
d’éducation, plus le revenu est élevé puisque la covariance est
 
élevée.
 
Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme
 
ça parce que les unités ne sont pas les mêmes.
 
Santé et visites chez le médecin : cov = -3.54. Plus le nombre de
 
visites augmente, moins on a bon état de la santé. Ce qui est important,
 
c’est que c’est négatif et cela est logique ; l’état de santé est moins
 
bon.
 
<nowiki>##</nowiki> Corrélation linéaire de Pearson
 
Le coefficient de corrélation linéaire de Pearson entre deux variables X
 
et Y est défini comme :
 
![](./media/image118.emf)
 
où COV (X,Y) est la covariance des deux variables et S<nowiki><sub>x</sub></nowiki> et
 
S<nowiki><sub>y</sub></nowiki> sont les deux écarts-types. La corrélation ne mesure
 
qu’une association **linéaire** à l’exclusion de tout autre type de
 
relation entre les deux variables.
 
<nowiki>###</nowiki> Interprétation de la corrélation
 
Le coefficient de corrélation linéaire de Pearson mesure l’ajustement
 
des données à une droite. Il évolue entre -1 et +1 :
 
![](./media/image119.emf)
 
![](./media/image120.emf)
 
On voit sur ces graphiques que la linéarité peut être plus au moins
 
parfaite. En effet, les deux graphiques de gauche illustrent une
 
situation de linéarité parfaite avec en haut, une pente positive et en
 
bas, une pente négative. Le graphique en haut à droite illustre le cas
 
où une corrélation linéaire est forte sans toutefois être parfaite, les
 
points n’étant pas parfaitement alignés sur la même droite. Enfin, le
 
graphique en bas à droite illustre un cas éloigné de la corrélation
 
linéaire bien que l’on puisse identifier une tendance linéaire
 
discrète.
 
R =1 : tous les points sont situés sur une droite et la relation est
 
linéaire (=droite). Si la valeur x augmente, la valeur y augmente
 
également.
 
R = 0.95 : petite variation mais je peux prédire en connaissant x avec
 
une petite marge d’erreur.
 
R = -1 : si j’augmente x, y diminue.
 
R = 0.39 : la variabilité autour de la droite est beaucoup plus grande.
 
La relation linéaire est ici positive (j’augmente x donc y aussi) mais
 
c’est beaucoup moins fort.
 
On est capable d’indiquer une intensité linéaire mais ce n’est pas
 
suffisant \! Par exemple, on prend un échantillon de 2 individus pour
 
deux variables de type quantitative. Le coefficient de corrélation
 
linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si
 
petit échantillon, c’est difficile de déterminer la signification.
 
<nowiki>###</nowiki> Test de la corrélation
 
Du point de vue inférentiel, la première question est de savoir s’il y a
 
oui ou non corrélation. Les hypothèses testées sont alors les
 
suivantes :
 
![](./media/image121.emf)
 
L’acceptation de H<nowiki><sub>0</sub></nowiki> signifie **une absence de relation
 
linéaire entre les deux variables**, pas l’absence totale de
 
relation \!
 
Exemple : éducation et revenu
 
![](./media/image122.emf)Difficile de trouver une relation linéaire. Si
 
on augmente le niveau d’éducation, il semble que le revenu augmente avec
 
de grosses variations donc on aurait un semblant de linéarité. Si
 
j’effectue le teste statistique, on aura des éléments. Il compare la
 
variable « éducation » avec la variable « revenu ». L’hypothèse
 
alternative est qu’elle est différente de 0. On obtient un coefficient
 
de relation de 0.445. Cela signifie que c’est positif donc si l’une
 
variable augmente, l’autre variable augmente aussi. Quelle est la force
 
de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un
 
peu de linéarité. De plus, a-t-on raison d’appliquer à la population ?
 
Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La
 
p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse
 
H<nowiki><sub>0</sub></nowiki>. Donc oui effectivement il existe une relation linéaire
 
entre ces deux variables. La valeur du coefficient de relation qui
 
l’exprime est de 0.445.
 
Exemple : âge et revenu
 
![](./media/image123.emf)Les éléments du test indiquent que la valeur du
 
coefficient de relation est très faible (0.0242) donc une faible
 
relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la
 
p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.
 
![](./media/image124.emf)Exemple : santé et visites chez le médecin
 
On constate que le coefficient de relation est égal à -0.389. La
 
p-valeur est faible donc inférieur au seuil de 5% et dans la population,
 
le coefficient de relation est négatif et on peut l’estimer avec le
 
coefficient de relation. Si on augmente la valeur de l’un, je diminue
 
l’autre.
 
<nowiki>##</nowiki> Corrélation de variable ordinales
 
De par sa formule, la corrélation de Pearson ne concerne que les
 
variables numériques. Il est cependant possible d’appliquer un concept
 
similaire à des variables ordinales. On parle alors de **corrélation de
 
Spearman** ou de **corrélation non-paramétrique**, notée \(\rho\) (rho).
 
Le principe consiste à numéroter indépendamment pour chaque variable,
 
les observations de la plus petite à la plus grande (selon l’ordre des
 
modalités). Ces numéros sont appelés les **rangs** des observations. On
 
calcule alors la corrélation entre ces deux séries de rangs.
 
La corrélation non-paramétrique s’interprète de la même façon que la
 
corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y
 
a toujours le même écart entre deux modalités successives d’une
 
variable. Lorsque la corrélation non-paramétrique est appliquée sur des
 
variables numériques, elle rend égaux les écarts successifs entre les
 
valeurs réellement observées.
 
Exemple : santé et doc\_4c
 
![](./media/image125.emf)Ici, entre la santé et le nombre de visites, on
 
a un coefficient de corrélation de Spearman égal à -0.363 où si le
 
nombre de visites augments, la santé diminue. La p-valeur est faible et
 
donc on a raison d’inférer où notre échantillon est significatif par
 
rapport à la population. On n’a plus d’intervalle de confiance mais les
 
mêmes caractéristiques sont présentes.
 
<nowiki>###</nowiki> Causalité
 
Pour qu’il y ait causalité d’une variable A vers une variable B, les 3
 
conditions suivantes doivent être vérifiées :
 
  - A et B doivent être corrélées.
 
  - Il doit y avoir une relation temporelle entre A et B, à savoir que A
 
   doit avoir lieu avant B.
 
  - Toutes les autres raisons pouvant valablement expliquer l’influence
 
   observée de A sur B doivent avoir été écartées.
 
Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies
 
que l’on peut parler **d’influence causale** d’une variable sur une
 
autre \!
 
  - Ici, le terme de corrélation doit se comprendre comme une
 
   association au sens large, linéaire ou non.
 
<nowiki>###</nowiki> La corrélation n’implique pas la causalité
 
La corrélation n’implique pas automatiquement la causalité : ce n’est
 
pas parce que deux variables sont fortement corrélées l’une à l‘autre
 
que l’une est forcément la cause de l’autre. Il arrive fréquemment que
 
deux variables soit corrélées car elles dépendant toutes deux d’une même
 
troisième variable. Il peut aussi arriver que deux variables
 
s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse,
 
si la valeur prise par une variable dépend de celle d’une autre variable
 
(causalité) alors les deux variables sont corrélées.
 
<nowiki>#</nowiki> Analyse bivariée : comparaison de population. Analyse des données et interprétations
 
On ne va plus faire des tests sur une seule population mais on veut voir
 
ce qui se passe quand on a deux populations et on veut voir quel test on
 
peut appliquer sur ces deux populations.
 
<nowiki>##</nowiki> Introduction
 
<nowiki>###</nowiki> Problématique
 
Un problème classique en recherche consiste à déterminer si deux ou plus
 
de deux populations sont significativement différentes les unes des
 
autres. Une problématique similaire s’observe lorsque l’on désire
 
comparer les réponses de mêmes personnes interrogées à plusieurs
 
reprises au fil du temps. EN pratique, on considère une ou plusieurs
 
variables numériques d’intérêt et on se demande si leurs
 
caractéristiques (moyenne, variance…) diffèrent réellement d’une
 
population l’autre.
 
<nowiki>###</nowiki> Données appariées ou indépendantes ?
 
Deux populations sont dites ***appariées*** si chaque élément de la
 
première population correspond exactement à un élément de la seconde
 
population et vice verse. Deux populations sont dites
 
<nowiki>***</nowiki>indépendantes*** s’il n’existe aucune relation particulière entre un
 
élément de la première population et un élément de la seconde. Deux
 
populations appariées contiennent forcément <nowiki><span class="underline">le</nowiki>
 
même nombre d’individus<nowiki></span></nowiki>, alors que ce n’est pas forcément le cas
 
pour des populations indépendantes. Ces mêmes concepts s’étendent
 
naturellement à un nombre quelconque de populations.
 
<nowiki>###</nowiki> Comparaison des moyennes
 
Le critère de comparaison le plus souvent utilisé est celui de la
 
moyenne. ***L’analyse de variance*** ou ***ANOVA*** permet de faire une
 
comparaison des moyennes entre plusieurs populations. Dans le cas
 
particulier où l’on ne désire comparer entre-elles que 2 populations, on
 
utilise généralement le ***test de Student***, une version particulière
 
de l’ANOVA.
 
<nowiki>###</nowiki> Tests non-paramétriques
 
Quand on veut faire un test, on veut dire quelque chose sur la
 
population. L’ANOVA et le test de Student sont des **méthodes
 
paramétriques** (on veut établir un paramètre) reposant notamment sur
 
l’hypothèse selon laquelle les données sont distribuées selon des lois
 
normales. Cette hypothèse de normalité se révèle parfois fausse. Par
 
ailleurs, lorsque la taille de l’échantillon est petite, les tests de
 
normalité usuels, tel que celui de Kolmogorv-Smirnov, ne sont pas assez
 
puissants et ils ne peuvent donc jamais rejeter l’hypothèse nulle de
 
normalité, ce qui est donc non-informatif. Les tests paramétriques sont
 
alors souvent remplacés par des tests équivalents
 
<nowiki>***</nowiki>non-paramétriques*** qui ne postulent aucune distribution
 
particulière des données.
 
Les tests non-paramétriques comparent les médianes et non les
 
moyennes \! Ils sont généralement moins puissants que leurs équivalents
 
numériques mais ils sont plus robustes (médiane n’est pas sensible aux
 
valeurs extrêmes \! Donc test non-paramétrique comparant des médianes et
 
plus robuste) et ont un plus grand champ d’application. Tests
 
non-paramétriques pour les comparaisons de populations :
 
  - Test du signe et test du signe de Wilcoxon (comparaison de 2
 
   populations appariées / test de calcul sur la différence entre les
 
   rangs en considérant l’amplitude, à savoir la différence entre les
 
   rangs)
 
  - Test de Wilcoxon et test de Mann-Whitney (test non paramétrique de
 
   comparaison entre 2 populations indépendantes)
 
  - Test de Friedman (comparaison de plus de 2 populations appariées)
 
  - Test de Kruskal-Wallis (comparaison de plus de 2 populations
 
   indépendantes)
 
Exemple : données du test pilote LHC
 
En décembre 2014, des étudiants des Universités de Lausanne et Genève
 
ont participé au premier test pilote d’un nouveau type de questionnaire
 
biographique online : le LHC (Life History Calendar). A deux semaines
 
d’intervalles, différentes données ont été récoltés telles que l’âge,
 
le genre, la taille, le poids, le nombre de déménagements…. Ces données
 
permettent soit de comparer les réponses données à la même question lors
 
des deux passations du questionnaire (**données appariées**), soit de
 
comparer lors d’une même passation les réponses fournies par deux
 
groupes distincts de personnes (**données indépendantes**).
 
<nowiki>##</nowiki> Test de Student : données appariées
 
<nowiki>###</nowiki> Test de la moyenne de la différence
 
Lorsque les données sont appariées, il est possible de construire une
 
variable D (quantité à l’instant T1 et T2 et on regarde la différence)
 
représentant leur différence terme à terme. Soit X et Y, deux variables
 
appariées dont les moyennes dans la population sont notées \(\text{μX}\)
 
et \(\text{μY}\). Alors : D = Y – X.
 
Le test de Student se formule alors de la façon suivante :
 
![](./media/image126.emf)
 
<nowiki>**</nowiki>Exemple : comparaison de la taille à T1 et T2**
 
Nous voulons déterminer si la taille en centimètres donnée lors des deux
 
passations du questionnaire est la même ou pas. Formellement, D = taille
 
temps 1 – taille temps 2
 
![](./media/image127.emf)Pour savoir ce sur quoi porte le test, c’est
 
l’hypothèse alternative où la différence réelle est différente de 0.
 
Donc H<nowiki><sub>0</sub></nowiki> = 0 et H<nowiki><sub>1</sub></nowiki> ≠ 0. La valeur 0 est-elle
 
comprise dans l’intervalle de confiance ? Oui c’est le cas donc rien
 
qu’avec ça, on peut dire qu’on ne peut pas rejeter l’hypothèse nulle
 
indiquant que la différence ne moyenne est égale à 0. Cela se confirme
 
avec la p-valeur qui est supérieure au seuil que l’on se fixe pour faire
 
le test donc dans ce cas-là, on ne peut pas rejeter l’hypothèse nulle.
 
Il n’y a pas de différence significative entre la taille donnée au temps
 
1 et la taille donnée au temps 2. Le degré de liberté est de 57 ; on a
 
une indication sur la taille de l’échantillon et la valeur statistique
 
de test t.
 
  - On peut conclure en regardant soit la p-valeur soit l’intervalle de
 
   confiance. Les tailles données au temps 1 et au temps 2 par ces
 
   mêmes individus, il n’y a pas eu de changement significatif. A-t-on
 
   le droit d’effectuer ce test ? Les données proviennent d’une
 
   population avec une distribution normale.
 
<nowiki>##</nowiki>
 
<nowiki>##</nowiki> Test de Student : données indépendantes
 
<nowiki>###</nowiki> Test de la différence des moyennes
 
Lorsque les données sont indépendantes, il n’est pas possible de
 
construit une variable D représentant leur différence terme à terme. Les
 
hypothèses du test de Student s’écrivent alors simplement :
 
![](./media/image128.emf)
 
<nowiki>###</nowiki> Variances égales ou inégales
 
Mathématiquement, la distribution théorique du test de Student n’est pas
 
le même selon que les populations dont sont issues les deux variables X
 
et Y ont la même variance ou non. Il existe donc deux versions du test
 
de Student pour des données indépendantes. Afin d’utiliser la bonne
 
version, on commence par tester l’égalité des variances des deux
 
variables. Ensuite, si les variances sont égales, on utilise le test de
 
Student standard alors que si les variances sont inégales, on utilise le
 
<nowiki>***</nowiki>test de Welch***.
 
<nowiki>###</nowiki> Test de l’égalité des variances
 
Le test le plus courant pour comparer les variances de deux populations
 
est le test F du rapport des variances. Nous voulons tester les
 
hypothèses suivantes :
 
![](./media/image129.emf)
 
Mais ces hypothèses sont reformulées de manière équivalente comme suit :
 
![](./media/image130.emf)
 
<nowiki>**</nowiki>Exemple : taille des femmes et des hommes**
 
Nous voulons déterminer si la taille en centimètres est égale chez les
 
femmes et les hommes. Nous commençons par comparer les variances des
 
deux populations :
 
![](./media/image131.emf)On va tester les variances dans ces
 
populations ; est-ce que la variance chez les hommes est le même chez
 
les femmes ? On fait le test F et il nous dit que l’hypothèse
 
alternative est indiquée. On regarde la p-valeur (0.55) et on ne peut
 
pas rejeter l’hypothèse nulle puisqu’on pourrait dire qu’on n’a aucune
 
preuve pour la rejeter. Peut-on supposer que les variances sont égales ?
 
Oui \! Le résultat du test, oui, les variances peuvent être supposées
 
égales.
 
L’hypothèse d’égalité des variances étant acceptées, nous pouvons
 
utiliser la version habituelle du test de Student.
 
On a suffisamment d’évidence pour rejeter H<nowiki><sub>0</sub></nowiki> (p-valeur) et
 
rejeter le fait que la moyenne chez l’homme et chez la femme est égale.
 
Donc la taille moyenne des hommes et des femmes est significativement
 
différente.
 
<nowiki>**</nowiki>Exemple : Age au premier smartphone**
 
![](./media/image132.emf)Nous voulons déterminer si l’âge en années
 
auquel les femmes et les hommes ont eu le premier smartphone est le même
 
ou pas.
 
On applique le test F qui nous dit qu’avec une p-valeur inférieure à
 
0.5, on rejette l’égalité des variances.
 
![](./media/image133.emf)Donc, on va devoir faire le test de Welch du
 
test de Student où on applique le test avec une p-valeur égale à 0.77.
 
On ne peut pas rejeter l’hypothèse nulle donc l’âge peut être considéré
 
comme identique entre les hommes et les femmes. Autre manière de voir,
 
si on regarde l’intervalle de confiance, puisque la différence est
 
comprise entre -1.313 et 0.981, le zéro se situe là-dedans.
 
<nowiki>#</nowiki> Analyse des données et interprétation des résultats : analyses uni-,bi- et tri-variées, leur utilité pour la recherche ?
 
<nowiki>###</nowiki> Objectifs de cette séance
 
L’analyse univariée nous permet de décrire des variables et comment une
 
variable est distribuée. L’analyse univariée est aussi importante quand
 
on fait la plausibilité d’un jeu de données. Par exemple, quand on
 
récolte nos données, on regarde toutes les fréquences de toutes les
 
variables pour voir s’il y a des problèmes. A chaque recodage, il est
 
utile de tirer des fréquences pour voir s’il n’y a pas de missing.
 
Au niveau bi-varié, on peut regarder des corrélations ou associations
 
entre deux variables mais on doit toujours veiller au risque de fausse
 
relation.
 
<nowiki>##</nowiki> Analyse univariée
 
C’est l’analyse la plus basique. Elle sert à décrire une variable d’où
 
le nom univariée tel que combien de femmes on a dans notre échantillon ?
 
Cette analyse permet de regarder la distribution, la fréquence et le
 
pourcentage d’items dans une variable. Elle permet également de regarder
 
la centralité et la dispersion d’une variable à travers la moyenne et la
 
médiane et pour d’autres types de variables, à travers la moyenne et
 
l’écart-type.
 
<nowiki>###</nowiki> Utilité de l’analyse univariée
 
Ce sont des informations clés qu’on veut savoir. Par exemple, si on
 
travaille sur l’action protestataire, je veux savoir si je travaille sur
 
un phénomène marginal ou important de notre société. Elle permet aussi
 
d’expliquer un processus. La description peut se faire dans le temps
 
et l’espace mais dans le cas de l’explication qui est un cas plutôt rare
 
dans la recherche, elle a lieu quand la variable n’est pas mesurée ou
 
qu’on ne peut pas mesure la variable indépendante. Ainsi, l’analyse
 
descriptive est capable de nous faire connaître un objet ou un
 
phénomène. Comme le dit Bunge, pour accroître la connaissance sur un
 
phénomène, il faut pouvoir le décrire et l’expliquer.
 
  - Exemple : protestation politique dans les démocraties
 
L’analyse univariée ne permet pas seulement de décrire une variable dans
 
une base de données mais aussi de suivre une variation dans le temps et
 
l’espace. Avec ce type d’analyse, on peut répondre aux questions comme
 
« est-ce que le protestation politique est stable ou fluctuante dans
 
le temps ? », « Est-ce qu’on retrouve plus/moins de protestation en
 
Suisse depuis 1968 ? ». On peut également tenter d’expliquer une
 
variation à travers des moments qui ont eu lieu à un moment donné. On
 
peut également analyser si la protestation politique varie dans
 
l’espace. Cette comparaison peut aider à expliquer la variation à
 
travers les institutions politiques. Par exemple, Kriesi a montré
 
pourquoi il y a beaucoup de grèves en France et comparativement, peu en
 
Suisse ? Leur hypothèse c’est que c’est lié aux institutions politiques
 
des pays respectifs.
 
  - Exemple : stabilisation des conflits politiques et démocratie
 
   (Bartolini et Mair)
 
L’objectif majeur de leur étude est de tester la thése de Rokkan et
 
Lipset qui dit que les conflits majeurs dans une société sont organisés
 
autour de 4 grands clivages politiques qui sont entre le capital et le
 
travail, entre l’Eglise et l’Etat, entre la ville et la campagne et
 
entre le centre et la périphérie. Ces clivages sont représentés par les
 
partis politiques majeurs dans un pays. Du coup, les partis politiques
 
majeurs reflètent les conflits politiques les plus importants et
 
permettent ainsi de stabiliser et représenter ces conflits au niveau
 
politique. Le clivage de classe est le conflit politique le plus célèbre
 
et il est traditionnellement représenté par un parti précis. Grâce à ce
 
processus d’intégration politique de ces conflits sociaux, on assiste à
 
une organisation t à un déclin de ces conflits et ainsi à une
 
stabilisation de la démocratie puisque l’électorat a pu s’aligner
 
derrière les partis représentatifs traditionnellement pour ce genre
 
d’intérêts.
 
Bartolini et Mair utilisent un dessin de recherche qusi-expérimental de
 
groupes identifiées en amont (pays) Ils font cette comparaison dans le
 
temps et l’espace. Ils utilisent un temps très long (un siècle) et ils
 
comparent 13 pays européens. L’unité d’analyse sont les individus ou
 
plus précisément, le vote des individus agrégés par période de 5 ans et
 
par pays. Ils utilisent des données exhaustives donc pas de sondage et
 
d’échantillon de toutes les élections ayant eu lieu dans chaque pays.
 
Avec ces données, ils ont créé une mesure de « volatilité » qui mesure
 
combien de gens ont changé de camp politique d’une période à une autre.
 
Comme on n’a pas à faire à des mesures de ce que les gens pensent ou
 
disent ce qu’ils ont fait mais à des chiffres officiels, donc ce sont
 
des bonnes mesures en termes de validité. De mesure similaire, pour
 
augmenter la fiabilité, on se retrouve avec deux indicateurs pour la
 
volatilité du clivage de classe :
 
1.  Une moyenne sur 5 an : meilleure lisibilité des courbes
 
2.  Moyenne sur 5 ans et 1 an : pour voir s’il n’y a pas de biais
 
   (variations erratiques)
 
![](./media/image134.emf)Leur hypothèse est affirmée puisqu’une
 
stabilisation politique signifie qu’il y a moins de volatilité. Sauf
 
qu’il y a des controverses liées à la volatilité électorale et
 
clivage. On assiste à une émergence de nouveaux clivages puisque de le
 
clivage de classe n’existe plus et à une hausse de la volatilité
 
électorale à partir des années 1990.
 
  - Exemple : citoyenneté contestée (Koopmans, Statham, Giugni, Passy)
 
Question de recherche : Les migrants arrivent-ils à se mobiliser
 
politiquement dans leur pays d’accueil ? Cette étude fait le constat en
 
2005 que le sujet de la migration est des relations ethniques sont des
 
enjeux vivement débattus dans nos sociétés. Ce débat tourne autour de la
 
question de l’Etat-nation, c’est-à-dire que c’est l’Etat-nation qui
 
définit les paramètres du fait « d’être suisse » donc il joue un rôle
 
important tout comme la migration. Donc les auteurs essaient de lier
 
l’Etat-nation à la migration. Comme la nation et surtout l’accès à la
 
nation est au cœur de ce débat, ce sont des débats qui varient en
 
fonction de l’Etat. Les auteurs appellent cela des débats à géométrie
 
variable qui varient dans leur contenu qui est discuté mais également
 
dans le type d’acteurs et le mode d’action utilisé dans un pays
 
différemment. Dans chaque pays, ce débat a des caractéristiques
 
spécifiques. L’accès à la nation ne signifie rien d’autre que la
 
conception de la citoyenneté qui est au centre de ce débat. A nouveau,
 
cette conception varie d’un pays à l’autre et par conséquent, les enjeux
 
migratoires peuvent être placés de manière variée sur l’agenda
 
politique.
 
L’opérationnalisation des régimes de citoyenneté ou de l’accès à la
 
nation se fait sur 2 dimensions :
 
1.  Accès individuel : entrée dans l’espace national. L’accès civique
 
   contre l’aspect ethnique (le droit du sol VS le droit du sang).
 
2.  Accès collectif : mesure le fait de vivre ensemble et plus
 
   précisément si dans un pays on accentue plutôt la diversité ou une
 
   assimilation culturelle.
 
Conséquences de régimes de citoyenneté sont fortes et multiples. Les
 
auteurs soulignent deux impacts majeurs, à savoir que ces régimes
 
exercent une influence sur l’intégration/exclusion de migrants et
 
d’autres part, ces régimes posent des structures contraignantes pour
 
participer au débat politique et la mobilisation politique.
 
![](./media/image135.emf)
 
Pour la Suisse, cela a créé du débat \! A partir de ce cadre théorique,
 
ils choisissent leur cas d’étude : Suisse, France et GB :
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> L’étude et ses analyses
 
On se retrouve dans une comparaison de groupes (pays) qu’ils ont pu
 
identifier en amont. Donc on est dans un dessin de recherche
 
quasi-expérimental. L’unité d’analyse sont les acteurs collectifs et
 
notamment leurs actes de paroles et de mobilisation. Les chercheurs
 
‘s’intéressent à qui parlent dans un acte de parole ou qui se
 
mobilisent, comment ils se mobilisent (type d’action) et avec quel
 
message. Pour mesurer cela, ils utilisent la presse écrite et ils ont
 
codé une édition sur deux pendant 10 ans. Attention, on pourrait croire
 
que les 10 ans impliquent une comparaison dans le temps mais ce n’est
 
pas le cas \! Ils ne regardent pas une comparaison dans le temps puisque
 
les 10 ans ne doivent pas être pris en compte dans le dessin de
 
recherche. Ils ont choisi de récolter des données pendant 10 ans pour
 
augmenter la validité de leurs mesures et d’éviter des variations
 
conjoncturelles. S’ils avaient pris une année particulière, il y aurait
 
eu un biais sur leurs résultats censés être généralraislb.es Ils
 
présentent surtout des fréquences qui comparent les actions d’acteurs
 
publics dans différents pays. C’est une analyse centrée sur le cas,
 
typiquement pour un dessin quasi-expérimental. Sauf qu’ils ne peuvent
 
pas mesurer directement le régime de citoyenneté.
 
Résultat : les migrants sont-ils porteurs de leur propre revendication ?
 
Si oui, est-ce le cas dans tous les pays ? La Suisse dispose d’un des
 
régimes les plus contraignants avec un accès à la citoyenneté civique
 
et un monisme culturelle. La conséquence serait-elle que les migrants ne
 
se mobilisent pas ou qu’ils sont exclus de l’espace public ?
 
![](./media/image136.emf)Si on compare ce pourcentage relatif entre les
 
différents pays, on constate qu’il y a une moindre mobilisation en
 
Suisse qu’en GB. Il semble qu’il y a peu de différence entre la France
 
et la Suisse. Donc il se pourrait que ce ne soit que l’accès collectif
 
qui tranche cette différence. Donc le régime de citoyenneté est plus
 
contraignant en Suisse que dans les deux autres pays.
 
Conclusion : concernant le régime en Suisse, il y a double contrainte.
 
En tout cas, pour ce qui concerne la mobilisation des migrants eux-mêmes
 
en suisse pour des revendications destinées à la Suisse. EN même temps,
 
l’enjeu de migration est essentiellement porté par des acteurs
 
collectifs de solidarité et d’autres acteurs qui s’engagent sur
 
plusieurs enjeux (UNIA). Ces acteurs « suisses » semblent fonctionner
 
comme des relais politique pour les revendications des migrants.
 
Migrants en Suisse : que conclure ?
 
AU niveau thématique, les résultats semblent indiquer que les
 
institutions de citoyenneté excluent fortement la mobilisation de
 
certains acteurs et notamment des migrants eux-mêmes mais également le
 
relais politique privilégié. Ceci fait la lutte pour la voix des
 
migrants et contre le racisme, une des luttes les plus compliquées de
 
nos jours.
 
Au niveau méthodologique, les analyses descriptives ne servent pas
 
seulement à décrire mais également à comprendre et expliquer des
 
processus sociaux.
 
<nowiki>##</nowiki> Analyse bi-variée
 
Elle constitue un premier pas dans l’analyse causale et met en relation
 
deux variables. Les outils statistiques qu’on utilise sont les tableaux
 
croisés, la comparaison des moyennes et les corrélations.
 
<nowiki>###</nowiki> Utilité de l’analyse bi-variée
 
Dans ce cours, on nous apprend l’analyse statistique par étape et on
 
passe du simple au complexe. Cela est nécessaire pour déjouer les
 
problèmes si on passe directement à l’analyse multivariée. L’analyse
 
bi-variée nous montre s’il y a une association entre deux variables
 
aussi elle permet de visualiser la nature de la relation : est-elle
 
linéaire ou plurilinéaire ou une autre forme de relation entre deux
 
variables. Ceci est crucial puisque dans une analyse univariée, on ne
 
peut pas le voir et du coup, ça peut donner des relations
 
non-significatives et donc inexistantes mais c’est juste parce que la
 
relation est inexistante. Par exemple, l’âge est plurilinéaire. L’étape
 
bivariée est une étape incontournable de l’analyse statistique mais
 
rarement suffisante parce qu’on ne peut pas contrôler les causes
 
concurrentes et donc éviter les relations fallacieuses. On ne peut
 
s’arrêter au niveau bivariée.
 
<nowiki>##</nowiki> Analyse tri-variée
 
C’est le premier pas vers le contrôle et on met en relation deux
 
variables sous le contrôle d’une 3<nowiki><sup>ème</sup></nowiki> variable. Les outils
 
statistiques utilisés sont les mêmes que pour l’analyse bivarée. On
 
utilise également des tableaux croisés, des moyennes comparées, des
 
corrélations partielles et des régressions multiples (linéaires,
 
logistiques). L’analyse tri-variée n’a pas de propre outil statistique.
 
<nowiki>###</nowiki> Utilité de l’analyse tri-variée
 
Elle joue un rôle clé vers une approximation de la causalité parce
 
qu’elle permet de contrôler si une relation au niveau bivariée
 
subsiste au contrôle d’une troisième variable. Dans l’analyse
 
tri-variée, on peut détecter ce qui se cache derrière. Cependant, pour
 
avoir un petit retour de l’analyse causale, ce n’est pas seulement par
 
l’analyse multivariée qu’on peut contrôler pour la causalité.
 
<nowiki>***</nowiki>L’enjeu pour ce niveau d’analyse est le contrôle de la causalité et
 
donc de déceler les fausses relations et d’identifier les causes
 
concurrentes***. C’est pourquoi la théorie joue un rôle essentiel,
 
permettant de déjouer en amont les causes concurrentes ou les fausses
 
relations. Ainsi, le contrôle peut s’effectuer à divers moments de la
 
recherche en fonction du dessin de recherche plébiscité par le chercheur
 
(expérimentaux = contrôle ex-ante, corrélationnels = contrôle ex-post).
 
<nowiki>###</nowiki> Logique et analyse du contrôle
 
  - ***Si X a véritablement un effet sur Y, cet effet devra perdurer
 
   malgré l’introduction de causes concurrentes*** |R***.***
 
  - ***Si X*** à ***Y n’est pas une relation fallacieuse, alors l’effet
 
   de X devra perdurer après l’introduction d’une cause concurrente***
 
   |R.
 
<nowiki>###</nowiki> Logique du contrôle ex-post
 
Ainsi, le contrôle ex-post tente de déterminer si l’introduction d’une
 
nouvelle variable influence la relation postulée entre X et Y. Si la
 
relation ne se maintient pas, quatre explications sont possibles :
 
![](./media/image137.png)Nous nous trouvons dans une ***relation
 
fallacieuse*** : C’est à dire que la relation supposée est une fausse
 
relation car un autre effet se cacher derrière elle. La relation X1 à Y
 
ne se maintient pas lorsque X5 est introduit. Ainsi, c’est X5 qui se
 
trouve être la véritable cause de la relation entre X1 et Y. C’est par
 
exemple le cas lorsque l’on observe pour ce qui est de l’acceptation de
 
la légalisation de l’avortement. Les jeunes acceptent plus grandement
 
cela par rapport aux vieux si bien que l’on pourrait conclure à une
 
relation entre âge et acceptation de l’avortement. En réalité, c’est
 
l’éducation qui se trouve être la cause de cela.
 
![](./media/image138.emf)
 
On peut se trouver dans un ***cas de multicolinéarité***. C’est à dire
 
que les deux causes appliquées à la variable dépendante ne sont pas
 
indépendantes l’une de l’autre \! L’effet de X1 est restreint pas X5 ,
 
qui est corrélé à X1 et diminue son pouvoir explicatif. Ainsi, X1
 
n’explique pas un élément et X5 un autre mais bien le même de manière
 
associée. Sur le schéma, on voit que les deux causes associées diminuent
 
par la même
leur pouvoir explicatif contrairement au cas où ces
 
deux
causes auraient été indépendantes.
Voici un exemple. X1 et X2
 
explique
Y, les deux ont un effet mais le poids explicatif des deux est
 
diminué de par cette association.
 
![](./media/image139.emf)
 
On peut également assister à ***un effet médiatisé***, c’est à dire que
 
l’effet de X1 sur Y est médié par une seconde variable. Ainsi, l’effet
 
de X1 est réduit par le présence de X5 , c’est pourquoi on peut parler
 
d’effet indirect. Sur l’exemple, on voit comment un effet médiatisé
 
peut exister entre la confiance gouvernementale, la participation
 
électorale et l’efficacité politique.
 
![](./media/image140.emf)Enfin, on peut être en présence d’un ***effet
 
d’interaction***. Il en existe deux types. Il peut être
 
<nowiki>***</nowiki>conditionnel***, c’est à dire que l’effet X1 ne s’exerce sur Y que si
 
la variable X5 est présente, ou ***variable***, c’est à dire que l’effet
 
de X5 sur X1 varie selon les catégories considérées. Par exemple, on
 
sait que l’impact d’une manifestation dépend de l’opinion publique sur
 
elle. Un autre exemple peut être l’impact du genre sur la participation
 
électorale. Bien que l’on voit que les femmes participent moins que les
 
hommes, le genre n’est pas la variable explicative première puisque
 
c’est avant tout le niveau d’éducation qui influence la participation
 
électorale. Ainsi, on voit que cette variable influence différemment
 
selon le groupe socioculturel d’appartenance comme le montre ce
 
graphique.
 
<nowiki>###</nowiki> Une analyse importante
 
Ainsi, ***l’analyse tri-variée*** est très importante puisqu’elle permet
 
de ***rendre compte des relations sous-jacentes et constitue le premier
 
pas du contrôle (exclure des relations fallacieuses, examiner
 
l’interdépendance des VI (multicolinéarité), réfléchir aux éventuels
 
effets médiatisés, détecter les effets d’interactions***. Toutefois, ce
 
niveau n’est toujours ***pas suffisant*** pour ce qui est de l’analyse
 
statistique. En effet, le niveau multivarié est très fréquemment utilisé
 
pour contrôler l’effet de plusieurs causes concurrentes sur une variable
 
dépendante. C’est ce que l’on appelle les ***analyses de régression
 
multiple***. De plus, cette analyse constitue le premier pas du contrôle
 
où on peut contrôler les effets des causes concurrentes tel que l’effet
 
de l’âge sur la législation de l’avortement ; relation fallacieuse ?
 
(contrôlé par l’éducation), multicolinéarité (entre intérêt politique et
 
éducation) et relation additive ?
 
<nowiki>##</nowiki> Conclusion
 
L’analyse uni-variée est très importante puisqu’elle permet de décrire
 
les variables et de commencer à les expliquer. L’analyse bivariée est
 
tout aussi cruciale bien que problématique, ne permettant d’avoir aucun
 
contrôle sur nos variables. C’est pourquoi on passe à un niveau
 
d’analyse plus complexe que représente l’analyse tri-variée. Elle
 
consiste en le premier pas du contrôle et permet de vérifier si
 
l’intervention d’une cause concurrente impacte ou non la relation
 
premièrement observée. Toutefois, elle n’est également pas suffisante,
 
c’est pourquoi on passe alors au niveau mutli-varié. On a besoin de
 
méthodes d’analyse plus puissantes telle que l’analyse de la régression
 
multiple. Ainsi, ***on va toujours du niveau le plus simple au niveau le
 
plus complexe lorsque l’on effectue des analyses statistiques.***
 
<nowiki>#</nowiki> Analyse multivariée : régression linéaire. Analyse des données et interprétation
 
<nowiki>##</nowiki> Introduction
 
<nowiki>###</nowiki> Modèles statistiques
 
La régression est un terme exprimant une fonction. De plus, on s’attache
 
aux régressions linéaires dites des fonctions linéaires. Un modèle
 
statistique est un outil permettant d’analyser une situation et d’en
 
tirer des conséquences. Un modèle combine généralement différents
 
concepts statistiques « simples » tels que la tendance centrale, la
 
dispersion, la corrélation… au sein d’une ou plusieurs équations
 
mathématiques. Un modèle permet de tenir compte simultanément de
 
différents facteurs influençant la situation considérée. Dans la mesure
 
du possible, un modèle doit tenir compte du plan d’échantillonnage et
 
des spécificités des données.
 
<nowiki>###</nowiki> Quelques modèles
 
  - Prédire la valeur prise par une variable numérique =\> **régression
 
   linéaire**.
 
  - Prédire la modalité prise par une variable dichotomique / mooléenne
 
   =\> **régression logistique**
 
  - Comparer plusieurs populations =\> **analyse de la variance
 
   (ANOVA).**
 
  - Réduire le nombre de variables ou d’observations à traiter =\>
 
   **classification automatique / méthodes** **factorielles** (ACP,
 
   AFC,…). Techniques avancées de réduction du nombre de variable.
 
  - Expliquer l’évolution d’une variable au fil du temps =\> **chaîne de
 
   Markov, analyse de survie, analyse des séquences**
 
<nowiki>###</nowiki> Modèles de régression
 
Dans un modèle de régression, un ensemble de **variables**
 
<nowiki>**</nowiki>explicatives** ou **indépendantes** X<nowiki><sub>1</sub></nowiki>, X<nowiki><sub>2</sub></nowiki>,
 
X<nowiki><sub>3</sub></nowiki>… est utilisé pour expliquer une variable expliquée ou
 
indépendante Y : *Y* = *f*(X<nowiki><sub>1</sub></nowiki>,X<nowiki><sub>2</sub></nowiki>,X<nowiki><sub>3</sub></nowiki>…)
 
Le type de régression dépend du type de la variable expliquée *Y* :
 
  - Numérique -\> régression linéaire
 
  - Dichotomique -\> régression logistique
 
  - Nominale -\> régression multinomiale
 
  - Ordinale -\> régression ordinale
 
Exemple : Données GSOEP
 
<nowiki>**</nowiki>Exemples de régressions**
 
  - Prédire le REVENU d’un ménage -\> régression *linéaire*
 
  - Prédire le fait d’avoir un TRAVAIL -\> régression *logistique*
 
  - Prédire le nombre de visites chez un docteur durant les 3 derniers
 
   mois en 4 catégories (DOC\_4c) -\> régression *multinomiale* ou
 
   *ordinale*
 
<nowiki>##</nowiki> Régression Linéaire
 
<nowiki>###</nowiki> Régression linéaire simple
 
<nowiki>####</nowiki> Le modèle
 
En régression linéaire simple, une seule variable indépendante X
 
(explicative) explique la variable dépendante Y (expliquée). Le modèle
 
est linéaire, ce qui signifie que la relation théorique entre les
 
variables X et Y est une droite. Sauf cas particulier, la relation
 
linéaire liant X et Y n’est pas parfaite. Le modèle s’écrit alors (ce
 
qu’on aurait dans la population) :
 
![](./media/image141.emf)
 
où *e* est un **terme d’erreur** représentant la part de Y qui n’est pas
 
expliqué par le modèle linéaire. Après estimations des coefficients
 
\(\beta\)<nowiki><sub>0</sub></nowiki> et \(\beta\)<nowiki><sub>1</sub></nowiki>, le modèle fournit une
 
estimation de ![](./media/image142.emf) pour chaque observation
 
Y<nowiki><sub>1</sub></nowiki> (dans un échantillon, on a des valeurs estimées et on
 
essaie d’estimer la pente par bêta. On n’obtient pas directement les
 
vraies valeurs parce que si on a deux échantillons, on va obtenir deux
 
échantillons distincts) :
 
![](./media/image143.emf)
 
Le modèle comporte deux coefficients à estimer :
 
  - \(\mathbf{\beta}\)**<nowiki><sub>0</sub></nowiki> est la constante (ordonnée à
 
   l’origine)** du modèle. C’est la valeur de Y lorsque la variable
 
   explicative Y vaut 0.
 
  - \(\mathbf{\beta}\)**<nowiki><sub>1</sub></nowiki> est la pente** du modèle. Elle
 
   s’interprète comme l’effet sur Y d’une variation d’une unité de la
 
   variable X.
 
![](./media/image144.emf)
 
![](./media/image145.emf)
 
Le point commun de toutes les régressions linéaires, c’est le point de
 
moyenne entre X et Y (\(\overline{x}\),\(\ \overline{y}\)).
 
<nowiki>###</nowiki> Estimation des coefficients
 
![](./media/image146.emf)L’estimation des coefficients
 
\(\beta\)<nowiki><sub>0</sub></nowiki> et \(\beta\)<nowiki><sub>1</sub></nowiki> s’effectue selon la
 
méthode des **moindres carrées**. L’objectif est de trouver la droite
 
de régression qui minimise globalement les termes d’erreur
 
e<nowiki><sub>i</sub></nowiki>. La droite optimale passe par le point moyen
 
(\(\overline{x}\),\(\ \overline{y}\)).
 
  - Bêta 1 (pente) : Estimateur des moindres carrées : la covariance de
 
   X et Y / variance de X
 
  - Bêta 0 (constante) = moyenne Y (variable dépendante) – pente x la
 
   moyenne de X
 
<!-- end list -->
 
  - Pour trouver les coefficients à estimer, il faut faire l’estimateur
 
   des moindres carrées. Pour trouver l’estimation de la constante, il
 
   faut calculer les moyennes et prendre la pente.
 
![](./media/image147.emf)**Exemple : REVENU et EDUCATION : Le revenu
 
dépend-t-il du niveau d’éducation ?**
 
On voit que dans le tableau des résultats, nous avons trois parties dans
 
le listing. La partie centrale correspond au modèle lui-même. La
 
catégorie « intercept » correspond à l’ordonnée à l’origine – bêta 0
 
(ici = à 0.1669) et la catégorie D$EDUCATION correspond à la pente ou
 
bêta 1 (ici = à 0.0242). Ainsi, on peut dire que par années d’éducation
 
supplémentaire, le revenu augmente théoriquement de 0.0242%. Ainsi, il
 
semble que l’éducation influence positivement le revenu puisqu’il est
 
possible de trouver une relation entre ces deux variables.
 
![](./media/image148.emf)On obtient ça comme modèle. A partir de ce
 
modèle, on peut prédire quel salaire une personne devrait théoriquement
 
toucher en fonction du nombre d’année d’éducation à son actif. Par
 
exemple, quel devrait être le salaire d’une personne ayant été 17 années
 
à l’école ?
 
Exemple : REVENU et EDUCATION
 
Une fois estimé, le modèle peut être utilisé pour faire des prédictions
 
en l’appliquant sur des valeurs choisies des variables explicatives.
 
Pour x=17 années d’éducation, le modèle prédit :
 
![](./media/image149.emf)
 
soit en moyenne un revenu de 0.5738.
 
<nowiki>**</nowiki>Attention **:
 
  - Pour faire des prédictions valables, il faut que le modèle soit de
 
   bonne qualité, ce qui n’est pas le cas ici.
 
  - Un modèle ne peut être utilisé que pour des données du même ordre de
 
   grandeur que celles ayant servi à estimer le modèle.
 
<!-- end list -->
 
  - Ce que le graphique permet de voir, c’est que ***les points ne sont
 
   pas bien alignés sur la droite, ce qui permet de dire que ce modèle
 
   est insuffisant pour expliquer à lui seul le revenu***. Pour obtenir
 
   un meilleur modèle avec un pouvoir explicatif plus fort, il faut
 
   intégrer d’autres variables dans l’analyse. De plus, il faut
 
   ***exclure les données aberrantes pour que ces dernières ne puissent
 
   pas influencer et biaiser le modèle*** construit par le chercheur.
 
   En effet, il est bien intéressant de les étudier séparément.
 
![](./media/image150.emf)
 
On a remplacé notre variable X et on obtient d’autres valeurs.
 
![](./media/image151.emf)On a un intercept plus une pente négative fois
 
la valeur col bleu oui/non. Cela signifie que si j’augmente col bleu,
 
l’effet sur le revenu sera augmenté (on regarde le coefficient qui est
 
négatif et donc on descend dans les valeurs). Si je passe à col bleu,
 
cela a pour effet un revenu qui décroît par rapport à un col blanc.
 
<nowiki>###</nowiki> Le modèle
 
La variable dépendante Y est souvent influencée simultanément par
 
plusieurs variables explicatives. Soit X<nowiki><sub>1</sub></nowiki>,
 
X<nowiki><sub>2</sub></nowiki>,…X<nowiki><sub>k</sub></nowiki>, k variables indépendantes qui peuvent
 
toutes expliquer en partie la variable dépendante Y. Le modèle s’écrit
 
alors :
 
![](./media/image152.emf)
 
Même s’il n’est pas possible de représenter graphiquement le modèle, la
 
relation entre chaque variable explicative et la variable dépendante
 
reste <nowiki><span class="underline">linéaire</span></nowiki>.
 
<nowiki>###</nowiki> Indépendance des variables explicatives
 
Les variables explicatives du modèle doivent être linéairement
 
indépendantes les unes des autres : il ne doit pas être possible
 
d’écrire l’une d’entre-elles comme une combinaison linéaire des
 
autres. Cela revient à dire que chaque variable explicative doit
 
apporter une information qui lui est propre pour l’explication de la
 
variable dépendante. Si les variables explicatives ne sont pas
 
linéairement indépendantes, le modèle ne peut plus estimer et on parle
 
alors de **multicolinéarité**. Par ailleurs, les variables explicatives
 
doivent aussi être indépendantes des termes d’erreur du modèle.
 
![](./media/image153.emf)Je tente d’expliquer le revenu par l’âge,
 
l’éducation et le col bleu. Dans notre output, on a à nouveau un bêta
 
0 estimé, un bêta 1 pour l’éducation, un bêta 2 pour l’âge et un bêta 3
 
pour col bleu. Si on veut établir l’équation expliquant le revenu, il
 
serait égal à XXXX. Si je connais cette équation, je suis capable de
 
donner une estimation du revenu où je remplacerais l’éducation par le
 
nombre d’années d’éducation. On voit sur l’exemple que le R<nowiki><sup>2</sup></nowiki>
 
est égal à 0.0759, on peut donc conclure que ce modèle permet
 
d’expliquer à 7,59% le niveau de revenu des individus. Ainsi, c’est un
 
modèle très insuffisant pour expliquer le salaire, sans pour autant être
 
inutile puisqu’il permet malgré tout de comprendre une partie de la
 
variable dépendante Y. La variable col bleu n’est pas significative.
 
L’interprétation des coefficients, pour une année supplémentaire
 
d’éducation, j’augmente mon augmentation de 0.024791 en éducation.
 
<nowiki>###</nowiki> Variables explicatives qualitatives
 
L’utilisation de variables explicatives qualitatives (nominales ou
 
ordinales) est problématique car les codes numériques attribués à leurs
 
modalités sont arbitraires. Si le code change, l’estimation du modèle
 
change aussi, ce qui n’est pas réaliste. La solution consiste à associer
 
à chacune des modalités une **variable indicatrice** binaire (0-1). On
 
parle aussi de **variables muettes** (dummy variables). Une variable
 
catégorielle à *c* modalités est remplacée par c-1 variables muettes,
 
la i-ème variable prenant la valeur 1 si la variable originale prend la
 
valeur i et zéro sinon. Une des modalités sert de référence et on ne lui
 
associe par de variable indicatrice.
 
Exemple : REVENU et DOC\_4
 
Vu qu’on a 4 modalités, il faut trois variables indicatrices valant 0 ou
 
1.
 
<nowiki>###</nowiki> Niveau d’analyse
 
Sauf car particulier, il est toujours possible d’estimer la valeur des
 
coefficients d’un modèle de régression. Cependant, l’existence du modèle
 
n’implique pas automatiquement qu’il soit de bonne qualité. Plusieurs
 
niveaux d’analyse peuvent être utilisés afin de juger de la pertinence
 
du modèle de régression linéaire :
 
  - Qualité globale de l’ajustement
 
  - Test individuel de chaque coefficient
 
  - Analyse des termes d’erreur
 
Cette problématique n’est pas spécifique à la régression linéaire. Elle
 
est présente dans tous les modèles statistiques.
 
<nowiki>###</nowiki> Qualité globale de l’ajustement
 
Le premier point à vérifier après avoir calculé un modèle est de savoir
 
si ce modèle permet d’expliquer réellement, en partie du moins, la
 
variable dépendante. Si c’est le cas, il sera ensuite utile d’étudier un
 
à un ses coefficients. Si ce n’est pas le cas, le modèle doit être
 
purement et simplement rejeté et un autre modèle doit être défini.
 
<nowiki>###</nowiki> Coefficient de détermination de R<nowiki><sup>2</sup></nowiki>
 
Le coefficient de détermination (ou de corrélations multiple)
 
R<nowiki><sup>2</sup></nowiki> est une mesure variant entre 0 et 1 et représentant la
 
part de la variable dépendante qui est expliquée par le modèle de
 
régression. Plus R<nowiki><sup>2</sup></nowiki> est proche de 1, plus le modèle s’ajuste
 
bien aux données. Le coefficient de détermination est défini comme la
 
proportion de la variance totale expliquée par le modèle :
 
![](./media/image154.emf)
 
Dans le cas particulier de la régression linéaire simple,
 
![](./media/image155.emf)
 
<nowiki>###</nowiki> Coefficient de détermination R<nowiki><sup>2</sup></nowiki> ajusté
 
Le coefficient de détermination R<nowiki><sup>2</sup></nowiki> présente l’inconvénient
 
d’augmenter en fonction du nombre de variables explicatives. Le
 
coefficient de détermination R<nowiki><sup>2</sup></nowiki> ajusté corrige ce défaut :
 
![](./media/image156.emf)
 
où *n* est le nombre d’observations et *p* le nombre de coefficients
 
estimés du modèle. C’est ce coefficient ajusté qui devrait toujours être
 
utilisé.
 
Exemple :
 
![](./media/image157.emf)Le col bleu n’est pas significatif. Donc on
 
teste chacun des coefficients Bêta 1, 2, 3 pour savoir s’ils sont
 
différents de 0.
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> Test de la significativité globale
 
Nous aimerons savoir si le modèle contient des éléments utiles pour
 
expliquer la variable dépendante. Pour ce faire, nous formulons le test
 
suivant :
 
![](./media/image158.emf)
 
Si l’on accepte H<nowiki><sub>0</sub></nowiki>, aucune des variables explicatives n’a
 
d’influence sur la variable dépendante et le modèle doit être
 
entièrement rejeté.
 
La statistique de test **F-statistic** se calcule comme :
 
![](./media/image159.emf)
 
<nowiki>###</nowiki> Test individuel de chaque coefficient
 
Même si un modèle apporte globalement de l’information pour comprendre
 
le comportement de la variable dépendante, cela ne signifie pas que
 
toutes les variables explicatives sont utiles. Ceci est particulièrement
 
vrai dans le cas de modèles comportant un grand nombre de variables
 
explicatives. Seules les variables apportant réellement quelque chose de
 
significatif doivent être interprétées.
 
<nowiki>###</nowiki> Test de significativité de chaque coefficient
 
Nous voulons vérifier si chacun des coefficients du modèle est
 
réellement différent de zéro et donc utile au niveau de la population.
 
Nous effectuons pour chaque coefficient le test suivant :
 
![](./media/image160.emf)
 
Ces tests sont appelés les **tests de significativité** et le
 
coefficient est dit significatif si l’hypothèse nulle est rejetée.
 
Accepter l’hypothèse nulle revient à dire que la variable explicative
 
correspondant au coefficient testé n’a pas de relation avec la variable
 
dépendante.
 
<nowiki>###</nowiki> Coefficients standardisés de la régression
 
Quelle est l’importance d’un coefficient ? Si on veut comparer les
 
coefficients entre eux, on ne peut pas le faire parce qu’ils n’ont pas
 
la même unité. Pour ce faire, il faut essayer de standardiser.
 
La valeur des coefficients de la régression dépend de l’unité de mesure
 
des variables explicatives correspondantes. Ce n’est donc pas parce
 
qu’un coefficient est très différent de zéro qu’il est significatif.
 
Une solution consiste à standardiser les coefficients de manière à les
 
rendre comparables les uns avec les autres :
 
![](./media/image161.emf)
 
où S<nowiki><sub>y</sub></nowiki> est l’écart-type de la variable dépendante et
 
Sx<nowiki><sub>j</sub></nowiki> est l’écart-type de la j-ième variable explicative.
 
![](./media/image162.emf)
 
<nowiki>###</nowiki> Analyse des termes d’erreur
 
Le modèle de régression linéaire repose sur un ensemble d’hypothèses
 
ayant trait aux termes d’erreur du modèle. Si ces hypothèses ne sont pas
 
vérifiées, alors le modèle perd en fiabilité et il devrait être modifié.
 
Selon les cas, ces hypothèses peuvent être vérifiées graphiquement ou
 
par calcul. Pour une observation i, le terme d’erreur se calcule
 
comme (valeur réelle (<nowiki><sub>Yi</sub></nowiki>) – valeur estimée Y<nowiki><sub>i</sub></nowiki>
 
chapeau estimée par la régression) :
 
![](./media/image163.emf)
 
Un terme d’erreur positif correspond donc à une sous-estimation de la
 
réalité par le modèle et un terme négatif correspond à une
 
surestimation.
 
<nowiki>###</nowiki> Erreur standard de la régression
 
![](./media/image164.emf)L’erreur standard du modèle de régression est
 
l’écart-type non-biaisé des termes d’erreur :
 
La somme carrée des erreurs/ nombre d’observations – nombre de
 
paramètres estimés (variables) au raciné carré.
 
L’erreur standard intervient notamment dans le calcul des tests de
 
significativité et lors de la détection de donnés atypiques de
 
l’échantillon.
 
<nowiki>###</nowiki> Données atypiques
 
Les modèles de régression sont fortement influencés par des données
 
atypiques ou aberrantes au sein de l’échantillon. Le mieux est de
 
supprimer ces données avant l’estimation mais il est aussi possible de
 
détecter leur présence a posteriori. Un critère habituel consiste à
 
supprimer les données dont le terme d’erreur pris en valeur absolue
 
dépasse 2.5 fois l’erreur standard du modèle. En supposant normale la
 
distribution des observations, ces données font partie du 1% des données
 
les plus extrêmes (grandes ou petites).
 
Exemple :
 
![](./media/image165.emf)La limite pour des données atypiques est 2.5 x
 
0.208 = 0.52. Les termes d’erreur acceptable sont compris entre
 
\[-0.52 ; 0.52\]. La valeur maximale est de 2.57 sauf qu’il y a un
 
souci parce qu’il y a au moins une valeur atypique supérieure à 0.52.
 
![](./media/image166.emf)
 
Si on regarde le graphique, on remarque que tout ce qui est au-dessus,
 
ce sont de trop grandes erreurs donc il y a un souci.
 
<nowiki>###</nowiki> Hypothèses sur les termes d’erreur
 
![](./media/image167.emf)![](./media/image168.emf)
 
<nowiki>##</nowiki> Construction de modèles
 
<nowiki>###</nowiki> Deux approches
 
  - **Approche théorique **: on part d’une théorie existante et on
 
   construit le modèle explicatif qui lui correspond. Les variables
 
   explicatives utilisées dépendant de la théorie.
 
  - **Approche empirique **: on recherche le modèle permettant
 
   d’expliquer au mieux la variable dépendante. Le choix des
 
   variables explicatives utilisées dépend uniquement de leurs qualités
 
   statistiques.
 
<!-- end list -->
 
  - L’approche théorique est généralement préférable à l’approche
 
   empirique.
 
<nowiki>###</nowiki> Ajustement VS simplicité
 
Il n’est pas forcément souhaitable que le modèle estimé à partir d’un
 
échantillon soit trop parfait \! L’échantillon est une image imparfaite
 
de la population. Un modèle parfait pour l’échantillon ne le sera pas
 
forcément pour la population. Une telle situation est une situation dite
 
de surapprentissage. Un bon modèle doit être le résultat d’un arbitrage
 
entre l’ajustement aux données et la simplicité.
 
<nowiki>###</nowiki> Approche théorique
 
Dans le cas d’une approche théorique, le modèle est défini par la
 
théorie et il n’y a normalement pas de doutes quant aux variables
 
explicatives à utiliser. La limitation provient naturellement des
 
données à disposition : si les concepts théoriques n’ont pas pu être
 
correctement mesurée, alors le modèle ne reflètera pas exactement la
 
théorie \! Cela rappelle une fois encore l’importance de penser à une
 
recherche quantitative comme un tout et de prévoir bien avant la récolte
 
des données ce qui sera fait avec ces dernières du point du vue
 
statistique.
 
<nowiki>###</nowiki> Tester la théorie
 
Partir d’un modèle théorique ne veut pas dire que l’on ne peut pas le
 
remettre en question. Le test de significativité de chaque coefficient
 
permet de déterminer quelles variables soutiennent la théorie et quelles
 
variables la remettent en cause. De même, il est possible d’ajouter des
 
variables ne faisant pas partie de la théorie, de manière à remettre en
 
question la théorie et à en proposer une nouvelle.
 
<nowiki>###</nowiki> Comparer des théories
 
Dans certains cas, plusieurs théories différentes ont été bâties afin
 
d’expliquer un même phénomène. Sous réserve de disposer des variables
 
nécessaires pour chaque théorie, il est possible de calculer un modèle
 
différent pour chaque théorie, puis de les comparer afin de déterminer
 
quelle théorie est la mieux soutenue par les données. La comparaison
 
peut se faire notamment sur la base du coefficient de détermination
 
ajusté (R<nowiki><sup>2</sup></nowiki>) ou de critères d’information tels que le **BIC**.
 
<nowiki>###</nowiki> Approche empirique
 
Dans le cas d’une approche empirique, toutes les variables à disposition
 
peuvent être utilisée comme prédicteurs de la variable dépendante. Au vu
 
du nombre de modèles différents que cela peut impliquer, il faut
 
travailler de manière systématique. Principales approches :
 
  - Backward
 
  - Forward
 
  - Blocs
 
<nowiki>###</nowiki> Procédure backward
 
La procédure backward prend comme point de départ un
 
<nowiki><span class="underline">modèle incluant toutes les variables</nowiki>
 
explicatives<nowiki></span></nowiki> à disposition. On utilise ensuite l’algorithme
 
suivant :
 
  - Le modèle de régression multiple est estimé.
 
  - Chaque coefficient du modèle est testé individuellement.
 
  - Décision :
 
   
 
     - Si tous les paramètres sont significativement différents de
 
       zéro, la procédure s’arrête.
 
   
 
     - Sinon, la variable correspondant au paramètre le moins fortement
 
       significative (celui pour lequel l’hypothèse H<nowiki><sub>0</sub></nowiki> a été
 
       la plus fortement acceptée) est supprimée du modèle et on
 
       retourne au point 1).
 
<nowiki>###</nowiki> Procédure forward
 
La procédure forward prend comme point de départ un
 
<nowiki><span class="underline">modèle incluant uniquement une constante</span></nowiki>.
 
On utilise ensuite l’algorithme suivant :
 
  - On recherche, parmi les variables ne faisant pas partie du modèle,
 
   celle qui permet le mieux d’améliorer le modèle. Cela peut
 
   nécessiter le calcul de tous les modèles possibles en incluant à
 
   tour de rôle chacune des variables potentielles.
 
  - Décisions :
 
   
 
     - Si cette variable est significative lorsqu’on l’ajoute au
 
       modèle, on l’ajoute et on retourne au point 1.
 
   
 
     - Sinon, la procédure s’arrête.
 
Remarque : les procédures « stepwise » combinent les deux approches
 
précédentes. Une variable peut ressortir du modèle après y être
 
entrée, et vice versa.
 
<nowiki>###</nowiki> Construction par blocs
 
La construction par blocs est une approche intermédiaire entre les
 
approches théoriques et empiriques. Les variables explicatives sont
 
réparties en plusieurs blocs (variables essentielles, variables
 
sociodémographiques, variables de contrôle…) et ces blocs sont ajoutés
 
successivement au modèle. L’objectif n’est plus seulement d’établir
 
l’utilité de chaque variable explicative prise isolément mais de
 
mesurer l’apport respectif de chaque bloc ou type de variables dans
 
l’explication de la variable dépendante.
 
<nowiki>###</nowiki> Comment comparer ces modèles ?
 
Plusieurs critères peuvent être utilisés pour comparer des modèles entre
 
eux. Tout d’abord, il faut savoir si l’on travaille au **niveau
 
individuel de chaque variable** ou **au niveau du modèle** pris dans son
 
ensemble :
 
  - **Au niveau des variables**, on peut utiliser le test de
 
   significativité si la variable est dans le modèle, ou se baser sur
 
   la corrélation (partielle) entre cette variable et la variable
 
   dépendante sinon.
 
  - **Au niveau du modèle**, on peut se baser sur des coefficients
 
   d’ajustement (R<nowiki><sup>2</sup></nowiki>), sur des tests du rapport de
 
   vraisemblance, ou sur des critères d’information (BIC).
 
<nowiki>###</nowiki> Critères d’information
 
Les critères d’information combinent la qualité d’ajustement du modèle
 
aux données avec sa complexité :
 
  - Akaike : AIC = *FIT* + 2*k*
 
  - Bayes (Schwarz) : BIC = *FIT* + ln(*n*)*k* -\> où *k* est le nombre
 
   de coefficient estimés du modèle et *n* est le nombre
 
   d’observations.
 
Plus un coefficient est proche de zéro, meilleur il est. Pour une
 
régression logistique, *FIT* est égal à -2 fois la log-vraisemblance du
 
modèle, alors que pour une régression linéaire, il s’agit de *n* fois le
 
logarithme de la somme des carrés des résidus du modèle.
 
Il n’est pas possible de tester formellement la valeur du BIC mais
 
<nowiki>*</nowiki>Raftery* (1995) propose un ordre de grandeur pour la comparaison de
 
deux modèles. Soit M<nowiki><sub>1</sub></nowiki> et M<nowiki><sub>2</sub></nowiki>, deux modèles tels que
 
M<nowiki><sub>2</sub></nowiki> est emboîté dans M<nowiki><sub>1</sub></nowiki> (ie : il a été obtenu en
 
supprimant une ou plusieurs variables de M<nowiki><sub>1</sub></nowiki> et il est donc
 
plus simple). Alors :
 
![](./media/image169.emf)
 
<nowiki>**</nowiki>Exemple : comparaison de théories**
 
![](./media/image170.emf)Pour expliquer le revenu, il faut prendre la
 
variable travail (oui/non), si c’est un col blanc (oui/non) et s’il est
 
indépendant. Les 3 variables sont significatives par rapport à leur
 
p-valeur.
 
![](./media/image171.emf)
 
On a la variable santé qui est significative et les deux autres qui ne
 
sont pas significatives.
 
![](./media/image172.emf)
 
On a aussi des variables significatives et d’autres qui ne le sont pas
 
(âge, diplôme universitaire).
 
Lequel des 3 modèles est le plus pertinent ? On compare les
 
R<nowiki><sup>2</sup></nowiki> ajusté et les BIC.
 
<nowiki>![](./media/image173.emf)Le R<sup>2</sup></nowiki> du modèle sociodémographique
 
permet d’expliquer les 12% de notre modèle de comparaison. Avec le BIC,
 
la valeur la plus petite, c’est une sorte de différence entre ce que ça
 
prédit et ce qui est réellement donc plus c’est petit, mieux c’est. Pour
 
les deux critères, on a le modèle sociodémographique qui est meilleur
 
mais est-ce un bon modèle ? Là, on a environ 12% de variance expliqué
 
mais ce n’est pas excellent. Parmi les 3, c’est le meilleur mais il
 
n’est pas très bon.
 
<nowiki>**</nowiki>Exemple : construction par blocs**
 
On construit un modèle en examinant tout d’abord l’influence des
 
facteurs économiques puis celle de la santé et en dernier lieu celle des
 
facteurs socio-démographiques.
 
Le <nowiki><span class="underline">bloc économique </span></nowiki>: on prend le même
 
modèle. On remarque qu’il y a au moins une valeur qui est
 
significative. Toutes les variables sont significatives en l’occurrence
 
avec un R<nowiki><sup>2</sup></nowiki> de 0.0509 donc on explique 5% de la variance.
 
Maintenant on rajoute les valeurs dues à la santé à ce modèle. Ce
 
nouveau modèle comprenant deux séries de blocs de variables, il vaut la
 
peine de s’y intéresser. Est-ce qu’il explique beaucoup mieux la
 
variable indépendante ? Les variables sont significatives du bloc
 
économique et juste une du modèle de la santé. Puis on ajoute les
 
variables socio-démographiques et on obtient un modèle combiné par les 3
 
blocs de variables. On voit ainsi qu’il y a des variables
 
non-significatives.
 
Si on compare ces 3 modèles entre eux,
 
![](./media/image174.emf)Le dernier bloc permet la plus forte
 
augmentation et donc la plus forte explication de la variation (avec un
 
pourcentage d’environ 16%). Par conséquent, c’est l’ajout des facteurs
 
socio-démographiques qui permet la plus forte augmentation de
 
l’explication de la variable dépendante.
 
<nowiki>**</nowiki>Exemple : sélection backward**
 
A partir du modèle précédent à 3 blocs de variables, on effectue une
 
sélection backward en supprimant à chaque étape la variable
 
non-significative ayant la plus grande p-valeur. On supprime ainsi
 
successivement les variables suivantes : HANDI.POUR, HANDI, UNIV, AGE.
 
En termes de R<nowiki><sup>2</sup></nowiki> ajusté, le modèle obtenu est très proche du
 
modèle précédent à 3 blocs, tout en étant plus simple.
 
![](./media/image175.emf)Toutes ces variables ont l’air significatives.
 
Comment expliquer la variance ? Par 16.2% mais qui n’est pas terrible.
 
C’est un modèle considéré comme mauvais.
 
<nowiki>#</nowiki> Analyse multivariée : régression logistique. Analyse des données et interprétations
 
Elle va nous permettre de prédire la valeur d’une ou l’autre des
 
modalités d’une variable de type catégorielle.
 
<nowiki>##</nowiki> Introduction
 
<nowiki>###</nowiki> Problématique
 
Nous voulons construire un modèle de régression pour expliquer une
 
variable dichotomique. Problème : une telle variable ne prend que deux
 
modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux)
 
alors qu’un modèle de régression produit des résultats numériques allant
 
de – infini à + infini. Comment faire coïncider une variable dépendante
 
dichotomique avec l’output d’un modèle de régression ? La solution
 
consiste en deux étapes successives.
 
<nowiki>###</nowiki> Transformation logit (fonction)
 
Soit une variable dépendante dichotomique et soit *p* la probabilité de
 
la modalité pour laquelle nous allons construire le modèle.
 
  - **Etape 1 **: En considérant la probabilité p plutôt que la modalité
 
   elle-même, nous revenons à une variable dépendante numérique. Mais
 
   une probabilité évolue entre 0 et 1, alors qu’un modèle de
 
   régression produit des résultats allant de –infini à +infini.
 
  - **Etape 2 **: On estime le modèle pour la fonction logit, notée
 
   \(\pi\) plutôt que pour *p* :
 
![](./media/image176.emf)
 
  - On veut prédire des valeurs avec une régression connue où on se
 
   ramène à un cas où les valeurs vont aller de – l’infini à +
 
   l’infini. C’est une fonction logistique \!
 
![](./media/image177.emf)
 
Donc on passe d’une variable dichotomique à quelque chose qui peut avoir
 
des valeurs allant de – l’infini à + l’infini. La transformation est
 
permise par le log. Nous on estime sur le PI avec une régression
 
linéaire.
 
<nowiki>###</nowiki> ![](./media/image178.emf)Modèle
 
Equation générale d’une régression logistique :
 
![](./media/image179.emf)
 
Même si le modèle de régression logistique ne permet pas forcément
 
d’expliquer à 100% le logit, on n’indique généralement par le terme
 
d’erreur car il n’est pas distribué selon une loi bien définie.
 
Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on
 
prend quelqu’un au hasard sans connaître ces modalités, on prend la
 
modalité la plus présente, à savoir le 80 d’individus. En termes de
 
probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2.
 
Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre
 
information à part les données de départ, à savoir de la variable
 
dichotomique.
 
<nowiki>**</nowiki>Exemple : données GSOEP**
 
Nous disposons de données extraites du German Socio-Economic Panel
 
(GSOEP), un panel représentatif des ménages allemands pour l’année 1994.
 
Ces données concernant 3377 individus âgées de 25 à 64 ans. On a des
 
variables liées au travail, à la santé et des variables
 
socio-démographiques.
 
<nowiki>##</nowiki> Interprétation
 
En régression linéaire, il suffit de minimiser la somme des carrées
 
d’erreur. Ici, on aura une fonction dite de régression logistique.
 
<nowiki>###</nowiki> Niveaux d’analyse du modèle
 
Tout comme en régression linéaire, on peut évaluer à la fois la qualité
 
globale d’un modèle et l’utilité de chacun de ses éléments. Par
 
ailleurs, les coefficients du modèle peuvent soit être interprétés
 
directement soit être transformées en *odds ratio – rapport de cote*.
 
Cette seconde forme est plus naturelle dans le cas de la régression
 
logistique.
 
<nowiki>**</nowiki>Exemple : modélisation du fait d’avoir un travail**
 
![](./media/image180.emf)La variable dépendante est d’avoir un travail
 
et on veut l’expliquer avec toutes les autres variables indépendantes.
 
AIC = critère d’information. On a ici les coefficients nécessaires de
 
notre régression ; on a des informations sur la qualité du modèle, sur
 
la valeur des paramètre (dernière colonne).
 
![](./media/image181.emf)On a ici de nouvelles informations par rapport
 
au précédent.
 
<nowiki>###</nowiki> Qualité globale du modèle : déviance
 
La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le
 
modèle et les observations. Elle est utile pour comparer des modèles en
 
particulier le modèle basique ne contenant aucune variable explicative
 
et le modèle complet où on a toutes nos variables. Ces deux chiffres
 
indiquent une certaine distance entre le modèle et les observations.
 
Plus la distance est petite, meilleur sera le modèle. En ayant une
 
déviance plus petite, on aura un modèle considéré comme meilleur. Si on
 
n’a aucune variable explicative et si on prend toutes ces explications
 
du modèle précédents des variables indépendantes, la déviance est plus
 
petite et donc le second modèle est meilleur que le modèle où on a juste
 
les intercept.
 
![](./media/image182.emf)
 
<nowiki>###</nowiki> Qualité globale du modèle : chi-2
 
La statistique chi-2 du rapport de vraisemblance évalue l’amélioration
 
de la déviance par rapport au modèle « NULL » (avec constante
 
seulement) :
 
![](./media/image183.emf)
 
Si la statistique du chi-2 n’est pas significative, le modèle est
 
rejeté. Cette statistique permet aussi de comparer des modèles entre
 
eux.
 
![](./media/image184.emf)
 
Donc notre modèle vaut la peine d’être considéré mais cela ne signifie
 
pas qu’il est bon \! C’est aussi un outil qui nous permet de juger la
 
validité de notre modèle.
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> Qualité globale du modèle : pseudo-R<nowiki><sup>2</sup></nowiki>
 
  - ![](./media/image185.emf)**Cox & Snell **:
 
![](./media/image186.emf)
 
  - **Nagelkerke** (exemple : R<nowiki><sup>2</sup></nowiki> = 0.227)
 
![](./media/image187.emf)
 
  - **McFadden **:
 
où -2LL<nowiki><sub>0</sub></nowiki> est la déviance du modèle NULL et -2LL<nowiki><sub>M</sub></nowiki>
 
est la déviance du modèle que l’on teste. Au contraire de la régression
 
linéaire, ces R<nowiki><sup>2</sup></nowiki> ne représentant pas la part expliquée de la
 
variable dépendante mais seulement une mesure de l’utilité des variables
 
explicatives. Le R<nowiki><sup>2</sup></nowiki> ne s’utilise pas de la même manière que
 
dans la régression linéaire. Ce sont toutes des estimations \!
 
<nowiki>###</nowiki> Qualité globale du modèle : AIC, BIC…
 
Les critères d’information d’Akaike et de Bayes permettent aussi de
 
comparer au niveau global plusieurs modèles :
 
![](./media/image188.emf)
 
où k est le nombre de coefficient estimés du modèle et n est le nombre
 
d’observations. Pour la régression logistique, le *FIT* du modèle est
 
égale à la **déviance** (-2 fois la log vraisemblance du modèle). Plus
 
un coefficient est proche de zéro, meilleur il est.
 
<nowiki>###</nowiki> Test individuel de chaque variable
 
La significativité des coefficients détermine si la variable
 
correspondante est significative ou si elle peut au contraire être
 
supprimée du modèle.
 
  - Variable **quantitative **: c’est l’effet de la variable elle-même
 
   car il n’y a qu’un seul coefficient.
 
  - Variable **catégorielle **: la significativité d’un coefficient
 
   indique uniquement l’effet significatif de la variable muette
 
   correspondante par rapport à la catégorie de référence.
 
<nowiki>###</nowiki> Variables explicatives à plus de 2 modalités
 
Lorsqu’une variable explicative catégorielle comporte plus de 2
 
modalités, elle est remplacée dans le modèle par plusieurs variables
 
muettes. Une *p*-valeur est fournie pour chacune de ces variables
 
muettes. Toutes ces variables muettes correspondent à la même variable
 
explicative. Il faut donc **soit toutes les laisser dans le modèle soit
 
toutes les supprimer**. Il est possible de tester globalement l’effet de
 
toutes les variables muettes correspondant à une même variable
 
explicative en utilisant la statistique du chi-2 pour comparer le modèle
 
avec et sans ces variables muettes.
 
Exemple : modèle avec une variable explicative catégorielles à 4
 
modalités (DOC\_4c)
 
![](./media/image189.emf)
 
Modèle sans cette variable explicative catégorielle (DOC\_4c)
 
![](./media/image190.emf)
 
Quel est le meilleur modèle ? On peut regarder la déviance résiduelle
 
(3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2
 
est très petit. En regardant la valeur du BIC, le 2<nowiki><sup>ème</sup></nowiki> modèle
 
serait meilleur. Par contre, par rapport au critère déviance résiduelle
 
(distance entre le modèle et l’observation), là, ça semble un peu se
 
contredire. En fait, ces deux modèles sont extrêmement proches l’un de
 
l’autre. On peut ainsi dire que par parcimonie, on préférerait le
 
modèle ayant le moins de variables. On prend les variables muettes du
 
premier modèle et on les retire toutes ensembles. Si on regarde les
 
p-valeur, il n’y a que pour une variable où ces significatives. Donc on
 
les retire toutes.
 
<nowiki>###</nowiki> Interprétation des coefficients
 
Un modèle de régression logistique peut s’interpréter soit en termes de
 
<nowiki>**</nowiki>valeur des coefficients de régression,** soit en termes **d’odds
 
ratios** (rapport de cotes). Les coefficients mesurent l’influence des
 
variables explicatives sur le logit de la variable dépendante. Un
 
coefficient \>0 implique une augmentation du logit et un coefficient \<0
 
implique une diminution du logit. Problème : le logit n’est qu’une
 
construction mathématique qui n’est pas facile à interpréter. On sait
 
seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et
 
que plus le logit augmente, plus la probabilité augmente.
 
Exemple : modélisation du fait d’avoir un travail
 
![](./media/image191.emf)
 
<nowiki>###</nowiki> Odds ratio
 
Soit la variable « avoir un travail ». Cette variable n’a que deux
 
modalités : oui et non. Soit p la probabilité d’avoir actuellement un
 
travail (oui) et 1-*p* la probabilité de ne pas en avoir (non). Pour un
 
échantillon de taille n, la cote (odds) associée à cette variable est
 
le rapport entre le nombre n<nowiki><sub>oui</sub></nowiki> de personnes ayant un travail
 
et le nombre n<nowiki><sub>non</sub></nowiki> de personnes n’ayant pas de travail avec
 
n = n<nowiki><sub>oui</sub></nowiki> + n<nowiki><sub>non</sub></nowiki>, ce qui revient à écrire :
 
![](./media/image192.emf)
 
L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de
 
la variable expliquée est multipliée lorsque le facteur explicatif
 
correspondant augmente d’une unité. C’est ce que l’on appelle un **odds
 
ratio**. Les odds ratios s’interprètent de la manière suivante :
 
  - **Variable quantitative **: impact sur la cote de la variable
 
   expliquée d’une augmentation de 1 unité de la variable.
 
  - **Variable catégorielle **: impact sur la cote de la variable
 
   expliquée du fait d’appartenir à la catégorie indiquée par la
 
   variable muette par rapport au fait d’appartenir à la catégorie de
 
   référence.
 
<!-- end list -->
 
  - **Les odds ratios ne prennent que des valeurs positives. La valeur 1
 
   sert de référence et indique l’absence de changement**.
 
Exemple : modélisation du fait d’avoir un travail
 
![](./media/image193.emf)Pour avoir les odds rations, on fait e à la
 
puissance des chiffres de la première colonne. La cote de base de la
 
variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt
 
qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 =
 
0.75. Cette valeur signifie que si on a comme caractéristique d’être une
 
femme par rapport à un homme, on a 25% de chance en moins d’avoir un
 
travail.
 
<nowiki>###</nowiki> Probabilité d’une situation donnée
 
Etant donné que le modèle est estimé pour la quantité suivante :
 
![](./media/image194.emf)
 
<nowiki>La probabilité *p* se calcule alors comme : ![](./media/image195.emf)</nowiki>
 
Exemple :
 
![](./media/image196.emf)![](./media/image197.emf)La probabilité d’avoir
 
un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant
 
étudié durant 12 ans. Logit :
 
  - Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait
 
   un travail.
 
<nowiki>##</nowiki> Modèles dérivés
 
<nowiki>###</nowiki> Régression multinomiale
 
La régression multinomiale s’utilise lorsque la variable dépendante est
 
une variable nominale à c\>2 catégories. L’une des catégories joue alors
 
le rôle de référence et l’on calcule en parallèle c-1 régressions
 
« logistiques » pour chacune des autres catégories de la variable.
 
Attention : c-1 régressions ne sont pas indépendantes les unes des
 
autres et ce modèle n’est pas équivalent à calculer c-1 vraies
 
régressions logistiques.
 
![](./media/image198.emf)
 
<nowiki>**</nowiki>DOC\_4c (référence =0)**
 
On a pris 4 valeurs.
 
<nowiki>**</nowiki>Doc\_4C (référence = 0)**
 
![](./media/image199.emf)
 
<nowiki>###</nowiki> Régression ordinale
 
La régression ordinale s’utilise lorsque **la variable dépendante est
 
une variable ordinale à c\>2 catégories**. On calcule alors une
 
régression comparant des modalités adjacentes ou des groupes de
 
modalités cumulées. **Contrairement à la régression multinomiale, un
 
seul ensemble de coefficients est calculé, à l’exception des
 
constantes**. Pour utiliser ce modèle, il faut faire l’hypothèse de
 
<nowiki>**</nowiki>parallélisme des régressions**, ce qui signifie que les coefficients
 
des différentes régressions doivent être identiques, à l’exception des
 
constantes. En pratique, cette hypothèse est difficile à vérifier et
 
l’on préfère souvent en rester à une régression multinomiale.
 
<nowiki>###</nowiki> Exercice en cours
 
Sur la base de données disponibles sur moodle (excel), on va s’entraîner
 
à analyser des régressions linéaires :
 
1)  <nowiki><span class="underline">Résumer la variable</nowiki>
 
   douleur (qualitative)<nowiki></span></nowiki> : variable qualitative dichotomique
 
   ayant 2 modalités. Pour la résumer, il faut calculer le nombre de
 
   fois qu’il y a 0 et le nombre de fois qu’il y a 1. 35 fois 0 et 25
 
   fois 1. En pourcentage, 58% qui n’ont pas de reçu de douleur contre
 
   41% qui ont eu de la douleur.
 
2)  <nowiki><span class="underline">Prenez un patient au hasard. A-t-il plus de</nowiki>
 
   chance d’avoir une réduction de la douleur ou de ne pas avoir de
 
   réduction de la douleur ?<nowiki></span></nowiki> Effectivement, si on prend une
 
   personne au hasard, d’après les données on a 58.3% de chance que la
 
   personne n’ait pas ressenti de la douleur contre 41% de personne qui
 
   ont ressenti de la douleur. Notre meilleur pronostic si on prend une
 
   personne au hasard, elle n’a pas de réduction de douleur ressenti
 
   puisque le pourcentage est plus grand que pour celles qui ont
 
   ressenti de la douleur.
 
<!-- end list -->
 
  - La seule chose qu’on peut dire c’est que par rapport à mes données,
 
   je regarde la majorité et je parie là-dessus. Si je fais un modèle
 
   basé uniquement sur la variable douleur qui est la variable
 
   dépendante. Ainsi, on estime un coefficient qui est le coefficient
 
   constant puisqu’on n’a aucune autre valeur.
 
<!-- end list -->
 
3)  <nowiki><span class="underline">Quel est la cote de base de la variable</nowiki>
 
   dépendante ?<nowiki></span></nowiki> On fait la formule de la cote :
 
   (n<nowiki><sub>oui</sub></nowiki>/n) / (n<nowiki><sub>non</sub></nowiki>/ n) : (25/60) / (35/60) =
 
   0.714.
 
4)  <nowiki><span class="underline">Qu’est-ce ça signifie d’avoir une cote de</nowiki>
 
   0.714 ?<nowiki></span></nowiki> Le 1 est le seuil équivalent entre les 2 populations.
 
   Si on est en dessous, cela signifie que la partie qui nous intéresse
 
   est plus faible. Donc, les chances qu’un patient ait une réduction
 
   de douleur avec une cote inférieure à 1, ses chances diminuent. Donc
 
   cela signifie que le patient a environ 29% de chance en moins que le
 
   patient ait une réduction de douleur.
 
<!-- end list -->
 
  - Ce qui est inférieur à 1, on a moins de chance d’obtenir l’évènement
 
   en question. Si on a plus que 1, on a plus de chance d’obtenir
 
   l’évènement en question.
 
Le modèle nul = un modèle dans lequel je ne mets aucune variable
 
explicative. Je n’ai pas d’autres informations que le fait d’avoir un
 
patient et la probabilité qu’il ait une réduction de la douleur. AIC =
 
plus il est petit, mieux c’est (c’est un critère d’information).
 
5)  <nowiki><span class="underline">Quelle est l’équation de ce modèle</nowiki>
 
   nul <nowiki></span></nowiki>? Le pi est le logit. La différence par rapport à une
 
   régression linéaire, on y explique une variable égale à bêta 0 +
 
   bêta 1. Là, on n’explique pas directement la variable qui nous
 
   intéresse. On passe ici par un logit parce qu’on a une variable
 
   dichotomique, on a des soucis en utilisant une régression
 
   logistique. Ici, on évalue un modèle de régression pour le logit.
 
   Donc la réponse est que bêta 0 (pi) = -0.036.
 
6)  <nowiki><span class="underline">Quelle est la probabilité d’une réduction de</nowiki>
 
   douleur ?<nowiki></span></nowiki> (régression logistique) p = 1/1 + e <nowiki><sup>-</nowiki>
 
   (-0.336)<nowiki></sup></nowiki> = 0.417. C’est la probabilité d’avoir une réduction
 
   de douleur.
 
<!-- end list -->
 
  - On a fait un modèle qui nous permet de prédire la variation de la
 
   variable.
 
<nowiki>**</nowiki>Modèle avec genre, résumé**
 
7)  <nowiki><span class="underline">Résumez les données comprenant les variables</nowiki>
 
   Douleur et genre <nowiki></span></nowiki>: On a 22 femmes = 0 / 8 = 1 // 13 hommes =
 
   0 / 17 = 1
 
8)  <nowiki><span class="underline">Quelle est l’équation de ce modèle</span></nowiki> =
 
   -1.012 + 1.280 x genre
 
9)  <nowiki><span class="underline">Que vaut le logit pour une femme ?</span></nowiki>
 
   (Femme = 0) donc -1.012 + 1.280 x 0 = -1.012.
 
10) <nowiki><span class="underline">Que vaut le logit pour un homme</span></nowiki> :
 
   -1.012 + 1.280 x 1 = 0.268.
 
11) <nowiki><span class="underline">Quelle est la probabilité d’une diminution</nowiki>
 
   de douleur chez une femme ?<nowiki></span></nowiki> p = 1/1+e<nowiki><sup>-(bêta 0 +bêta 1 x</nowiki>
 
   Genre)<nowiki></sup></nowiki> : 0.267. Il y a 26.7% de chance qu’elle ressente une
 
   diminution de douleur.
 
12) <nowiki><span class="underline">Quelle est la probabilité d’aucune</nowiki>
 
   diminution de douleur chez une femme ?<nowiki></span></nowiki> P(Douleur=0 I Genre =
 
   F) = 1 - 0. 267 = 0.733.
 
13) <nowiki><span class="underline">Quelle est la probabilité d’une diminution</nowiki>
 
   de douleur chez un homme ?<nowiki></span></nowiki> 0.567.
 
14) <nowiki><span class="underline">Quelle est la probabilité d’aucune</nowiki>
 
   diminution de douleur chez un homme ?<nowiki></span></nowiki> 1 – 0.567 = 0.433.
 
15) Rapports de 2 probabilités : P (Douleur = 1 I Genre = F) = 0.267 / P
 
   (Douleur = 0 I Genre = F) = 0.733 / P (Douleur = 1 I Genre = H) =
 
   0.567/ P (Douleur =0 I Genre = H) = 0.433.
 
<nowiki><span class="underline">Quel est le rapport de cote chez une</nowiki>
 
femme ?<nowiki></span></nowiki> 0.267/0.733 = 0.364 =\> 8/22
 
<nowiki><span class="underline">Quel est le rapport de cote chez un</nowiki>
 
homme ?<nowiki></span></nowiki> 0.567 / 0.433 = 1.308 =\> 17/13
 
En reprenant notre résumé de donné, on a 8 femmes qui ressentent une
 
diminution de douleur et 22 qui n’en ressentent pas.
 
<nowiki>**</nowiki>Modèle avec genre, odds ratio**
 
Les rapports de cote chez la femme et chez l’homme sont
 
|            | Femme | Homme |
 
| ---------- | ----- | ----- |
 
| Odds ratio | 0.364 | 1.308 |
 
Nous connaissons donc les cotes avant et après 1 unité de changement
 
dans la variable Genre (Genre = 0 pour la femme, Genre = 1 pour
 
l’homme).
 
16) <nowiki><span class="underline">Quelle est la variation proportionnelle des</nowiki>
 
   rapports de cotes ?<nowiki></span></nowiki>
 
Différence entre les cotes = cote après 1 unité d’accroissement de Genre
 
/ cotes originales
 
Nous avons calculé une variation proportionnelle des rapports de cote :
 
3.596
 
Les coefficients et odds rations sont :
 
|           | Coefficient | OR    |
 
| --------- | ----------- | ----- |
 
| Intercept | \-1-01      | 0.364 |
 
| Genre M   | 1.28        | 3.596 |
 
<nowiki>**</nowiki>Le modèle final suivant est disponible**
 
La variable traitement contenait 3 valeurs. Puisqu’on a 3 valeurs, on a
 
besoins de 2 variables dichotomiques pour la représenter.
 
<nowiki><span class="underline">Quelle est l’équation du modèle final ?</span></nowiki>
 
<nowiki>**</nowiki>Modèle final, équation**
 
Que vaut le logit pour une femme de 60 ans, ayant reçu le traitement A,
 
et dont la durée des douleurs précédentes est de 5 jours ?
 
P= 0.007
 
Quelle est la probabilité d’une réduction de douleur pour une femme de
 
60, ayant reçu le traitement B, et dont la durée des douleurs précédente
 
est de 5 jours ?
 
P= 0.004.
 
<nowiki>#</nowiki> Analyses multivariées : leur utilité pour la recherche
 
<nowiki>##</nowiki> Rappel : types d’analyses : analyses unvariées. VS multivariées
 
  - **Analyses univariées**
 
   
 
     - Description de la distribution d’une seule variable
 
   
 
     - Fréquences, tendance centrale (moyenne, médiane etc) et
 
       dispersion (écart-type, écart interquartile etc.
 
  - **Analyses multivariées**
 
C’est une mise en relation de plusieurs variables pour voir comment
 
elles sont associées. Les analyses bi-variée et tri-variée sont des cas
 
particuliers. L’usage voudrait qu’on parle d’analyse multivariée dès
 
lors qu’on analyse plusieurs variables.
 
  - **Analyse bivariées**
 
Mise en relation de 2 variables. On utilise des corrélations, des
 
comparaisons de moyennes, des tableaux croisés et des régressions
 
simples dans ce cas d’analyse. Sauf qu’on n’est pas à l’abri d’une
 
relation fallacieuse, à savoir qu’on peut avoir une corrélation entre
 
deux variables mais il n’y a pas de sens en termes de causalité.
 
  - **Analyses trivariées**
 
C’est une mise en relation de 2 variables sous contrôle d’une
 
3<nowiki><sup>ème</sup></nowiki>. On utilise les mêmes outils statistiques pour une
 
analyse bivariée et de plus, il y a la régression multiple. Néanmoins,
 
si le contrôle est limité, quelles sont les causes concurrentes ?
 
  - **Autres analyses multivariées**
 
C’est une mise en relation de plus que 3 variables. On utilise des
 
régressions multiples et d’autres méthodes plus complexes dont on ne va
 
pas triater.
 
<nowiki>##</nowiki> Régression multiple
 
La logique, on cherche à expliquer/prédire un phénomène et c’est une
 
<nowiki>*</nowiki>variable expliquée/dépendante* notée *Y*. A côté de ça, on a une série
 
de variables <nowiki><span class="underline">indépendantes ou explicatives</nowiki>
 
notées X<nowiki></span></nowiki>. On cherche à trouver leur effet sur la variable
 
dépendante.
 
Variable de contrôle VS indépendante : mathématiquement, il n’y a pas de
 
différence. C’est une distinction théorique, c’est le chercher qui
 
décide ce qui l’intéresse vraiment, les variables dont l’effet
 
l’intéresse et les variables de contrôle sont là pour contrôler.
 
<nowiki>###</nowiki> 2 usages de la régression multiple
 
  - **Expliquer un phénomène social dans son ensemble**
 
   
 
     - Objectif d’expliquer un maximum de la variance de ce phénomène
 
       (variable dépendante) et c’est pour ça que l’examen du
 
       R<nowiki><sup>2</sup></nowiki> nous donne l’indice de combien de variance on
 
       explique de ce phénomène.
 
   
 
     - Avantage par rapport aux autres types d’analyse : on peut tester
 
       des choses plus complexes. On peut introduire plus de facteurs
 
       explicatifs et par définition, on a plus de chance de cerner le
 
       phénomène qu’on cherche à expliquer (notamment par le
 
       R<nowiki><sup>2</sup></nowiki>).
 
  - **Expliquer l’influence de certains facteurs en particulier**
 
   
 
     - On est moins intéresser à expliquer un phénomène dans son
 
       ensemble mais on a un intérêt en se demandant quel est
 
       l’influence d’une variable en particulier.
 
   
 
     - Avantage c’est ce fameux *toute chose égale par ailleurs –
 
       ceteris paribus* qui nous permet de dire qu’en contrôlant tout
 
       un paquet de facteurs, la variable qui nous intéresse a un
 
       effet. Si on garde tout le reste constant, on peut dire qu’une
 
       variable a un effet. En gros, l’avantage de la régression
 
       multiple est qu’elle permet de contrôler l’effet des causes
 
       concurrentes.
 
<!-- end list -->
 
  - Coefficients (standardisés et non-standardisés) sont plus
 
   importants, R<nowiki><sup>2</sup></nowiki> est moins intéressant sauf si comparaison
 
   de modèles « avec/sans » la variable clé. Le R<nowiki><sup>2</sup></nowiki> : de
 
   combien de variance supplémentaire on peut expliquer en ajoutant
 
   cette variable explicative.
 
<nowiki>##</nowiki> Différents types de régression multiple
 
Le type de régression utilisée dépend du niveau de mesure de la variable
 
dépendante (Y).
 
![](./media/image200.emf)
 
<nowiki>###</nowiki> Interprétation
 
![](./media/image201.emf)
 
B = coefficient de régression / e = terme d’erreur (estimation
 
statistique) / H<nowiki><sub>0</sub></nowiki> = hypothèse avec pas d’effet
 
<nowiki>###</nowiki> Interprétation
 
![](./media/image202.emf)
 
<nowiki>###</nowiki> Régression logistique binaire
 
Dans l’absolu, le R<nowiki><sup>2</sup></nowiki> ajusté est difficile à interpréter par
 
contre pour comparer des modèles, le R<nowiki><sup>2</sup></nowiki> ajusté peut être
 
utile en disant que celui qui a le R<nowiki><sup>2</sup></nowiki> ajusté le plus grand,
 
c’est le meilleur modèle.
 
Le logit, c’est une quantité mathématique qui est difficile à
 
interpréter. Raison pour laquelle on utilise le plus souvent les odd
 
ratios. Le coefficient, la valeur de référence est 0 pour voir la
 
relation est + ou -. Pour les odd rations, la valeur de référence est de
 
1. Si on est entre 0 et 1, on a une relation négative, si on est au-delà
 
de 1, la relation est positive.
 
Les cotes = on est à 1 contre 3 ; en gros, sur 4 situations, il y a 1
 
dans laquelle on gagne et 3 dans laquelle on perd. Dire la côte est de 1
 
contre 3, on a 1 chance sur 4 de gagner.
 
Vu que la valeur de référence pour 1 (OR), l’intervalle de confiance
 
comprend-elle le 1 ?
 
\(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki> : pourcentage de variance qu’on
 
explique en plus à chaque nouveau bloc
 
<nowiki>####</nowiki> Régression multiple : exemple 1
 
« Social Media Use for News and Individuals’ Social Capital, Civic
 
Engagement and Political Participation » G. de Zuniga, Jung & Valenzuela
 
(2012)
 
Question de recherche : les nouveaux réseaux sociaux (SNS)
 
renforcent-ils la participation politique ou, au contraire,
 
l’inhibent-ils ?
 
Hypothèse : L’utilisation des SNS pour la recherche d’information est
 
positivement associée à la participation politique offline et online
 
(=plus les individus utilisent fréquemment les SNS pour s’informer, plus
 
ils participent politiquement).
 
![](./media/image203.emf)
 
<nowiki>**</nowiki>Interprétation**
 
  - Type d’analyse :
 
   
 
     - Variables dépendantes numériques (échelles de participation) -\>
 
       régressions linéaires (OLS)
 
  - Informations statistiques
 
   
 
     - Coefficients standardisés (Betas)
 
   
 
     - Significativité (p-valeurs\*)
 
   
 
     - R<nowiki><sup>2</sup></nowiki> totaux et surtout \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki>
 
       intermédiaires
 
  - Effet de l’usage des SNS sur participation online ?
 
   
 
     - Beta = 0.153, p \< 0.01
 
   
 
     - \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki> = 3.6% (R<nowiki><sup>2</sup></nowiki> total =
 
       39.3%)
 
<!-- end list -->
 
  - Effet significatif, positif et assez fort en comparaison avec
 
   d’autres variables explicatives du modèle (e.g socio-démo.)
 
<!-- end list -->
 
  - Effet de l’usage des SNS sur participation offline ?
 
   
 
     - Beta = 0.136, p \< 0.01
 
   
 
     - \(\mathrm{\Delta}\)R<nowiki><sup>2</sup></nowiki> = 1.4% (R<nowiki><sup>2</sup></nowiki> total =
 
       32.5%)
 
<!-- end list -->
 
  - Effet significatif et positif mais relativement moins important en
 
   comparaison avec ceux des autres variables.
 
<nowiki><span class="underline">CCL </span></nowiki>: Toutes choses égales par ailleurs,
 
la fréquence d’utilisation des SNS pour la recherche d’information a un
 
impact positif sur la participation politique offline et online
 
(hypothèse confirmée) mais surtout en ce qui concerne cette dernière.
 
<nowiki>####</nowiki> Régression multiple : exemple 2
 
Social Media and Decision to Participate in Political Protest :
 
Observations From Tharir Square » Tufekci & Wilson (2012)
 
Question de recherche : quel rôle ont joué les réseaux sociaux dans les
 
évènements de la place Tahrir en 2011 ?
 
![](./media/image204.emf)
 
<nowiki>**</nowiki>Interprétation**
 
  - Type d’analyse
 
   
 
     - Variables dépendantes dichotomiques (participation oui/non) -\>
 
       régressions logistiques binaires (logit)
 
  - Informations statistiques
 
   
 
     - Odds ratio (OR)
 
   
 
     - Significativité (p-valeurs\*)
 
   
 
     - (Log-likelihood)
 
  - Variables indépendantes dans 1<nowiki><sup>er</sup></nowiki> modèle (participation
 
   1<nowiki><sup>er</sup></nowiki> jour place Tahrir)
 
   
 
     - Blogs (OR =1.574), téléphone (OR=1.531), Twitter (OR =1.414),
 
       Facebook (OR = 1.411), e-mail (OR = 1.313).
 
   
 
     - Variables indépendantes dans 2<nowiki><sup>ème</sup></nowiki> modèle
 
       (participation manifestations antérieures)
 
       
 
         - SMS (OR = 1.180), presse écrite (OR = 1.353), face à face
 
           (OR = 0.613)
 
<!-- end list -->
 
  - Différents modes de communication prédisent les 2 variables
 
   dépendantes ; impact positif significatif des réseaux sociaux dans
 
   le 1<nowiki><sup>er</sup></nowiki> modèle mais pas dans le 2<nowiki><sup>ème</sup></nowiki>.
 
<nowiki><span class="underline">CCL </span></nowiki>: A la différence des manifestations
 
précédentes, toutes choses égales par ailleurs, la chance d’avoir
 
participé au 1<nowiki><sup>er</sup></nowiki> tour de la manifestation place Tahrir est
 
plus élevée si l’individu a utilisé les réseaux sociaux pour communiquer
 
à ce propos.
 
<nowiki>#</nowiki> Analyse des données et interprétations des résultats : préparation à l’examen
 
<nowiki>##</nowiki> Caractéristiques méthodologiques – en amont des analyses
 
  - Dessins de recherche : expérimental, quasi-expérimental,
 
   corrélationnel
 
  - Type de données : primaires ou secondaires ; échantillonnées ou
 
   exhaustives, unité d’analyse
 
  - Type de récolte des données : échantillonnage, autre
 
  - Mesures : variables dépendantes et indépendantes
 
<nowiki>##</nowiki> Analyses
 
<nowiki>###</nowiki> Types d’analyses
 
  - Univariées : Fréquences, moyennes, médianes
 
  - Bivariées : Tableaux croisés, comparaison de moyenne (Anova),
 
   corrélation
 
  - Trivarieés : Tableaux croisés, comparaison de moyenne (Anova)
 
  - Multivariées : régressions linéaires, régressions logistiques
 
<nowiki>###</nowiki> Statistiques mobilisées :
 
  - Univariées : n / %,moyennes (écart-type), médianes (ei)
 
  - Bi-tri-variées : n / &, moyennes / association (gamma, etc) / sig
 
   (p-valeur)
 
  - Multivariées : n / association (b/B) et sig (p-valeur) / Variance
 
   exp (R<nowiki><sub>2</sub></nowiki>)
 
  - Synthèse : distribution, association, significativité, variance
 
   expliquée
 
<nowiki>##</nowiki> Les questions que l’on se pose ?
 
![](./media/image205.emf)
 
<nowiki>##</nowiki> Identifier, interpréter, discuter
 
1.  Identifier : qu’est-ce que c’est ?
 
2.  Interpréter : expliquer, pourquoi ?
 
3.  Discuter : adéquation, est-ce que c’est adéquat ?
 
   
 
   1.  Points forts
 
   
 
   2.  Biais possibles et leurs impacts sur les résultats
 
   
 
   3.  Discussion réflexive
 
![](./media/image206.emf)
 
![](./media/image207.emf)
 
![](./media/image208.emf)
 
![](./media/image209.emf)
 
<nowiki>###</nowiki> Texte de référence – Andrews : The impact of social movements on the political process. The civil rights movements and black electoral politics in Mississipi
 
<nowiki>**</nowiki>Question de recherche **: quels sont les impacts des mobilisations
 
locales du Civil rights movement sur la politique électorale du
 
Mississipi ?
 
L’auteur distingue 4 impacts :
 
1.  Participation des afros américains au processus électoral
 
2.  Soutien aux candidats AA lors d’élections
 
3.  Candidats AA qui se présentent aux élections locales
 
4.  Candidats AA élus
 
<!-- end list -->
 
  - Type d’impact =\> spécifie les variables dépendantes
 
<nowiki>**</nowiki>Cadre théorique et hypothèses**
 
  - Mobilisation des ressources : force de mobilisation du mouvement
 
  - Opportunités politiques : alliances politiques
 
  - Stratégie de résistance : contre-mobilisation de la population
 
   blanche
 
  - Cycle protestataire : processus temporel
 
   
 
     - Relation entre facteurs changent dans le temps
 
   
 
     - Influence des facteurs en fonction du type d’impact
 
<nowiki>**</nowiki>Caractéristiques méthodologiques**
 
<nowiki><span class="underline">Corrélationnel :</span></nowiki>
 
  - Analyse de la relation entre variables dans un groupe
 
  - Le groupe : Etat du Mississipi
 
<nowiki><span class="underline">Quasi-expérimental</span></nowiki> :
 
  - Analyse temporelle : impacts dans le temps du mouvement
 
  - Comparaison dans le temps : 1964 (FV) à 1984 (élections AA)
 
  - Trois phases : processus
 
   
 
     - Mobilisation du mouvement
 
   
 
     - Développement de structures électorales
 
   
 
     - Election de candidats
 
<nowiki><span class="underline">Corrélationnel et quasi-expérimental :</span></nowiki>
 
  - Adapté à la question de recherche : variations et processus (temps)
 
  - Force : 1964-1984
 
  - Faiblesse : Cas du Mississipi
 
   
 
     - Force : Cas important dans l’histoire de la protestation CRM
 
   
 
     - Force : Variation dans la mobilisation (Variance)
 
   
 
     - Faiblesse : cas exceptionnel de l’Etat du Mississipi (Sud et
 
       USA)
 
   
 
     - Limite la portée des résultats -\> Attention à la généralisation
 
Autre proposition de dessins de recherche ?
 
  - Comparaison du Mississipi avec un autre Etat moins exceptionnel
 
  - Limite : faisabilité
 
<nowiki>**</nowiki>Type de données et collecte**
 
<nowiki><span class="underline">Type de données et unité d’analyse</span></nowiki>
 
  - Countries : n = 81
 
   
 
     - Country de Jackson supprimé : cas exceptionnel (mobilisation et
 
       population)
 
  - Données agrégées par country
 
  - Données exhaustives (pas de sondages, échantillon)
 
<nowiki><span class="underline">Types de collecte de données</span></nowiki>
 
  - Sources documentaires (archives)
 
<nowiki><span class="underline">Type de données et unité d’analyse :</span></nowiki>
 
  - Countries : adaptées au questionnement
 
   
 
     - Variation du type d’impact au niveau collectif (par country)
 
  - Exhaustives : pas d’autres solutions possibles
 
<nowiki><span class="underline">Type de collecte de données :</span></nowiki>
 
  - Peu (pas) d’information pour évaluer problèmes, biais ?
 
  - N = ensemble des countries (n=81) (Sauf Jackson)
 
  - Force : exclusion du country de Jackson (cas exceptionnel)
 
<nowiki><span class="underline">Variables dépendantes =\> 4 types d’impact et 9</nowiki>
 
mesures :<nowiki></span></nowiki>
 
1.  Participation des AA
 
   
 
   1.  Nombre de voix au Freedom vote (1964)
 
   
 
   2.  Nombre de AA enregistrer pour voter (1967)
 
2.  Soutien aux candidats AA
 
   
 
   1.  % de vote pour Whitley (1966)
 
   
 
   2.  % de vote pour Evers (1971)
 
3.  Candidats AA participant au processus électoral
 
   
 
   1.  Nombre de candidats AA : 1967 – 1971
 
4.  Candidats AA élus
 
   
 
   1.  Nombre de candidats AA élus : 1974, 1979, 1984
 
<nowiki><span class="underline">Validité (opérationnalisation) :</span></nowiki>
 
  - Mobilisation des AA = soutien au FV et inscription électorale
 
  - Soutien aux candidats AA = % de vote des candidats AA
 
  - Candidats AA participants = nombre de candidats AA se présentant
 
  - Candidats AA élus = nombre de candidats AA élus
 
<!-- end list -->
 
  - Pas de problème de validité
 
   
 
     - Force : temporalité prise en compte (t1, t2 etc.) de 1964 à 1984
 
   
 
     - Segmentation du processus pour cerner l’impact électoral
 
<nowiki><span class="underline">Fiabilité </span></nowiki>:
 
  - Pas de problèmes apparents
 
  - Pas d’information sur des comptages différents par country
 
<nowiki><span class="underline">Variables indépendantes -\> 3 effets et 5</nowiki>
 
mesures<nowiki></span></nowiki>
 
1.  Mobilisation du mouvement
 
   
 
   1.  Nombre de militants du Freedom Summer (1964)
 
   
 
   2.  Nombre de militants du NAACP (1966)
 
2.  Opportunités politiques (alliances politiques)
 
   
 
   1.  Présence d’examinateurs fédéraux)
 
3.  Contre-mobilisation (White Americains)
 
   
 
   1.  Résistance au Freedom Summer : attaques physiques (1964)
 
   
 
   2.  Résistance violente (indice) : attaques / assauts (1960-69)
 
<nowiki>**</nowiki>Caractéristiques méthodologiques – synthèse**
 
<nowiki><span class="underline">Dessin de recherche </span></nowiki>:
 
  - Adapté : variation dans le groupe et dans le temps
 
  - Attention à la généralisation (cas du Mississipi)
 
  - Force : temporalité prise en compte par les mesures
 
<nowiki><span class="underline">Type de données :</span></nowiki>
 
  - Adaptées : agrégées (countries) et exhaustives)
 
  - Force : exclusion du county de Jackson (cas exceptionnel)
 
<nowiki><span class="underline">Mesures :</span></nowiki>
 
  - Validité : pas de problème
 
   
 
     - Faiblesse : opportunités politiques = protection de l’Etat
 
  - Fiabilité : pas de problème apparents (pas d’info.)
 
<nowiki>**</nowiki>Analyses**
 
  - <nowiki><span class="underline">Type d’analyse </span></nowiki>: laquelle, pourquoi,
 
   adéquat ?
 
  - <nowiki><span class="underline">Utilité de l’analyse </span></nowiki>: hypothèse
 
   testée, analyse adéquate ?
 
  - <nowiki><span class="underline">Statistiques mobilisées </span></nowiki>:
 
   coefficients, tests etc., notre interprétation, interprétation de
 
   l’auteur (adéquat) ?
 
  - <nowiki><span class="underline">Robustesse des résultats </span></nowiki>: problèmes
 
   d’indicateurs (influences) ?
 
![](./media/image210.emf)
 
![](./media/image211.emf)
 
![](./media/image212.emf)
 
![](./media/image213.emf)
 
<nowiki>#</nowiki> Analyse multivariée : comparaison de populations
 
<nowiki>###</nowiki> Problématique
 
Un problème classique en recherche consiste à déterminer si plusieurs
 
populations sont significativement différentes les unes des autres. Ce
 
problème a déjà été abordé précédemment dans ce cours pour le cas de
 
deux populations (test de Student). Nous allons maintenant passer au cas
 
général et aborder la notion **d’analyse de variance** ou **ANOVA**.
 
L’objectif est de déterminer si l’appartenance à une population plutôt
 
qu’une autre permet d’expliquer les valeurs d’une variable quantitative.
 
Comme pour le test Student, le principe de base de l’ANOVA consiste à
 
comparer la moyenne de la variable quantitative dans les différentes
 
populations étudiées.
 
<nowiki>###</nowiki> Logique de l’ANOVA
 
<nowiki><span class="underline">Le chercheur contrôle 1 ou plusieurs</nowiki>
 
variables :<nowiki></span></nowiki>
 
  - Appelées facteurs (parfois appelés traitements)
 
  - Chaque facteur contient deux modalités ou plus (i.e parfois appelés
 
   niveaux)
 
<nowiki><span class="underline">Le chercheur observe l’effet sur la variable</nowiki>
 
dépendante :<nowiki></span></nowiki>
 
  - Réponses observées pour chacune des modalités
 
<nowiki><span class="underline">Plan d’expérience :</span></nowiki>
 
  - But : maximiser la précision en minimisant le nombre d’observations
 
  - Considérer un ou plusieurs facteurs pendant la constitution du
 
   dessin expérimental
 
  - Equilibré si toutes les modalités avec la même taille d’échantillon
 
<nowiki>##</nowiki> ANOVA à 1 facteur
 
Evaluer la différence parmi les moyennes de 3 ou plus populations (1
 
population par modalité du facteur)
 
Suppositions :
 
1.  Les populations sont normalement distribuées
 
2.  Les populations ont des variances égales
 
3.  Les échantillons sont indépendants, tirés aléatoirement
 
4.  La variable expliquée est quantitative
 
<nowiki>###</nowiki> Hypothèses : ANOVA à 1 facteur
 
H<nowiki><sub>0</sub></nowiki> : \(\mu\)<nowiki><sub>1</sub></nowiki> = \(\mu\)<nowiki><sub>2</sub></nowiki> =
 
\(\mu\)<nowiki><sub>3</sub></nowiki> = …= \(\mu\)<nowiki><sub>C</sub></nowiki>
 
  - Il y a *c* populations
 
  - Toutes les moyennes des c populations ont égales
 
  - i.e. pas d’effet de facteur (traitement)
 
<nowiki>**</nowiki>H<nowiki><sub>1</sub></nowiki> : pas toutes les moyennes sont identiques**
 
  - Au moins 1 moyenne est différente
 
  - i.e il existe un effet de facteur (traitement)
 
<!-- end list -->
 
  - Il faut donc *c* échantillons correspondants aux *c* populations.
 
Si rejet de l’hypothèse nulle
 
  - Quelles populations ont des moyennes différentes ?
 
  - On ne sait pas \!
 
Il faut donc effectuer d’autres tests pour le savoir : **tests Post
 
Hoc **qui viennent après. Il existe au moins une population qui diffère
 
des autres. On va aller plus loin en voyant quelle population est
 
distincte des autres.
 
<nowiki>**</nowiki>Exemple : clubs de golf**
 
![](./media/image214.emf)Question : est-ce que les moyennes sont égales
 
entre les 3 clubs ? On a des moyennes par club et la moyenne globale.
 
1 : La variable quantitative qu’on aimerait expliquer ? Ici, ce sera la
 
distance.
 
2 : On a une variable dite facteur : le club de golf. Il comporte 3
 
modalités donc j’ai besoin de 3 échantillons pour dire des choses.
 
Si je veux savoir si les moyennes sont significativement différentes les
 
unes des autres ou au moins une, je procède par confirmer que les
 
moyennes sont différentes en fonction du club utilisé. On va aller vers
 
des notions proches de la variance.
 
<nowiki>##</nowiki>
 
<nowiki>##</nowiki> ANOVA à 1 facteur (simple)
 
<nowiki>###</nowiki> ![](./media/image215.emf)Décomposition de la variation
 
La variabilité totale est décomposée en deux parties :
 
![](./media/image216.emf)
 
<nowiki>###</nowiki> Somme des carrés totale
 
![](./media/image217.emf)
 
<nowiki>###</nowiki> Somme des carrés résiduelle
 
![](./media/image218.emf)
 
<nowiki>###</nowiki> Somme des carrés expliquées
 
![](./media/image219.emf)
 
<nowiki>###</nowiki> Test
 
Pour arriver à une bonne discrimination entre les populations, les deux
 
conditions suivantes doivent être remplies :
 
1.  La variance doit être grande entre les moyennes de populations :
 
   ![](./media/image220.emf)
 
2.  La variance doit être petite au sein de chaque population :
 
   ![](./media/image221.emf)
 
<!-- end list -->
 
  - En considérant le rapport de ces deux quantités, on peut tenir
 
   compte simultanément des deux conditions.
 
Soit les carrés moyens :
 
![](./media/image222.emf)
 
<nowiki>La statistique de test s’écrit alors : ![](./media/image223.emf)</nowiki>
 
  - **L’hypothèse nulle est rejetée lorsque F est grand**. On a
 
   suffisamment d’évidences pour penser que les moyennes sont
 
   distinctes. Si on rejette l’hypothèse nulle, il y a au moins une
 
   valeur qui est différente des autres.
 
<nowiki>##</nowiki> Table ANOVA
 
Les résultats d’une ANOVA sont généralement présentés sous une forme
 
standardisée appelée table ANOVA :
 
![](./media/image224.emf)
 
<nowiki>###</nowiki> Hypothèses sous-jacentes à l’ANOVA
 
1.  Les populations sont normalement distribuées. La normalité peut être
 
   testée par exemple à l’aide du test :
 
   
 
   1.  Test de Kolmogorov-Smirnov
 
   
 
   2.  Test de Shapiro-Wilk
 
2.  Les populations ont des variances égales. L’égalité des variances
 
   peut être testés, par exemple à l’aide :
 
   
 
   1.  Test de Levene
 
   
 
   2.  Test de Hartley
 
3.  Les échantillons sont indépendants, tirés aléatoirement. Il est
 
   préférable mai pas obligatoire que l’échantillon issu de chaque
 
   population soit de même taille.
 
4.  La variable expliquée est quantitative.
 
Gold : homoscédasticité (variance homogène)
 
Test sur l’égalité des variances
 
![](./media/image225.emf)Les variables semblent être homogènes.
 
Golf : normalité
 
![](./media/image226.emf)Les données ne semblent pas provenir de
 
distributions normales, pour chacune des 3 populations.
 
![](./media/image227.emf)
 
Golf : ANOVA
 
<nowiki>###</nowiki> Tests post hoc
 
Lorsque l’hypothèse nulle de l’ANOVA est rejetée, nous savons qu’au
 
moins deux moyennes sont significativement différentes l’une de l’autre
 
mais l’analyse ne nous dit pas desquelles il s’agit. Il est donc
 
nécessaire d’effectuer des comparaisons supplémentaires entre les
 
populations. Pour comparer globalement 2 à 2 toutes les populations sans
 
que le risque de se tromper sur l’une des comparaisons ne soit trop
 
grand, des procédures particulières, les **tests post hoc**, existent.
 
Ces procédures répartissent le risque d’erreur total \(\alpha\) entre
 
les différentes comparaisons à effectuer.
 
<nowiki>###</nowiki> Test de Tukey
 
Le test de Tukey s’emploie lorsque nous voulons comparer 2 à 2 toutes
 
les populations. Pour *c* populations, il faut donc effectuer :
 
![](./media/image228.emf)
 
<nowiki>**</nowiki>Golf : Tukey**
 
![](./media/image229.emf)On conclut entre le club 2, le club 1 et club
 
3, les moyennes ne sont pas égales \!
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki>
 
<nowiki>###</nowiki> Test de Dunnett
 
Le test de **Dunnett** s’emploie lorsque l’une des populations sert de
 
témoin ou de contrôle et que nous voulons comparer toutes les autres
 
populations contre celle-ci. Pour c populations, il faut donc effectuer
 
<nowiki>*</nowiki>c*-1 tests de la forme :
 
![](./media/image230.emf)
 
![](./media/image231.emf)**Golf : Dunnett**
 
Nous utilisons le groupe « club 1 » comme groupe témoin. La moyenne du
 
club 1 – moyenne club 2, la différence est significative. Si on avait 5
 
clubs de golf, on aurait 4 comparaisons.
 
<nowiki>##</nowiki> Développements
 
<nowiki>###</nowiki> Populations définis selon plusieurs critères
 
Exemple : Donnée GSOEP
 
Des populations peuvent être définies sur la base de plusieurs facteurs.
 
L’ANOVA permet alors de tester simultanément l’apport de chacun de ces
 
facteurs, ainsi que leur éventuelle interaction. Dans ce cas, la table
 
ANOVA regroupe plusieurs tests. Lorsqu’un facteur est significatif et
 
qu’il comporte plus de deux modalités, il est toujours possible de
 
faire ensuite des tests post hoc.
 
<nowiki>**</nowiki>Santé et service civil**
 
![](./media/image232.emf)On peut voir que l’hypothèse nulle est rejetée
 
pour le genre, aussi pour le service civil. La dernière ligne, elle
 
signifie qu’entre les différents facteurs, il peut y avoir des
 
influences croisées appelées des interactions où les facteurs
 
interagissent entre eux. On en tient compte lorsqu’on crée le modèle. Si
 
on combine les deux facteurs, est-ce qu’il y a une influence ou pas ?
 
Ici elle n’existe pas. La p-valeur est supérieure à 0.05 et donc, on ne
 
rejette pas l’hypothèse nulle. Ainsi, cette p-valeur ne nous permet de
 
rejeter l’hypothèse nulle et genre et service civil ensemble n’ont pas
 
d’influence ensemble sur l’égalité des moyennes.
 
![](./media/image233.emf)On voit qu’il n’y a pas d’influence dans ce
 
graphique. Il y a du parallélisme entre les deux droites.
 
<nowiki>**</nowiki>DOC.3M en fonction de GENRE, HANDI et C. BLANC**
 
![](./media/image234.emf)
 
Lorsqu’on a 3 facteurs, cela commence à devenir complexe parce qu’on a
 
le genre, le handicap et le col blanc. On voit l’interaction des
 
facteurs entre eux. Au fur et à mesure qu’on rajoute des facteurs, cela
 
devient compliqué à gérer. On <nowiki><span class="underline">évite d’avoir trop</nowiki>
 
de facteurs<nowiki></span></nowiki> en même sauf que le principe reste le même puisqu’on
 
regarde la p-valeur ; les moyennes sont-elles distinctes ou pas ?
 
<nowiki>###</nowiki> Analyse de données appariées
 
Lorsque les mêmes sujets sont observés à plusieurs reprises au fil du
 
temps (données appariées), l’intérêt est de savoir si une évolution est
 
présente entre les différents moments d’observation. Une telle analyse
 
est dite **facteur** **répété**. Si les sujets n’ont été observés qu’à
 
deux reprises, une version du test du Student peut être utilisé. Sinon,
 
il s’agit d’une ANOVA.
 
Evolution de DOC.3M entre 1984, 1988 et 1991
 
![](./media/image235.emf)
 
On fait la même chose qu’avant, on regarde la différence dans la moyenne
 
en prenant la p-valeur. Sauf qu’ici, on regarde aussi la comparaison
 
dans le temps.
 
<nowiki>###</nowiki> Analyse de covariance (ANCOVA)
 
En plus de dépendre de facteurs catégoriels, la variable numérique
 
étudiée peut aussi être influencée par une ou plusieurs variables
 
numériques (souvent appelées **covariables**). Le principe consiste
 
alors à supprimer l’influence de ces covariables avant d’étudier
 
l’influence des facteurs. En pratique, on suppose qu’il existe un lien
 
linéaire entre les covariables et la variable dépendante et les
 
covariables apparaissent comme des variables explicatives dans le
 
modèle. Ce modèle est une analyse de covariance (ANCOVA).
 
<nowiki>**</nowiki>Covariable AGE par rapport à la SANTE**
 
![](./media/image236.emf)
 
<nowiki>###</nowiki> Analyse de variance multiple (MANOVA)
 
Certains phénomènes difficiles à définir sont souvent représentés par la
 
combinaison de plusieurs variables (notion de bien-être, citoyenneté…).
 
L’analyse de la variance multiple (MANOVA) permet d’analyser la
 
répartition de sujets des groupes par rapport à plusieurs variables
 
numériques simultanément.

Version actuelle datée du 5 mai 2020 à 14:56



Eléments généraux à propos de ce cours[modifier | modifier le wikicode]

Ce cours est écrit pour les étudiants souhaitant s'initier aux méthodes quantititaves. Ce cours essaie de permettre de comprendre les concepts généraux relatifs à ces méthodes, pour des personnes n'ayant pas nécéssairement un bagage technique ou mathématique. Les formules seront explicitées ainsi que appliquées avec des exemples concrets. Ce cours n'est pas une introduction à la statistique, mais souhaite pouvoir présenter les concepts et leur applications en vue de permettre par la suite à quelqu'un de pouvoir appliquer ces méthodes pour une recherche ou un projet personnel. Les calculs complexes ne seront pas toujours explicités en vue de pouvoir les reproduire à la main, mais plutôt d'offrir les outils pour des applications concrètes, le développement d'un esprit critique et la compréhension de ce qu'il se passe lors d'utilisation de comandes dans un logiciel de programmation statistique comme R, SPSS, Python etc...

Objectifs du cours[modifier | modifier le wikicode]


  1. Savoir interpréter les analyses quantitatives et statistiques
    1. Les comprendre et les interpréter correctement
    2. Déjouer leurs pièges et évaluer leurs apports
  2. Comprendre la production de ces analyses
    1. Elaboration et collecte de données
    2. Elaboration des analyses statistiques
  3. Connaître les outils statistiques
    1. Présupposée, leur application possible et nos usages
    2. Réflexivité et vigilance épistémologique
    3. Développer un esprit critique et autonomie (≠aveuglement vs relativisme)

Utilité d’une telle formation[modifier | modifier le wikicode]


  1. Former des citoyens citoyen.nes éclairées
    1. Consommateur de médias
    2. Citoyen.nes acteurs
  2. Futur professionnel
    1. Rapports mobilisant ce type d’analyse
    2. Formation en science sociales
  3. Comprendre la production intellectuelle en science sociale : comprendre diverses statistiques (but, points forts et faibles)
    1. Comprendre les études et la production du savoir
    2. Autonomie intellectuelle



Exercices[modifier | modifier le wikicode]

Questions de compréhension

Exercices numériques

.Apprendre avec R

Contenus complémentaire[modifier | modifier le wikicode]


Videos

Livres


Références[modifier | modifier le wikicode]