Introduction aux méthodes quantitatives
# Cours introductif
## Objectifs du cours
1. Savoir interpréter les analyses quantitatives et statistiques
1. Les comprendre et les interpréter correctement
2. Déjouer leurs pièges et évaluer leurs apports
2. Comprendre la production de ces analyses
1. Elaboration et collecte de données
2. Elaboration des analyses statistiques
3. Connaître les outils statistiques
1. Présupposée, leur application possible et nos usages
4. Réflexivité et vigilance épistémologique
1. Esprit critique et autonomie (≠aveuglement vs relativisme)
## Utilité d’une telle formation
1. Citoyen.nes éclairées
1. Consommateur de médias
2. Citoyen.nes acteurs
2. Futur professionnel
1. Rapports mobilisant ce type d’analyse
2. Formation en science sociales
3. Comprendre la production intellectuelle en science sociale :
comprendre diverses statistiques (but, points forts et faibles)
1. Comprendre les études et la production du savoir
2. Autonomie intellectuelle
## Importance des méthodes
Exemple avec P. Bourdieu : les sciences sociales ne peuvent exister sans
empirie. Une analyse empirique scrupuleuse du monde social qui permet de
mettre en exergue des dimensions essentielles de la réalité sociale.
L’analyse empirique du monde social est la clé de l’élaboration
théorique.
Exemple avec R. Merton : il souligne également l’importance des méthodes
quantitatives mais dans une vision opposée à celle de Bourdieu par
rapport à l’empirie et à la théorie. Pour lui, la théorie sert de
fondement logique et c’est à partir d’elle qu’on peut formuler des
hypothèses. Néanmoins, il en oublie pas moins l’empirie et il attribue
un rôle essentiel à la *serendipity*. C’est la découverte par chance ou
sagacité de résultats que l’on ne cherchait pas. Il y a donc un
va-et-vient entre la théorie et l’empirie.
- Tous deux estiment l’importance de l’empirie pour le développement
de travaux sociaux, et cela passe par les méthodes de recherche.
En science sociale, l’empirie est essentielle pour l’élaboration
théorique (Bourdieu), pour la créativité théorique (Merton) et pour la
théorie considérée comme le premier pilier de la production du savoir.
Les méthodes ont aussi accès au terrain et elles sont le second pilier
de la production du savoir. Ces méthodes rendent ainsi possibles l’accès
au terrain.
## A éviter
### Méthodes VS techniques : conception technicienne
Le terme de méthode vient du latin et signifie une direction qui mène au
but ou un chemin à suivre. Cette notion n’est pas forcément claire.
C’est au XIXème qu’il va obtenir une définition plus claire, à savoir
un procédé ou une technique que l’on met en œuvre. Cela illustre la
première tension qui se retrouve dans le métier du chercheur qui est
souvent de substituer la compréhension. Cette compréhension des méthodes
sous l’angles des méthodes est dangereux. Une compréhension technicienne
ne rend pas compte du travail de construction et d’élaboration qui sont
derrière tout travail de recherche. On a besoin de ce travail de
construction et d’élaboration pour construire un objet de recherche.
Cela va aussi influencer la manière dont on va regarder le monde social.
Néanmoins, c’est souvent restreint en raison d’un faible budget.
Derrière le choix d’une recherche, il y a un nombre élevé de
contraintes. Si on prend les méthodes comme techniques, on ne se rend
pas compte que les résultats découlent des choix du chercheur et donc,
ce sont des constructions et non pas des statistiques « naturelles ». De
plus, les méthodes nous écartent du chemin d’une vigilance critique à
laquelle doit se soumettre tout chercheur. D’ailleurs, des innovations
théoriques reposent sur des innovations méthodologiques.
- Grâce aux méthodes quantitatives, on répond à un certain type de
questions.
### Données chiffrées VS constructions
Il n’y a pas de donnée qui se donnent à voir naturellement mais c’est
toujours une construction du chercheur. Derrière les chiffres, c’est la
même chose. Le terme de « donnée » veut étymologiquement dire « faire
don », ce qui induit l’idée de données de recherche offerte aux
chercheurs sur un plateau d’argent. A partir du 18ème siècle, les
intellectuels rompent avec cette vision idéale pour conclure que ***les
données correspondent avant tout à une construction du chercheur,
construction sociale puisqu’elle est située dans le temps et dans
l’espace***. En effet, les débats sociaux, politiques, idéologiques...
sont influents si bien que les données sont tout sauf données mais bien
construites et mise en scène par le chercheur en fonction de l’époque et
du lieu où il se trouve.
- C’est pourquoi on parle de processus, la construction de donnée
n’étant jamais définitivement terminée.
### Statistiques et sciences sociales
Enfin, ***le passé commun des statistiques et des sciences sociales***
est à prendre en compte, bien qu’elles se soient progressivement
différenciées puis institutionnalisées séparément. C’est pourquoi les
statistiques ont dû ***importer des savoirs qu’il a fallu adapter*** au
mieux pour l’usage nouveau qu’il en était lors fait. Par exemple, les
chercheurs travaillent encore aujourd’hui sur le concept de base de
l’échantillonnage, bien qu’il ait été complexifié depuis. Les
statistiques se sont beaucoup développées si bien que maintenant, nous
sommes dans un travail d’importation de connaissances depuis une autre
discipline.
C’est pourquoi il est important de travailler sur les connaissances et
leur histoire afin de mieux comprendre l’appropriation qu’il en a été
fait. L’étude des méthodes est d’ailleurs possible uniquement sur la
base de recherches spécifiques, comme l’explique Auguste Comte :
« La méthode n’est pas susceptible d’être étudiée séparément des
recherches où elle est employée ; ou, du moins ce n’est là qu’une
**étude morte**, incapable de féconder l’esprit qui s’y livre ».
En effet, il postule que les méthodes doivent être réfléchies en
fonction du terrain d’enquête et que par conséquent, des méthodes
abstraites, dénuées de tout fondements empiriques sont inutiles. C’est
pourquoi ***les méthodes ne peuvent être développées que par le biais de
recherches spécifiques***. C’est également ce que plaide Pierre
Bourdieu :
« Ceux qui portent un souci méthodologique jusqu’à l’obsession font en
effet songer à ce malade dont parle Freud, et qui passait tout son temps
à essuyer ses lunettes sans jamais les chausser ».
### Unicité VS pluralité des chemins
Enfin, ***il ne faut pas penser que les méthodes qualitatives et les
méthodes quantitatives sont opposées***. Il existe une pluralité de
méthodes, les méthodes quantitatives et qualitatives comme approches
dominantes, mais également d’autres méthodes comme les méthodes
exploratoires ou confirmatoires. Toutefois, chacune se différencie des
autres au travers d’un aspect spécifique, comme les méthodes
quantitatives reposant sur la statistique de base.
# Histoire et développements des méthodes quantitatives en sciences sociales
On ne veut pas se laisser uniquement guider par les méthodes et les
données. On n’a pas l’idée que les chiffres parlent d’eux-mêmes et
qu’ils détiennent la vérité. D’autant plus, les observations ne sont
pas suffisantes pour comprendre la réalité sociologique. Par exemple,
les enfants de famille monoparentale aux USA réussissent moins bien leur
parcours scolaire. Cela s’explique par différentes interprétations. Si
on vise à trouver une hypothèse, il serait nécessaire de faire une
comparaison avec l’Europe pour tenter d’en savoir plus.
- Les chiffres ne parlent pas d’eux-mêmes et il est difficile de ne
pas tomber dans ce piège surtout lors de grandes enquêtes.
Un grand nombre d’outils sont élaborés à l’extérieur des sciences
sociales et cela pose problème. L’effet de cette externalisation est que
les outils ne sont pas toujours adaptés aux problèmes.
- Mise en perspective est nécessaire quant aux méthodes puisqu’elles
construisent la réalité.
## La relation entre les sciences sociales et les statistiques
On est face à un phénomène social complexe. La statistique donne des
formules et des chiffres pour pouvoir interpréter la réalité. Sauf que
les deux domaines sont intimement liés. Les sciences sociales et
statistiques sont nées des préoccupations communes. Les statistiques,
l’arithmétique politique et les mathématiques se sont développés puis,
on voit émerger leur institutionnalisation sauf qu’au lieu de devenir
une discipline spécifique des sciences sociales, elles se rapprochent
des sciences mathématiques. Cela a des implications, à savoir que
l’origine des statistiques ne peut être fixé à une date précise. Les
données chiffrées proviennent de la Chine, d’Egypte et des Incas. En
Europe, ces données deviennent centrales au XVI<sup>ème</sup> et c’est à
cette époque que les mathématiques commencent à dominer le monde. On
commence à systématiser le phénomène de la nature et on souhaite la
mesurer comme en astronomie. Quant aux statistiques, elles sont nées
dans le contexte du XVII<sup>ème</sup>. A l’origine du mot, il y a le
*Staat* et cela montre le lien entre la construction des Etats nations
et le développement des statistiques. Du coup, compter les hommes et les
ressources industrielles est central dans le processus de construction
et de consolidation de l’Etat. La statistique descriptive était
responsable de récolter des données économiques et démographiques de
manière systématique.
Le contexte politique n’est pas le seul qui contribue au développement
de la statistique. Le contexte scientifique est en explosion avec les
mathématiques qui deviennent une discipline majeure des sciences. De
plus, on est dans un contexte philosophique avec les Lumières qui
apportent l’idée du progrès avec les sciences. Le contexte social et
économique ; on est au début de l’industrialisation qui va apporter des
changements profonds de la société. En même temps, l’industrialisation
apporte des outils qui vont booster les statistiques comme l’imprimerie
qui va permettre de diffuser l’information.
### Empires, Etats et statistique
De plus, ces savoirs statistiques précoces sont différents de leurs
préoccupations et de leurs domaines en fonction des différents
Etats-nations où ils émergent. Ces savoirs sont d’origine et de formes
différents selon les États et la manière dont ceux-ci sont construits et
articulés dans la société. En Allemagne, la tâche principale est de
connaître ces Etats, ces ressources et ses difficultés. On assiste à une
tradition de description globale des Etats. En France, on souhaitait une
administration forte et un pouvoir royal fort. Dans ce contexte, on
souhaite avoir des statistiques descriptifs de l’Etat ; au service du
pouvoir royal. En GB, on a un autre fonctionnement, à savoir qu’il y a
une bourgeoise émergente qui est relativement autonome et du coup, la
statistique vise à mesurer la population et le bien-être de la
population (alcoolémie). Cela devient une statistique plus analytique
qui essaie de comprendre ce phénomène et c’est focalisé sur des groupes
spécifiques.
On est face à deux types de statistiques qui se développe :
- Au service de *l’Etat *: aide à la décision politique avec une
« comptabilité nationale » (ALL et FRA)
- Au service de la *société *: montrer les inégalités et les
difficultés sociales, exercer des pressions politiques (GB)
Dans les 2 cas, la statistique devient un instrument puissant qui sert
comme en ALL et en FRA en tant qu’outil de rationnaliser la décision
politique. Des décisions prouvées par les faits comme on pensait à
l’époque et on développe <span class="underline">la théorie des
erreurs</span> pour juger le degré de certitude d’un résultat trouvé. En
GB, grâce à la statistique qui est au service de la société,
l’arithmétique politique émerge. Elle est l’ancêtre des méthodes
quantitatives puisqu’on commence à mesurer des phénomènes sociaux. C’est
une constellation historique particulière qui favorise ce développement,
marqué par des changements politiques et sociaux majeurs. Ces derniers
sont combinés entre une bourgeoisie intellectuelle et plus autonome par
rapport à l’Etat. Ce contexte provoque une curiosité intellectuelle pour
comprendre la situation anglaise. Dans ce contexte, F. Bacon portait une
vision humaniste et souhaitait améliorer la vision sociale de la
société. Il avait une influence sur l’arithmétique politique car il
prenait une observation rigoureuse dans toutes les disciplines,
organisation systématique de recherche et une démarche inductive
(qualitative) et il pensait toujours dans l’idée d’observation qui
permettait selon lui de trouver la vérité. Encore, W. Petty est perçu
comme le fondateur de l’arithmétique politique. Le principe de base de
Petty était le suivant :
« La méthode que j’emploie n’est pas encore très commune car, au lieu de
me servir seulement des termes, comparatifs et superlatifs, et
d’arguments purement intellectuels, j’ai adopté la méthode qui
consiste à s’exprimer en termes de nombres, poids et mesures ; et
d’utiliser uniquement des arguments observables, et de considérer
uniquement de telles causes comme ayant un fondement visible dans la
nature ; laissant ceux qui dépendent d’idées variables, opinions,
appétits intellectuels, et passions à la considérations des autres ».
## Etude de la société et statistique
### Arithmétique politique : logique de la démarche
Idée de base est passer par des observations quantifiées, rigoureuses et
objectives. Donc on veut objectiver la réalité à partir de l’observation
pour entrer dans le monde de la science. Avec cette démarche, l’anatomie
sociale est utile pour cerner l’état de la population, la santé
publique, alcoolémie et la criminalité au moyen d’enquêtes sociales. Le
but de la recherche étant de découvrir des lois sociales par des
observations neutres et des enquêtes. Donc on veut se rapprocher des
sciences naturelles. On souhaite comptabiliser des phénomènes sociaux en
découvrant des régularités et ce, en procédant par une démarche
inductive dans une visée explicative.
Süssmilch était un pionner de la diffusion de l’arithmétique politique
sur le continent : « observation des grandes masses est la voie de la
connaissance des régularités de phénomènes paraissant aléatoires ».
### Arithmétique politique se développe
**Arithmétique **: comptabiliser les phénomènes sociaux mais aussi
tenter de les expliquer par l’inductif pour découvrir des régularités
sociales, c’est-à-dire des lois sociales.
Puis, ces idées deviennent encore plus centrales et se développent. On
assiste à une multiplication des descriptions sur toujours plus de
groupes et de problèmes sociaux différents. Volonté d’entrer dans le
domaine de la science par la production de vérité et d’information
objective. Au sein de l’Etat, on se rend compte de la nécessité des
statistiques dans tous domaines de l’activité des Etats : création
d’offices statistiques et formation statistique des fonctionnaires
pour répondre aux besoins de l’administration. Instauration de
recensements réguliers et réflexion plus poussé sur la méthodologie,
c’est-à-dire analyses et méthodes, innovations techniques pour
collecter et présenter des données. On développe des questionnaires et
des sondages ; la première utilisation du questionnaire date de la fin
du XVIII<sup>ème</sup> quand Davis a mené une enquête sur le budget des
travailleurs agricoles.
Sauf qu’il faut attendre encore 40 ans pour remarquer un début de
volonté d’institutionnalisation des sciences sociales et de la
statistique. Dans ce contexte se glisse l’idée de l’*homme moyen*
développé par Quételet. On souhaite désormais étendre l‘usage des
mathématiques à toute dimension de la société. Il note que pour
beaucoup de phénomènes sociaux, les proportions restent stables dans le
temps (suicide, alcool). Donc les phénomènes sociaux sont régis par des
lois analogues à la physique et les méthodes statistiques permettraient
de les découvrir en restant toujours dans une logique déterministe.
- Idée centrale, c’est que l’homme moyen permet de caractériser et
comprendre les lois régissant le système social. Donc les moyens
deviennent des causes constantes tandis que les lois et les
variations, des causes accidentelles. Quételet introduit les
probabilités et les chances en sciences sociales.
- Les sciences sociales et statistiques ont un destin commun, trouvé
avec développement de l’arithmétique politique, se poursuit avec
l’entrée toujours plus poussée de l’entrée des mathématiques.
## Sciences sociales et statistique
### Différenciation et institutionnalisation (fin 19<sup>ème</sup>)
Au terme de ce long processus, les statistiques s’institutionnalisent à
la fin 19<sup>ème</sup> siècle, passant aussi par une complexification
de l’outil, notamment les probabilités. C’est le début de ***la
statistique moderne***. C’est à ce moment-là que la *statistique
inférentielle*, la régression, l’échantillonnage et les méthodes
représentatives émergent, techniques toujours utilisées aujourd’hui. De
plus, les biais cherchent à être compris et pris en compte pour qu’ils
affectent au minimum les résultats obtenus. ***On assiste à la
progressive séparation des diverses branches des sciences sociales,
notamment avec Auguste de Comte, portant le projet de constituer la
sociologie comme discipline à part*** et ce, en se basant sur la
philosophie positiviste de Saint-Simon.
###
### Divorce consommé
On assiste alors au rejet de la mathématique sociale du passé afin
d’adapter les mathématiques à la compréhension du social. En effet, la
loi sociale, soutenue par certains chercheurs, fut vivement combattue
par la majorité (Mill, Comte, Durkheim...). L’idée émerge alors que ce
n’est pas les mathématiques qui pourront transformer la science du
social en science dure. ***Pour Mill comme pour Comte, la sociologie est
une science déductive et non inductive comme l’induisait la méthode
chiffrée***. Il s’agit dès lors de développer des théories au travers
desquelles il est possible d’aller étudier le monde social. Max Weber,
grand sociologue, explique que la sociologie se doit aussi d’être
compréhensive, c’est à dire qu’elle est la science qui comprend par
interprétation le monde social. Ainsi, ***la sociologie et la
statistique se séparent. Malgré tout, les nombres restent utilisés dans
les recherches sociologiques pour démontrer les faits avérés. C’est
pourquoi on ne peut considérer ce divorce comme absolu***. Toutefois,
pendant des années, une véritable guerre a eu lieu entre les tenants des
approches quantitatives et ceux des approches qualitatives. Aujourd’hui,
cette opposition est révolue et les recherches sociologiques combinent
alternativement les deux méthodes, chacune permettant de saisir et de
comprendre des aspects différents de la réalité sociale.
***Les chiffres ont ancré les sciences sociales dans les sciences***. En
effet, les chiffres ont permis aux sciences sociales d’acquérir un degré
de scientificité, de positivisme leur permettant de prétendre à
l’appellation de « sciences ». C’est aussi le chiffre qui a permis
l’institutionnalisation de ces disciplines au sein des universités.
### Un passé commun aux conséquences importantes
**« Ancrage des sciences sociales dans les sciences »**
- Sciences sociales à l’image des sciences physiques
- Arithmétique/Mathématique sociale : « Physique du social »
- Philosophie positiviste (A. Comte) : Connaissance de phénomènes et
de faits (≠science morale)
- Moyenne, régularités, lois, probabilités
**Logique de la démarche**
- Observation systématique
- Objectiver des faits et phénomènes sociaux
- Observation sur le grand nombre
- Méthodes quantitatives : rôle particulier pour ancrer les sciences
sociales dans le bastion des sciences
## Développement des recherches empiriques
### Développement sur sol étasunien et Ecole de Chicago (1920-1940)
Ce qu’il considère comme « données » sont les données chiffrées que l’on
nomme « hard date » en opposition aux données issues des méthodes
qualitatives, nommées « soft data ». ***Alors que les premiers débats
sur les statistiques et ses premières avancées méthodologiques se
développent en Europe, la guerre, entrainant la migration de nombreux
penseurs, fera que la suite du développement des méthodes quantitatives
se déroulera sur le sol étasunien***. C’est le cas de Lazarsfeld, qui
sera le détenteur de la première chair universitaire en méthodes
quantitatives à l’université de Columbia. Premièrement, c’est l’Ecole de
Chicago qui développe de grandes enquêtes sociales basées sur l’usage
des méthodes qualitatives. Puis de nombreux chercheurs combinent les
méthodes qualitatives et quantitatives pour mieux appréhender les
phénomènes sociaux avant qu’une séparation nette n’intervienne. ***Paul
Lazarsfled*** importera les statistiques dans les sciences sociales. En
publiant son ouvrage majeur, « The people Choice », il illustrera
l’importance de l’usage de ces méthodes en sociologie. C’est aussi à
ce moment-là où le béhaviorisme se développe aux USA, théorie postulant
que seuls les faits observables peuvent expliquer le monde sensible.
### Demande forte de recherche en sciences sociales
Cet essor des méthodes quantitatives est dû à l’histoire. ***Après la
seconde guerre mondiale, la demande pour comprendre ce qui s’est passé
est énorme***. Comment expliquer que l’Allemagne, pays de la culture, de
la musique... est pu basculer dans cette horreur ? C’est également après
la guerre que la ***psychologie expérimentée*** émerge, avec notamment
Milgram et son expérience sur la soumission à l’autorité. En effet, les
méthodes en sciences sociales doivent beaucoup à la psychologie. C’est
aussi le moment où nait le sondage aux Etats-Unis, développant une
méthodologie de constitution d’échantillonnage très fine avec pour but
premier de prédire les résultats électoraux.
Enfin, ***le développement de l’informatique a joué un rôle
important***. Ce nouvel outil a fortement facilité le travail de
dépouillement des sondages, en travaillant notamment sur de grandes
bases de données. La démocratisation de l’informatique dans les années
1965, notamment avec des logiciels comme SPSS, a beaucoup aidé les
méthodes quantitatives à se développer. On trouve alors ***les premiers
ouvrages méthodologiques***, notamment celui de Lazarslfed ou encore de
Blacklock. Mais ***ce qui a le plus fait évoluer à la fois les méthodes
qualitatives que les méthodes quantitatives, c’est la séparation nette
qui avait été faites entre elles, devant perpétuellement surpasser sa
rivale pour gagner en légitimité***.
- Toutefois, la colère gronde chez les sociologues pour qui l’usage
exclusif des méthodes quantitatives dans les recherches était
réducteur, voire catastrophique. Aujourd’hui, les méthodes
quantitatives sont toujours prédominantes, surtout en politique et
psychologie, bien que ***depuis les années 2000, la tendance est à
une combinaison toujours plus équitable des deux approches***.
## Résumé
- Les méthodes quantitatives ont été utilisées en sociologie dans le
but d’en faire une science à l’image des sciences naturelles d’où
les termes parfois utilisés (corps social).
- Pour se faire, les chercheurs ont tenté de dégager des lois sociales
absolues, comme la loi de la gravité de Newton.
- Cette crédulité totale sur le chiffre est toujours présente bien
qu’il faille s’en méfier.
- Alors que de nombreux chercheurs des années 1950 étaient formés à la
fois en statistiques et en sciences sociales, cette double formation
est aujourd’hui très rare. C’est pourquoi un important travail
d’importation des savoirs doit être fait de manière rigoureuse
pour les adaptées à la discipline d’accueil.
- Les méthodes quantitatives sont omniprésentes dans notre société,
d’où l’importance de connaître ces méthodes pour développer un
regard critique et échapper à l’illusion du chiffre.
- Les méthodes quantitatives et qualitatives ont un passé commun.
# Méthodes quantitatives et qualitatives : des épistémologies distinctes ?
**Résumé précédent**
1. La statistique et les sciences sociales ont un passé commun avec
l’idée d’une arithmétique politique qui a permis à l’Etat de
connaître ses effectifs et ses ressources. C’était surtout
descriptif en comptant les phénomènes et non les expliquer. Viser à
un statut de science comme la physique ou l’astronomie.
2. Différenciation de ces deux branches avec l’intrusion des
mathématiques. On ne parle plus d’arithmétique politique mais on
l’appelle la mathématique sociale. La différence est l’idée de la
probabilité et l’incertitude tout comme pleins d’outils techniques
qui se complexifient.
3. Sciences sociales s’émancipent en établissant leur propre démarche,
à savoir la déduction et puis appropriation des méthodes
quantitatives au travers de la psychologie notamment.
## Les méthodes vont au-delà de la simple récolte de données
L’épistémologie, à savoir la théorie de la connaissance s’intéresse à
savoir de comment produire des connaissances scientifiques.
« Lorsque nous parlons de méthodologies « quantitatives » ou
« qualitatives », nous sommes en train de parler d’un ensemble de
postulats sur le monde social qui sont à la fois philosophiques,
idéologiques et épistémologiques. Elles vont donc au-delà des simples
techniques de récolte des donnée ». Cette citation de Rist explique que
les méthodes quantitatives sont plus qu’une simple production
d’informations qualitatives et qu’elles sont plus que des chiffres.
Certes, il y a une production de données chiffres mais ce n’est que la
pointe de l’iceberg. Avant tout, on construit des données et cela repose
sur une conception particulière des sciences sociales et du monde et qui
tente seulement de se rapprocher à la réalité. Avec n’importe quelle
approche, les données récoltées montrent qu’un extrait de la réalité. Le
plus souvent, les méthodes quantitatives prennent la démarche déductive
en validant les données. Cette approche a une manière distincte de
concevoir la réalité sociologique et de la reproduire.
## Les méthodes reposent sur des postulats philosophiques spécifiques
Pour illustrer que les postulats et que les méthodes influencent notre
regard, on prend comme exemple ces images. Les postulats des méthodes
influencent notre regard, nos résultats et notre compréhension du monde
social. Une description reste abstraite et on va l’illustrer par le
biais d’un exemple. Pour sa thèse, le professeur a récolté des données
de sondage et d’entretiens. Par la récolte de données quantitatives, les
militants avaient la même vision du monde tandis qu’avec l’analyse
qualitative des entretiens, chaque militant était singulier. Il y a donc
des résultats distincts voire contradictoires entre ces deux types de
données. Ainsi, les deux méthodes posent des questions distinctes et des
buts différents pour dépasser cette frustration initiale.
### Pilier structurant : quête des faits – positivisme
- Quelles sont les jumelles particulières des types de méthode ?
Pour la démarche **quantitative**, le positivisme est un des piliers
structurant. Le positivisme repose sur l’idée que la science peut
atteindre des vérités et donc progresser dans la connaissance en
observant des choses observables et en qualifiant ces choses comme
réelles. Saint Simon ou Comte sont des représentants importants de
cette démarche. A cette époque, les sciences sociales essaient de se
rapprocher des sciences naturelles pour obtenir le statut de vraie
science. Le positivisme qualifie ce qui est fondé sur l’expérience et
sur l’observation comme des faits réels. Il s’oppose à la théologie et
ce sont l’objectivité et la visibilité qui priment ; on veut se
rapprocher d’une réalité objective et concrète. La théorie qui en
découle se base uniquement sur la connaissance des faits et de
l’expérience scientifique. A cette idée s’associe aussi que le
chercheur reste neutre par rapport à son objet.
### Le positivisme
Au 19<sup>ème</sup>, le positivisme est le standard de connaissance,
c’est-à-dire que c’est le seul chemin « juste » de la science. C’est
le cas pour les sciences naturelles sauf qu’à l’époque où Comte voulait
élever les sciences sociales au rang de sciences, c’était la seule voie
possible pour les sciences sociales. On voulait décrire les phénomènes
sociaux comme des phénomènes naturels avec une description objective des
faits (neutralité) et cet objectivisme est la voie unique des
connaissances en passant par la régularité de phénomènes aléatoires (par
exemple avec la criminalité pour voir si ce taux change dans le temps et
pour prendre des mesures politiques par la suite). Pour l’arithmétique
politique, on avait pour but de trouver des lois sociales au même titre
que les sciences naturelles.
Pour Comte, « maintenant que l’esprit humain a fondé la physique
céleste, la physique terrestre, soit mécanique, soit chimique ; la
physique organique, soit végétale ou animale, il lui rester à terminer
le système des sciences et d’observation en fondant la physique sociale.
Tel est aujourd’hui le plus pressent besoin de notre intelligence. » Il
a établi des caractéristiques dont les traces sont encore visibles. Les
sciences sociales adoptent le langage des sciences naturelles, on
commence à parler de variables, d’indices, de mesures, de
l’expérimentation ou encore de systèmes causaux et bien d’autres
concepts. Ce langage mais aussi la manière à conduire des recherches
imitent le modèle des sciences naturelles.
Avec une démarche hypothético-déductive, on est dans une approche où la
théorie prime, c’est-à-dire en construisant un modèle théorique puis en
allant par la suite le confronter à la réalité. Par ce biais, on
construit des outils de récolte de données qui sont informés par la
théorie appliquée et qui laisse peu de place pour poser d’autres
questions qui pourraient être importantes. Ce n’est qu’avec ce modèle
que des connaissances peuvent être fiables et robustes, selon cette
pensée.
- A la base de cette démarche, on souhaite découvrir des vérités et
atteindre l’objectivité. On voulait concurrencer le poids lourd des
Eglises.
## Problèmes généraux
Fortement inspiré par les sciences naturelles et cela génère des
problèmes. Une des conséquences c’est que c’est un **monisme
méthodologique**. Une seule approche est permise pour servir le monde
social avec des méthodes et procédures de recherches des sciences
naturelles qui sont importées dans les sciences sociales. Cette approche
est problématique car l’objet d’études en sciences sociales n’est pas
seulement abordable par des observations objectives puisqu’on regarde
des individus et des groupes sociaux qui interagissent. Ceci est une
particularité des sciences sociales qui nécessitent une autre démarche
philosophique et méthodologique pour les appréhender. D’autres approches
existent comme la démarche interprétative qui sont plus fiables.
Problème de **l’empirisme** ou le **phénoménalisme **: Le béhaviourisme
veut analyser les comportements politiques des individus. Ceci est
difficile en ne se basant que sur des phénomènes observables. La
démarche positiviste exclut l’incorporation des notions métaphysiques
comme l’expérience subjective par exemple. La construction du sens ou de
structures invisibles sont exclues de la démarche scientifique. Mais
comment expliquer l’abstention politique sans s’intéresser à la
perception politique du citoyen ? De telles questions sont importantes
actuellement où on voit des structures supranationales de plus en plus
menacées comme l’UE.
Focus sur les **régularités** et la quête après les **lois sociales**.
Si on se concentre uniquement sur les régularités, on néglige les
variations. Si on dédit des lois sociales à partir de l’homme moyen
comme Quételet, on écarte toutes connaissances sur des individus qui ne
sont pas des hommes moyens. Par exemple, les salaires entre hommes et
femmes ne sont souvent pas les mêmes. Donc on arrive à des conclusions
qui ne sont pas vraies pour les uns et les autres. Si on ne prend en
compte les variations, les lois sociales qui en découlent sont forcément
erronées.
**Déductivisme **: Cette quête suite aux régularités et lois sociales
est inscrite dans une démarche déductive pour trouver des relations
causales. On développe des hypothèses en amont à partir de cadres
généraux et théoriques qui sont ensuite testés empiriquement.
L’approche déductive est la seule démarche scientifique à cette
époque. C’était le chemin unique pour construire la connaissance et ça
ressemble beaucoup à la démarche de Popper qui disait que les sciences
ne pouvaient avancer que par validation/invalidation des paradigmes
(*Falsification des théories*). Le problème de la démarche déductive,
c’est que la recherche ne procède pas d’une manière linéaire mais
plutôt circulaire. Ainsi, il y a des dimensions difficilement
incluables dans la recherche. Dans la réalité, les théories s’élaborent
aussi à l’aide de la démarche déductive.
**Posture du chercheur **: penser que la recherche et le chercheur sont
neutres et objectives. Weber ou Popper pensaient que la recherche doit
se distancier des valeurs et avoir une position neutre. Ils pensaient
que la démarche scientifique est une démarche objective pouvant se
distancier des jugements et de valeurs et que la recherche ne doit pas
être contaminée par le profil personnel du chercheur. Sauf qu’une
observation n’est jamais neutre car les chercheurs sont historiquement
et socialement situés d’autant plus qu’ils appliquent des lunettes
conceptuelles.
- Le positivisme nous amène à une idée particulière de la science qui
est fortement critiquée dès les années 1960.
### Résumé des critiques
- Idée qu’il y a une seule et vraie méthode (monisme)
- Idée qu’on observe uniquement des choses visibles
- Phénomènes sociaux se comportement selon des régularités et que les
lois sont identifiables
- La démarche déductive est la seule voie scientifique
## Déductivisme
A partir du modèle type du déductivisme, on récolte des données pouvant
tester les hypothèses. Puis, l’analyse de ces données génère des
résultats de recherche qui permettent de valider ou de réfuter des
théories. Cependant, la réalité est nettement plus complexe et c’est le
cas pour les processus de recherche qui sont moins linéaires que ce
modèle. On est donc plutôt face à une circularité entre toutes ces
cases.
### Problèmes spécifiques
Dans une questionnaire ou entretien, on ne peut pas demander la classe
sociale des citoyens. Ce qu’on demande c’est la profession, le fait
d’avoir des responsabilités dans le travail ou sa propre perception de
son appartenance de classe ou encore d’autres indicateurs. Par ce
travail **d’opérationnalisation**, on peut avoir des résultats
différents.
Autre problème de cette démarche est la volonté de mettre les concepts
en relation, ceci avec l’idée des sciences naturelles. Or, hormis
l’expérimentation, il est difficile d’évaluer empiriquement des
relations causales pour des raisons évidentes : **l’expérimentation** en
science sociale n’est souvent **pas possible**. En sciences sociales, on
est souvent forcé d’argumenter théoriquement la direction de la
causalité. Par exemple, est-ce que c’est l’intérêt pour la politique
qui augmente la votation ? On ne sait pas exactement quel facteur
influence l’autre. Heureusement, il existe des techniques pour arriver
empiriquement à s’approcher d’une relation causale comme les panels
d’une part ou les expérimentations d’une autre. Sauf que ces choses
sont difficiles à mettre en place en raison de coûts ou de questions
éthiques. Avec certains, on peut faire des corrélations.
***La causalité est centrale dans la démarche quantitative***, puisqu’il
s’agit d’illustrer et d’expliquer un phénomène social. Cette volonté
découle de la vision durkheimienne du monde social, selon laquelle les
phénomènes sociaux doivent être traités comme des choses. Toutefois, il
est impossible d’atteindre une causalité véritable, corrélation n’étant
pas égal à causalité. Si on postule un lien de causalité entre X et Y,
ce qui est réellement important, c’est la flèche \! Et donc ***le lien
social*** qui relie deux éléments.
Un des points forts des méthodes quantitatives est la **généralisation**
et donc l’idée qu’à partir des échantillons représentatifs, on peut
tirer des informations sur l’ensemble de la population. Cette idée est
importée des sciences naturelles sauf que cette force est surestimée.
Dans la réalité, on est face à des échantillons spécifiques qui ont des
biais influencés par le tirage d’échantillon mais surtout la manière
dont les répondants participent. En science sociale, on utilise souvent
l’étude de cas à la base de laquelle il est difficile de généraliser
même avec une démarche quantitative. Une solution pour diminuer ce
problème est de multiplier les ancrages empiriques et comparer les
résultats similaires mais distants dans le temps et l’espace.
Multiplier les ancrages empiriques veut dire **réplication**. C’est un
autre concept importer des sciences naturelles où la même expérience
peut être facilement appliquée dans les laboratoires. Dans la
perspective de la recherche quantitative, cette dimension est impliquée.
La réplication permet d’être plus proche de la réalité sauf qu’une
réplication parfaite n’est pas possible puisqu’on n’est pas dans des
laboratoires en sciences sociales. La réplication est utile pour l’étude
des variations et de regarder si on retrouve les mêmes processus sociaux
dans des contextes étant différents.
Enfin, un dernier problème à prendre en compte lors de l’usage des
méthodes quantitatives, c’est le fait que ***l’individu représente le
point focal, l’unité d’analyse par excellence***. Les faits sociaux sont
donc déduits par le biais de l’agrégation de tous les individus. Mais
selon Durkheim, cette approche est problématique puisque ***le tout est
distinct de la somme de ses parties***. En négligeant le contexte, les
normes sociales en vigueur mais aussi les interactions, les résultats
peuvent en être gravement affectés. Pour résoudre ce dernier problème,
les chercheurs tentent actuellement de trouver un modèle
d’opérationnalisation pertinent.
### Que conclure ?
Les méthodes sont basées sur des présupposés qui orientent notre regard
social et la manière dont la démarche est faite aujourd’hui est toujours
influencée par cette approche. Cela permet d’avoir un regard réflexif.
Tous ces points critiques touchent de loin tous ces chercheurs. La
recherche quantitative connaît ses difficultés. Les problèmes de la
généralisation, de la réplication et de l’individualisme sont
aujourd’hui acceptés et fortement discutés. Il existe des réflexions
et des mesures sur les processus de recherche.
**En résumé :**
- Il représente toutefois le pilier des méthodes quantitatives, ayant
permis leur émergence.
- Le positivisme a grandement influencé la pratique des méthodes
quantitatives en sciences sociales, bien que cette influence diminue
avec le temps. On essaie actuellement de prendre en compte les
interactions, les relations, les normes... pour complexifier les
modèles et s’approcher toujours plus près de la réalité sociale.
- Bien que l’ambition première du positivisme fut la neutralité dans
les méthodes, cela n’existe pas empiriquement. C’est pourquoi le
chercheur doit prendre conscience de ses présupposés pour ne pas
tomber dans une analyse de type « loi sociale ».
- Le positivisme appliqué à la pratique de la recherche en sciences
sociales entraine de nombreux problèmes à résoudre.
- L’opérationnalisation est au centre de méthodes quantitatives. Il
s’agit de créer des catégories au sein du monde social, de mesurer
les phénomènes sociaux et d’y apposer des chiffres ...
- La démarche hypothéticodéductive, bien qu’aujourd'hui dépassée, a
jouer un rôle prépondérant dans l’émergence de ces méthodes.
- ***Il faut donc prendre en compte les forces et les limites de cette
approche***.
## Méthodes qualitatives
Observation participant développée par Malinowski, les interviews
non-structurées, les récits de vie ou des focus group ont introduit une
plus forte variété dans le type de collectes de données que la démarche
quantitative qui est plus uniforme (positivisme). Les méthodes
qualitatives reposent sur deux piliers ; la **quête du sens** et
**l’analyse de structures invisibles**. Le développement de cette
approche se nourrit de réflexions critiques pré-existantes chez Comte,
Sorokin etc. mais c’est dans les années 1960 qu’on retrouve une
dimension plus critique des méthodes quantitatives. Les méthodes
qualitatives reposent sur une autre conception de la réalité sociales
grâce à des épistémologues qui ont décortiqué la démarche de recherche.
On est face à un virage intellectuel important en défrichant les
structures invisibles du monde social en prenant le point de vue du
sujet. Il n’y a plus d’idée de la neutralité.
## Traditions sociologiques
### Interprétation des acteurs
Pour interpréter les acteurs, d’autres démarches que la démarche
positiviste et quantitative sont nécessaires. Pour Weber, la sociologie
est la science qui se propose de comprendre par l’interprétation
l’activité sociale et par là, d’expliquer causalement ses causes et
ses effets. Il voulait saisir le sens et la subjectivité de l’acteur et
il se demande comment l’acteur comprend la situation sociale. C’est dans
cette démarche que s’inscrivent d’autres auteurs comme Foucault ou
Derrida.
### Structures invisibles du monde social
La tradition wébérienne met l’accent sur l’interprétation tandis que la
**tradition phénoménologique** a ses sources en Allemagne avec Hegel ou
Husserl. Ce dernier propose un programme qui souhaite analyser les bases
du monde social. La phénoménologie signifie de saisir par description
l’expérience subjective du monde et des acteurs sociaux. L’étude des
structures de sens et de construction que les individus ou groupes
sociaux utilisent pur rendre le monde social intelligible est chargé de
sens. Ce sont ces constructions qui permettent de comprendre le monde
social, de se situer en tant qu’individus ou groupes puis d’agir en
fonction de cette interprétation. C’est le contraire du béhaviorisme qui
cherche des stimuli externes aux groupes et aux individus ainsi qu’aux
observations visibles pour comprendre l’observation.
### Interactionnisme symbolique
C’est une approche d’origine des sciences sociales et elle est fortement
associées à George Herbert Mead. C’est une approche proche de la
démarche wébérienne et de la phénoménologie. Pour Mead, il faut saisir
la définition de la situation avant l’acte et ainsi comprendre
l’interprétation que les individus s’en font. Il faut également
saisir la définition comme acteur social en comprenant la définition et
l’interaction. Ces interprétations changent en fonction des interactions
sociales et en fonction des interactions entre les individus eux-mêmes.
Goffman montre comment la présentation de soi peut varier selon le
cadre. Cela change en fonction des situations d’interactions. Les
interactions transforment le sens.
### Opposés au positivisme
Beaucoup de chose oppose les méthodes qualitatives des méthodes
quantitatives. Les méthodes qualitatives...
- Postule que ***l’individu est pensant, et c’est cette subjectivité
mais aussi l’intersubjectivité qui en découle qu’il faut saisir***.
- En effet, l’individu est en interaction constante avec lui-même et
les autres, et ***c’est de l’intersubjectivité produite que découle
l’action***. Le but de la démarche est de comprendre les structures
mentales subjectives des individus.
- ***Le contexte joue un rôle important puisqu’il façonne
l’interaction***.
Ainsi, les méthodes qualitatives travaillent principalement sur ***le
monde subjectif*** vécu par les acteurs sociaux. C’est pourquoi on
adopte davantage une ***démarche compréhensive et interprétative***.
Toutefois, les méthodes qualitatives se sont distancées des postulats de
Weber, selon qui il fallait réussir à appréhender le monde au travers
des yeux des individus étudiés. La neutralité axiologique n’existante
pas, la ***description des faits sociaux*** (à la Geertz) joue alors un
rôle fondamental, tout comme les efforts de ***contextualisation***,
permettant de comprendre les acteurs sociaux dans leur milieu. Alors que
les méthodes quantitatives sont à la traine sur ce point, les méthodes
qualitatives permettent d’élaborer des concepts au fur et à mesure et
donc permettent une meilleure compréhension des phénomènes dans le
temps. En effet, la flexibilité théorique est au cœur des méthodes
qualitatives (exemple : La Grounded Theory).
##
## Logique de la démarche qualitative
Examiner les structures de sens, examiner ce qu’il y a derrière la
réalité sociale. L’idée est également à l’opposition du regard neutre
de **regarder avec les yeux de celui qui est étudié**, c’est-à-dire
étudier les actions et les normes en partant de la perspective des gens
qu’on étudie. Il n’y a pas de processus de distanciation entre le
chercheur et son objet d’étude mais il doit s’immerger dans la réalité
de son objet de recherche. Pour faire émerger les **structures de
sens**, il nous faut une **description détaillée du phénomène social**
qu’on veut étudier. On veut déterminer les structures de sens. On
définit les **contextes** pour des systèmes d’interprétations et
d’actions. C’est une **démarche holistique** qui veut expliquer la
situation en la situant dans son contexte social, culturel et
historique.
Elle est moins guidée par la théorie. Au contraire, on refuse d’élaborer
un cadre théorique strict mais on le voit comme un guide se structurant
tout au long de la recherche. On ne veut pas guider une vision du monde
au départ mais on la laisse émerger. C’est une structure théorique
plutôt ouverte et visible. Cela permet une certaine liberté dans la
façon d’observer les phénomènes sociaux. Ceci est également le cas pour
les concepts qui ne sont que rarement définis au début de la recherche
mais sont établis dans le cours de la recherche.
### Problèmes et limites
**Analyse et l’interprétation** montent le cadre donc des théories
pouvant nous amener vers un but précis. Il y a un risque d’éparpillement
et on risque de refaire la même chose et de se noyer dans un vague
terrain d’information. Idée de décrire de manière détaille la complexité
sociale, cela nous amène à exagérer et à se perdre dans un
descriptivisme social où on oublie le but de chercheur, à savoir
d’expliquer et de comprendre. De plus, le fait que le chercheur n’est
pas guidé par des théories est un mythe. Tout chercheur est guidée par
des théories. L’idée d’absence théorique est ainsi un mythe.
**Reproduction de la complexité **: descriptivisme / excès d’empirisme
on peut mieux décrire les choses. En analysant les attitudes d’une
personne, on pose des indicateurs. Ou lorsqu’on fait des entretiens, on
a plus d’informations. Donc c’est plus détaillé. Sauf qu’on a trop
d’informations et on reste dans le descriptif.
**Explication :** on peut mieux expliquer le processus sauf qu’on se
perd dans l’explication.
**Mythe du « chercheur enfant » :** le chercheur est aveugle, sans
théorie préalable. Il y a l’idée qu’on peut venir libéré de quelconque
théorie préalable sauf que cela n’est pas possible en tant que tel parce
qu’on est toujours guidé d’une manière ou d’une autre.
**Généralisation : *La généralisation représente la préoccupation
centrale des méthodes quantitatives, bien qu’elle soit limitée***. En
effet, il serait abusif de généraliser des conclusions à une population
entière sur la base d’un échantillon régional par exemple. Pour éviter
ce type d’abus, les chercheurs ***multiplient les ancrages
empiriques***, permettant d’identifier de possibles variations entre les
différentes mesures sur des territoires différents, permettant dès lors
de mieux appréhender les phénomènes sociaux.
## Que conclure ?
Les méthodes qualitatives et quantitatives reposent chacune sur des
piliers différents. Etant très différentes et permettant d’appréhender
le monde social au travers de lunettes épistémologiques différentes, le
terrain n’est pas du tout appréhendé de la même manière par ces
approches. Toutefois, on ne peut conclure à une réelle opposition entre
elles. Pour de nombreux chercheurs, ***ces deux méthodes doivent se
compléter*** pour offrir à voir une réalité plus complexe en se posant
des questions différentes, caractéristiques de chacune de ces approches.

# Pratiques de la recherche et causalité : théorie et empirie sous tension
## Pratiques de la recherche
Ces pôles nous aident à prendre une distance critique avec notre objet.
Ces pôles ne sont pas forcément dans la tête de tout chercheur ou tout
étudiant. Ces pôles sont des espaces de recherche posant des questions
spécifiques pour avoir un projet de recherche cohérent. Il demande au
chercheur à se questionner différemment. Les mêmes pôles existent pour
la méthode quantitative ou qualtive puisque les deux sont soumises aux
mêmes types de questions sauf que les pôles sont plus au moins
importants dans l’une ou l’autre démarche.
## Quatre pôles structurent la recherche
1. Pôle **épistémologique** -\> pertinence de l’objet et de la question
de recherche. On se pose des questions comme « pourquoi faut-il
répondre à cette question ? Qu’est-ce que ça nous apporte comme
pertinence ? Pourquoi c’est un problème social ?
2. Pôle **théorique** -\> Explication/compréhension. Permet de
conceptualiser les concepts et les mettre en relation. Il permet de
délimiter l’objet de l’étude lui-même et les causes explicatives en
plus de mettre en amont un ensemble de facteurs pour expliquer le
phénomène à expliquer. Ceci se fait par la formulation de
l’hypothèse.
3. Pôle **méthodologique** -\> Cohérence : définir le dessin de
recherche et le cadre d’analyse. Il assure cohérence entre le pôle
théorique et technique. Il peut être enrichi par notre propre
lecture. Il permet par la suite de tester nos relations causales.
4. Pôle **technique** -\> Faisabilité : Il demande comment on va faire
notre collecte de données ?
- Chaque pôle se réfère à une étape distincte de la recherche et ce
sont des moments analytiquement séparés mais en réalité inséparable.
Il y a un va-et-vient constant entre eux puisque leur existence et
conditionnée par celles des autres.
### Implication de l’interdépendance des pôles
Les choix méthodologiques découlent du problème posé antérieurement et
notamment du cadre théorique élaboré. De plus, les choix techniques
découlent du cadre méthodologique élaboré ainsi que du problème et du
cadre théorique. Ainsi, les choix méthodologiques sont sous contraintes
des pôles antérieures et des connaissances préalables du chercheur.
## Pensée causale : au cœur de la démarche quantitative
La causalité se pose d’une manière transversale pendant tout le
processus de recherche. On a déjà vu apparaître cette question à
plusieurs endroits dans les pôles de la recherche. La causalité est au
centre des recherches quantitatives. On essaie donc de développer un
outil statistique qui nous permet de mettre en évidence des structures
sociales. On est dans une logique positiviste importé des sciences
naturelles voulant expliquer des phénomènes visibles comme la
criminalité. On veut donc mettre en évidence des causes sociales.
Tandis que dans les méthodes qualitatives, on veut générer un ensemble
d’explications probables ou potentielles. On délimite des causes dans
le pôle théorique. En d’autres termes, on a la recherche d’un effet
d’une variable indépendante sur la variable dépendante (du X au Y). A
cette logique se pose plusieurs problèmes étant liés à cette logique. Il
y a des problèmes philosophiques qui questionnent la possibilité de
pouvoir trouver des causes universelles par exemple. Un modèle causal
exige de contrôler la causalité et de mettre en évidence la structure
sociale. Ceci n’est pas toujours facile et parfois même, ce n’est pas
faisable. Finalement, il y a des problèmes techniques parce qu’on ne
peut pas contrôler toutes les causes concurrentes possibles.
### Où est le problème ? Tension entre théorie et empirie
On est face à une tension entre le langage théorique et celui de la
recherche. Ceci est bien résumé par la citation de Blalock : « Si X est
la cause de Y, nous avons en tête que X produit un changement de Y et
non simplement qu’un changement de X est suivi, ou associé, à un
changement de Y ». La logique de la pensée causale veut qu’on évalue
l’effet de X d’une variable ou de plusieurs variables indépendantes
sur Y, à savoir une variable dépendante. Par exemple l’effet du niveau
d’éducation sur la participation politique. Dans le langage de la
théorie, on va utiliser des termes comme causes, poids ou rôle d’une
variable sur l’autre. Dans la recherche empirique, si on veut tester ces
relations, on parle de **co-variation** ou de **corrélation**. Si on
parle de co-variation, on parle d’une variation d’un changement en même
temps ou si corrélation, on parle d’une association d’une variable à une
autre mais on ne parle pas de sens. Du coup, ni la corrélation ni la
co-variation sont des causes. On pourrait admettre que la pensée causale
se situe uniquement au niveau théorique et qu’on ne peut pas le tester
au niveau de la recherche empirique. Sauf qu’Einstein n’est pas d’accord
avec cette affirmation puisque « correlations does not prove
causality ». Pourquoi est-il difficile d’identifier les causes ? Il y
a 2 raisons majeures à cela :
- **Asymétrie temporelle entre la cause et l’effet**. Forcément, la
cause doit venir avant les faits. Si on veut évaluer la présence des
immigrés sur la xénophobie, il faut trouver un endroit où il y a une
présence immigrée antérieure à un renforcement d’attitude xénophobe
sinon on ne peut pas dire qu’il y a causalité. Pour résoudre ce
problème de temporalité au niveau empirique, le dessin de recherche
doit incorporer cette notion du temps. Idéalement en mesure de 2
temps minimum sauf que cela est difficilement atteint. Par exemple
les sondages se font souvent en un seul moment et les s sont
relativement rares car très couteux. On peut encore se rapprocher à
cette idée du temps avec certaines astuces telle que le fait de
poser des questions sur le passé. L’autre astuce est de se sauver
avec la réflexion théorique, en expliquant théoriquement ce qui
vient avant ou après.
- **Contrôle de toutes les causes concurrentes **: pour prouver qu’une
cause génère un effet, il faut contrôler toutes les autres causes
possibles en éliminant celles qui peuvent établir une relation entre
une variable indépendante et une variable dépendante. Il faut en
plus maîtriser totalement l’environnement et travailler avec système
clos qui est libéré de toutes les causes concurrentes.
Exemples : Si on veut examiner l’effet des campagnes sur la
participation électorale, on est face à un postulat causal au niveau
théorique sauf qu’on ne va jamais trouver toutes les causes
structurelles.
Par conséquent, on peut prouver une causalité seulement dans un système
fermé selon Russel ou Heisenberg. Un système isolé nous permet de
contrôler toute autre cause concurrente et de varier seulement la cause
qui nous intéresse. Sauf que c’est très difficile en sciences sociales.
- L’asymétrie temporelle est un problème soluble soit par
l’introduction de la notion du temps comme dans les études de
panel ou par le choix de dessin expérimental. Sauf que ce type
d’étude n’est pas toujours faisable puisque c’est très cher. Il
reste alors l’appui théorique en argumentant logiquement la
causalité.
### Solution : reconceptualisation de la cause
Le contrôle de toutes les causes concurrentes et l’aspect le plus
difficile à réaliser parce qu’on ne peut pas isoler complètement un
système et de déterminer toutes les causes concurrentielles. Donc la
causalité au sens strict du terme ne s’applique pas à la recherche. Sauf
qu’on est face à un problème insoluble. Comme on ne peut pas cerner la
causalité au sens philosophique du terme et donc on ne peut pas tester
empiriquement des lois sociales on est censé reconceptualiser la
causalité au sens étroit du terme et on parle d’une causalité limitée.
Selon Simon, on doit conserver le modèle de cause en modèle simplifié.
La meilleure solution est de partir avec un nombre fini de causes qui
sont en opposition avec la philosophie. Sauf que ce modèle ne peut
jamais être complètement faux au sens philosophique du terme. Cette
causalité limitée peut être visible à différents endroits de la
recherche ; sur le niveau théorique avec les hypothèses, en
statistiques, avec les termes d’erreur et en méthodologique, avec
l’expérimentation.
Comme au niveau théorique, une relation entre deux variables ne peut pas
être analysée empiriquement et on doit donc émettre des hypothèses
simplifiées sur la relation entre deux variables. Donc l’énoncé causal
est purement hypothétique. Les phrases sont formulées : « si toutes les
causes connues sont égales, alors il y a un effet de campagne sur la
participation électorale ». C’est la solution
<span class="underline">théorique</span>. Au niveau
<span class="underline">empirique</span>, on peut construire une
causalité limitée avec l’introduction des termes d’erreur. Cela se fait
avec les analyses multiples comme la régression : « Quand un facteur X
prédit Y, il peut toujours y avoir d’autres causes qui prédit … ». Cela
prend en compte la variation de la variable dépendante qui n’est pas
causée par la /les variables indépendantes.
Finalement, la logique d’expérimentation nous permet d’établir une
causalité limitée. L’idée derrière est la création d’un système isolé ce
qui n’est pas forcément possible en sciences sociales parce qu’on est
tout simplement rarement dans un laboratoire. Toutefois, on peut voir
dans la recherche qu’il y a des expérimentations qui essaient de se
rapprocher de cet idéal. Par exemple, si on veut évaluer l’effet de la
lecture d’un journal dans la formation des opinions pendant une campagne
électorale, on peut s’approcher d’une situation d’expérimentation en
créant un groupe A et un groupe de contrôle B. Sauf que les personnes
peuvent être impactés par d’autres causes externes. Ainsi,
l’expérimentation reste difficilement applicable et on doit rester
dans un modèle hypothétique.
- Un modèle (causal) restera toujours une représentation simplifiée de
la réalité.
## Difficulté dans l’élaboration de modèles causaux
Il faut sélectionner les causes qu’on intègre dans notre modèle en
choisissant celles qui sont les plus déterminantes. Ainsi, on parle des
causes principales qui sont celles qui sont les plus fondamentales.
Puis, il faut identifier les causes concurrentes qui pourraient être
concurrentes à notre explication. On parle aussi de variable de contrôle
qui signifient la même chose. Ces causes, on les trouve souvent dans la
littérature. Avec toutes ces causes concurrentes, il faut faire un choix
qui va influencer notre résultat. Ce choix consiste à éliminer certaines
causes pour avoir un modèle théorique faisable. Le plus grand danger
dans ce processus de sélection, c’est la création de fausses relations.
Par exemple, on fait un modèle théorique où on prend le sexe et la
participation politique. On trouve que les hommes participent plus que
les femmes sauf qu’on a oublié de prendre en compte une variable
explicative. Elle va éliminer notre thèse principale ; la participation
politique est surtout influencée par le niveau d’éducation et la classe
sociale. Si on intègre ces deux variables dans une régression, on ne
trouve plus de relation entre sexe et participation politique.
## Difficulté de l’élaboration de modèles causaux
On peut expliquer un problème social en trouvant toutes les variables.
C’est le cas dans les méthodes qualitatives. La seconde approche est
d’essayer d’expliquer l’effet d’une cause sur un effet. La différence
entre les deux approches est que dans le deuxième exemple, on est dans
une logique de sélection de causes au sein d’un modèle théorique. On
prend un nombre limité de causes.
Il existe différents types de causes :
- ***La cause principale*** : C’est la cause que l’on postule
influencer le plus un phénomène donné.
- ***La cause concurrente*** : C’est la cause qui peut influencer
également le phénomène étudié mais dont on postule qu’elle est
moins prégnante que la cause principale.
- ***La cause fallacieuse*** : Alors que l’on pensant que X
influençait fortement Y, ayant identifié une co-variation, il
s’avère que c’est une variable cachée, Z, qui influence en
réalité Y. Il s’agit donc d’une cause fallacieuse. Par exemple, on
a longtemps pensé que ce qui faisait que les femmes votaient moins
que les hommes, c’était leur genre. Toutefois, on a compris plus
tard qu’en vérité, ce qui influençait le plus, c’était le niveau
d’éducation, qui variait également selon le genre \!
### Cause et théorie
On dit que X a une influence sur Y sauf qu’il ne faut pas oublier de
comprendre et d’expliquer ce lien social. Il faut toujours essayer de
comprendre la flèche sinon on pourrait créer des artefacts ou de fausses
relations. Quand on parle du niveau d’éducation qui affecte la
participation des individus, parle-t-on des ressources intellectuelles ?
d’un sentiment de légitimité ? que cela peut-il dire ? Pour ne pas
tomber dans le positivisme sauvage (ce que je vois est parce que je le
vois), ***la théorie est cruciale pour comprendre ce lien et non pas
simplement le constater***.
## Conclusions et implications
Le monde réel est hors de notre portée. On ne peut pas tester des
relations causales au sens strict du terme. Ainsi, le chercheur doit
construire son objet de recherche. Il passe d’un objet perçu à un objet
de connaissance. On construit notre objet de recherche avec des lunettes
méthodologiques et théoriques. D’ailleurs, on travaille avec des objets
interactifs puisqu’ils peuvent se transformer. On doit prendre en compte
l’asymétrie temporelle, on doit contrôler les causes concurrentes.
Finalement, on a vu qu’on est plutôt dans des systèmes de co-variations
et non dans des systèmes de causes.
# Dessins de recherche ou comment maîtriser la causalité ?
Pour saisir l’idée des dessins de recherche, il faut comprendre deux
notions clés sur laquelle la démarche causale est basée ; l’idée de la
variation et celle de la comparaison. L’étude de la variation veut
saisir la question suivante : comment la variation de X est associée à
la variation Y ?
- Exemple : xénophobie : effet de la présence immigrée a un effet sur
la xénophobie. Donc l’idée c’est que la présence d’immigré fait
varier des facteurs de misanthropie. Sauf qu’il faut prendre
différents cas où il y a une variation du degré de présences
d’immigrés pour voir si la xénophobie change en fonction de ces
variations.
Selon Durkheim, la variation ne peut être faite sans comparaison. C’est
le cas pour la démarche quantitative et qualitative. Ce n’est qu’en
comparant des Etats-nations qu’on peut évaluer un modèle de citoyenneté
par rapport à la pression migratoire.
Le dessin de recherche est important pour maîtrise la causalité. Ce
n’est pas toujours évident de parler de dessins de recherche de
manière théorique. Comme pour chaque concept, il existe plusieurs
définitions. On peut distinguer entre une définition plus large et une
définition plus étroite :
- *Large *: elle englobe tous les enjeux impliqués dans la
planification et l’exécution de la recherche. Ça part de la
construction de la problématique (pôle épistémologique) jusqu’à la
présentation des résultats de recherche (englobe tous les pôles de
recherche).
- *Etroite *: manière dont le chercheur va écarter ou maîtriser les
hypothèses concurrentes. C’est le cœur du pôle méthodologique. Il
s’agit d’établir un plan d’exécution de la recherche pour exécuter
le plan de recherche. Le dessin de recherche doit répondre à la
manière dont on va contrôler.
Les dessins de recherche sont cruciaux car ils permettent de situer le
chercheur dans le volet empirique de sa recherche. Il permet une
articulation entre la théorie et l’empirie ainsi qu’une articulation
entre le pôle épistémologique et théorique. Les dessins d’une recherche
sont centraux du pôle méthodologiques : comment on procède pour tester
nos hypothèses ? Comment maîtriser notre système causal ? La notion de
contrôle signifie comment on va maintenir constantes les autres causes
afin de déterminer le poids de la cause déterminée.
## Exigences des dessins de recherche
Pour que les résultats obtenus soient le plus fiables possible, le
chercheur doit :
- Contrôler la causalité en s’assurant d’une asymétrie temporelle et
d’une clôture maximale du système. Il est nécessaire de maintenir
constantes les causes concurrentes et ce, en élaborant par la
connaissance un certain nombre de variables de contrôle.
- Choisir un dessin approprié en maîtrisant au mieux la causalité. De
plus, le dessin de recherche sert également à mettre à l’épreuve les
modèles théoriques construits par le chercheur et à assurer la
faisabilité de la démonstration empirique.
### Analyse de la co-variation
- Présuppose une logique de comparaison (Durkheim)
- Comparer entre groupes
- Comparer à l’intérieur des groupes
Deux logiques de contrôle : deux chemins possibles
- Contrôle externe : dessins **expérimentaux** avec une comparaison
entre groupes
- Contrôle interne : dessin **corrélationnel** avec une comparaison
dans un groupe
## Contrôle externe
Il applique un contrôle externe, c’est-à-dire qu’on veut maintenir
constantes les autres variables ou les causes concurrentes. On est dans
logique de comparaison entre groupes et cela nécessite que le groupe
soit identifiable en amont. Ici, c’est une logique de l’éprouvette comme
dans un laboratoire où il faut dessiner un groupe expérimental qui a ce
traitement et un groupe de contrôle qui n’a pas ce contrôle.
L’attribution d’un groupe reste toutefois aléatoire. L’idée ici est de
maîtriser la causalité ex-ante, c’est-à-dire avant l’analyse de données.
Les analyses vont être centrées sur les cas ou les groupes. Pour mener
une expérience, il faut que le groupe soit clairement identifiable en
amont. Par exemple avec l’immigration et les abus xénophobes, dans une
logique d’un dessin expérimental, on devrait comparer des cantons avec
une forte/faible population migrante.
Exemple
- Connaissance des religions et des philosophies conduit-elle à une
plus grande tolérance à l’égard de l’altérité ?
On peut prendre deux groupes distincts identifiables (groupe de contrôle
et groupe expérimental). Donc on peut comparer les groupes entre eux
dans la logique du dessin de recherche. On identifie deux groupes
distincts sauf qu’on peut en même temps maintenir constants d’autres
facteurs (la même école, la même classe, le même âge…). Au contraire, si
on veut saisir les influences de l’usage du vote par internet ou par
correspondance, sur la pratique du vote, on ne peut pas identifier en
amont les utilisateurs d’un ou de l’autre usage donc on doit appliquer
une autre logique.
## Contrôle interne
Cette autre logique est appliquée par le dessin corrélationnel. Au lieu
de comparer entre groupe, on fait un contrôle **dans** le groupe,
c’est-à-dire le contrôle interne en faisant varier aléatoirement les
variables. Dans le dessin expérimental, on essaie de contrôler un
maximum de paramètres tandis que dans le dessin corrélationnel, on veut
libérer les paramètres. Les groupes ne sont pas identifiables en amont
donc pour construire notre échantillon, on tire au sort des
observations. On garde l’aspect aléatoire pour garder l’effet spécifique
de chaque variable indépendante. Au lieu de comparer des groupes, on
prend dans l’analyse toute la population et on introduit toutes les
variables indépendantes. Donc on ne regarde pas seulement l’effet d’une
variable indépendante sur une variable dépendante mais on introduit
toutes les variables.
Dans la logique du dessin corrélationnel, on maîtrise la causalité
ex-post, c’est-à-dire au niveau des analyses. Les analyses ne sont pas
centrées sur les cas mais sur les variables.
Exemple :
- Est-ce que le soutien électoral au parti d’extrême droite, est-il
lié au statut économique de la personne, à son rejet des élites
politiques ou à ses attitudes à l’égard des autorités ?
Ce qu’on va faire, c’est qu’on va prendre toute la population (ensemble
des votants) et faire varier cette variable dans l’ensemble de la
population. Cela va nous permettre ensuite de voir si le statut
économique est lié par exemple. On va appliquer une logique de
comparaison à l’intérieur du groupe en évaluation la relation entre les
variables.
## Deux chemins : contrôle vs aléatoire
Il y a donc deux chemins pour maîtriser les variations et maîtriser les
systèmes de causalité. On peut soi maîtriser la causalité avant les
analyses et la comparaison dans le groupe. Ou bien, on ne peut pas
identifier les groupes en amont donc on mise sur des relations entre
variables en s’approchant des causalités au niveau des variables. Ce
sont des chemins opposés :
« L’aléatoire est dans un sens le processus opposé du contrôle. Tandis
que contrôler veut dire maintenir la valeur de certaines variables
constantes, l’aléatoire veut dire libérer la valeur » (Spector)
Sauf que cette distinction n’est pas toujours décisive. Dans la réalité
de la recherche, on peut retrouver ces deux chemins dans un dessin de
recherche.
### Contrôle externe
Ces groupes peuvent comprendre différentes choses telles que des
individus, des Etats etc. Le dessin expérimental est le contrôle de base
de la causalité. C’est rare que ce soit possible d’avoir un tel dessin
en science sociale. Néanmoins, on voit de plus en plus l‘utilisation de
dessins expérimentaux. Le chercheur va manipuler artificiellement
une/plusieurs variables dans un groupe. Puis, il évalue l’effet de cette
variable entre les deux groupes. La différence que le chercheur peut
trouver entre ces deux groupes, lui permet de tirer une conclusion sur
l’effet de la variable indépendante sur la variable dépendante et donc
il ne doit pas contrôler les variables concurrentes. C’est l’idée qu’on
a deux éprouvettes contenant la même solution liquide, puis on les
compare et on étudie leurs effets. Les principes ou les conditions de
base d’un dessin expérimental sont :
- Les groupes soient composés de la même manière. Le groupe
expérimental et le groupe de contrôle doivent avoir la même
composition. Il ne doit pas y avoir de variations entre eux. Pour
évaluer une variation sur une variable, il faut obtenir les autres
variables constantes sinon on ne peut pas évaluer les effets de la
manipulation et donc de la causalité. Ainsi, l’effet qu’on observe
pourrait être dû par d’autres variables.
- Pour avoir des groupes identiques, il faut procéder à un tirage
aléatoire. L’idée derrière est qu’une allocation aléatoire est le
seul moyen d’avoir un groupe identique parce qu’on ne connaît par
les caractéristiques de chaque cas.
- Puis, on peut procéder à la manipulation d’une/plusieurs variables
indépendantes. Cela permet d’asseoir cette variable sur le groupe
expérimental. C’est pour cela que l’expérimentation est privilégiée
par rapport à d’autres dessins de recherches. Ainsi, on a une base
solide.
### La logique
Exemple : Si un chercheur souhaite évaluer l’influence de l’information
quant à l’écologie sur le vote vert des individus, il sépare des
individus en deux groupes, auxquels il a préalablement demandé
quelles étaient leurs inclinaisons à voter écologiste.
Ensuite, le chercheur donne des informations à l’un des groupes, alors
que l’autre reste neutre. Le chercheur finit l’expérience en demandant,
suite à cette manipulation, quelle est l’inclinaison des individus de
chaque groupe à voter écologiste. Sur le tableau (fictif), on voit que
le lien est vérifié puisque les individus ayant obtenu de l’information
se déclare prêts à voter écologiste bien davantage que le groupe n’ayant
pas reçu d’information. Toutefois, on ne sait pas si cette inclinaison
durera dans le temps. Il est aussi possible de tester l’influence de
plusieurs variables, comme l’information « papier » et l’information
directe (des individus nous expliquent, parlent...).
Un autre exemple de ce qu’est un dessin de recherche expérimental
(contrôle externe) est l’expérience de Milgram portant sur la
soumission à l’autorité.
### Dessin expérimental : ses forces
On arrive presque à fermer un système et c’est le dessin de recherche
privilégié en termes de causalité. Il a une très forte validité interne
au sein de la recherche parce qu’on a un contrôle sur l’intervention et
ils ne sont pas coûteux parce qu’on a besoin d’un petit échantillon.
### Ses problèmes
Il a des faiblesses :
- La faisabilité : pas toujours facile de manipuler une variable
indépendante.
- La même composition du groupe n’est pas évidente.
- Possibilité de généralisation : beaucoup de recherche expérimentale
ont une faible validité interne. Si on veut l’appliquer à la
validité externe, c’est plus difficile. Souvent, les échantillons
utilisés ne sont pas représentatifs. Les individus réagissent
différemment dans un contexte de laboratoire que dans un cadre
naturel.
- On doit faire face aux problèmes éthiques : les règles de base sont
que la participation doit être volontaire, les participants doivent
être informés, on ne doit pas faire du tort aux participations et
on doit respecter les participants. Sauf que souvent les
expérimentés ne connaissent pas le but de la recherche ou ils ne
sont que vaguement informés pour ne pas biaiser leurs comportements.
## Dessin quasi-expérimental
Le principe de comparaison entre groupes est maintenu sauf que ce dessin
se déroule en dehors du laboratoire. Le rôle du chercheur est aussi
différent car il n’y a pas de manipulation du chercheur puisque le
changement intervient naturellement. Il doit avoir la caractéristique de
séparer clairement deux groupes d’individus. On retrouve la logique du
groupe expérimental et la logique du groupe de contrôle.
On ne peut pas manipuler des variables sont leurs modalités dans la
nature. La notion de la temporalité est centrale ici. Ce type de dessin
est particulièrement adapté pour les changements tel que des changements
de valeur entre les générations ou les changements liés au parcours de
vie (un enfant, changement d’études etc). Ce dessin peut également
prévoir un changement dans l’espace tel que l’étude d’Ingelhart qui a
montré qu’on a trouvé des fonctions distinctes en fonction de la santé
de l’Etat.
### Expériences naturelles
On doit prendre la situation existante. Ici, le contrôle est moindre que
dans la situation expérimentale précédente. Ces écoles peuvent être
situées dans des quartiers ayant des niveaux économiques différents ou
les enseignements peuvent varier donc on n’a pas l’entièreté du
contrôle.
En prenant un exemple réel d’une expérience naturelle, on voulait
vérifier l’accès à la citoyenneté sur la mobilisation de l’extrême
droite. Ils ont fait une comparaison entre pays (comparaison dans
l’espace), ils ont catégorisé les différentes conceptions de la
citoyenneté et ils ont étudié les pays en Europe pouvant être classés
dans ces différentes cases. Puis, ils ont tiré des exemples sélectionnés
pour l’analyse et donc ils les ont comparés. C’est un exemple de
comparaison dans l’espace. Ils ont récolté des données pendant 10 ans et
ils voulaient être sûrs que cette classification soit sûre sauf que ce
n’était pas en lien avec la question de recherche. Il faut toujours
refaire le lien avec la question de recherche. La logique ici est
simplement la comparaison dans l’espace.
Nécessité d’avoir des données temporales et spatiales :
Temps longs : un siècle
Espace : pays européens
Unité d’analyse : vote des individus
### Dessin comparatif
Quais comme un dessin expérimental. La comparaison est ici centrale dans
sa logique ; elle peut se faire dans l’espace ou dans le temps. Sa place
parmi les autres stratégies de recherche, dans une recherche
qualitative, on a beaucoup de variables avec peu de cas et avec la
méthode quantitative, c’est l’inverse. Tandis que la recherche
comparative est située théoriquement au milieu.
### Dessins longitudinaux
Un cas spécifique de la comparaison dans le temps. On est toujours dans
des dessins quasi-expérimentaux. Ils sont de plus en plus en vogue dans
les sciences sociales. Il y a 3 types dessins longitudinaux :
- **Panel **: la spécificité est la comparaison du même groupe dans le
temps. On compare le même groupe à des moments différents. Les
principes de base sont qu’on utilise les mêmes échantillons
d’individus. L’intervention entre la première et la deuxième fois
est naturelle et il n’y a pas d’intervention du chercheur. Un
exemple classique est le panel suisse des Ménages donc toutes les
personnes qui vivent dans un ménage. Ce sont des études d’opinions,
de comportements ou de valeurs et ces personnes sont sondées chaque
année. Son avantage : très bonne traçabilité de la cause ; on peut
tracer les changements dans les comportements politiques parce qu’on
a toujours les mêmes individus. Sauf qu’il y a des problèmes : comme
c’est toujours le même groupe, il faut lutter contre « la mortalité
d’un panel », c’est-à-dire que les gens arrêtent de participer. La
moralité d’un panel, c’est que la durée de vie d’un échantillon est
limitée. Très vite, on peut se retrouver avec un problème important
de représentativité. La solution pour y remédier est de réintroduire
de nouvelles personnes ou de nouveaux échantillons complets. Un
autre problème se situe au niveau que le chercheur doit attendre
longtemps pour pouvoir analyser ces données. Finalement, c’est un
dessin coûteux en ressources parce qu’on utilise des incitations
importantes, le mode de récolte des données est coûteux et de grands
groupes travaillent.
- **Semi-panel** : il applique la même démarche que dans le panel
classique. La différence principale est que le groupe change à
chaque fois. On utilise cette technique quand les chercheurs ont la
difficulté de reprendre le même échantillon que dans la première
vague donc on a des difficultés à suivre les personnes dans le
temps. L’avantage clé par rapport au panel est que ce dessin
augmente clairement la faisabilité de cette recherche. On garde en
plus la comparaison dans le temps et l’évaluation de la causalité
reste assez fiable. Il permet de regarder des individus au niveau
agrégé.
- **Panel rétrospectif** qui essaie de combler une autre faiblesse de
l’étude panel classique. Un panel commence toujours dans une année
spécifique et il n’est pas possible de remonter dans le temps. Pour
ce faire, on peut soit utiliser des données secondaires récoltées
par d’autres ou utiliser des données rétrospectives. L’avantage de
ce dessin est la faisabilité de l’étude. Par exemple, pour
l’engagement dans des organisations sociales, il est difficile
d’identifier des personnes quand elles ne sont pas encore
engagées. Donc on peut tracer la causalité dans une certaine
mesure. Sa première difficulté est inscrite dans son nom puisque la
rétrospective des problèmes est problématique car la mémoire est
sélective. La sélectivité de la mémoire ne se fait pas au hasard et
on est face à des biais sélectifs. De plus, on est face à une
réinterprétation ou une reconstruction de la part des individus. Il
y a aussi un problème de différence entre individus. Une solution
pour y remédier est d’utiliser des moments épiphaniques (moments
centraux) et on a tendance à mieux s’en souvenir. Sauf qu’il n’est
plus vraiment un dessin quasi-expérimental car on ne peut plus
identifier des groupes en amont. On bascule sur des dessins
corrélationnels ayant une logique différente.
## Contrôle externe de la causalité : synthèse
Dessins **expérimentaux **: avec intervention du chercheur
Dessins **quasi** **expérimentaux **: sans intervention du chercheur /
expérimentation naturelle / dessin comparatif (coût faible) / panel,
semi-panel dessin rétrospectif.
### Contrôle interne : Dessin corrélationnel
On choisit ce dessin quand une comparaison entre deux groupes en amont
est impossible. On étudie la société telle qu’elle est. Le dessin
corrélationnel ou *cross-sectional* est une étude des variations à
l’intérieur d’un groupe et non entre les groupes. Il y a toujours une
logique de comparaison et de variation. Pour choisir un échantillon de
la population, on utilise une logique aléatoire en procédant à un tirage
au sort au sein d’une population. Avec ce procédé, toutes les
caractéristiques sont censées être représentées permettant une analyse
entre les variables.
### Contrôle de la causalité : synthèse
Les dessins **expérimentaux** et **quasi-expérimentaux **: logique de
contrôle externe, maîtriser sources de variation et groupes
identifiables en amont, procède à un contrôle ex-ante de la causalité,
logique du contrôle avec des paramètres constants.
Dessins **corrélationnels **: logique de contrôle interne (à l’intérieur
de groupe), maîtrise la causalité au moment de l’analyse avec
régressions, logique derrière est de défricher la causalité en
contrôlant la relation entre les variables (variable indépendantes et
variables dépendantes).
### Bilan
Dessins expérimentaux peuvent contrôler la causalité en amont de la
collecte des données car on maîtrise les effets des autres facteurs. On
peut contrôler les variables concurrentes.
Contrôle faible dans les dessins corrélationnels ; logique du tirage au
sort et on veut libérer au maximum les paramètres et assurer une
distribution aléatoire de ces paramètres au sein de la population
étudiée. Le contrôle se fait après par le biais de l’analyse qui prend
plein de causes concurrentes. La maîtrise des variables se fait soit
avant entre les groupes soit après entre les variables. Il s’agit de la
maîtrise de la variable indépendante sur la variable à expliquer. Il
s’agit d’un continuum de contrôle par le chercheur. La force du
contrôle peut se faire sur deux choses :
- Manipulation : chercheur intervient et amène un changement ; il a un
contrôle sur la variable dépendante. C’est le cas dans
l’expérimentation et grâce à une telle constellation, le
chercheur peut comparer le groupe expérimental et le groupe de
contrôle.
- Corrélationnel : chercheur ne contrôle pas ces paramètres donc
libère au maximum la variation, on est face à une situation
similaire pour la variable dépendante. Dans l’expérimentation, on a
faible contrôle.
**Comment choisir son dessin de recherche ?**
Toujours en lien avec le pôle théorique de la recherche ; quelle cause à
contrôler ? Plusieurs dessins de recherche peuvent être pertinents et il
faut penser aux apports et aux limites de chaque dessin. Souvent, il est
conseiller de combiner des dessins de recherche (SELECTS).
Les dessins de recherche doivent être guidés par des théories sauf qu’on
est soumis à des contraintes temporelles, soumis à des contraintes
financières, soumis à nos propres compétences.
# Construction d’une recherche quantitative : des concepts aux mesures, un travail d’opérationnalisation
## Opérationnalisation : qu’est-ce que c’est ?
***L’opérationnalisation consiste à rendre les concepts mesurables***.
Il s’agit de passer d’un très haut niveau d’abstraction conceptuelle à
des indicateurs concrets adaptés à la recherche empirique. Par exemple,
comment mesurer la participation protestataire ? Ce concept abstrait
doit être, en plus ***de toutes les variables*** indépendantes
permettant de mesurer notre variable dépendante, opérationnalisés.
***Cette étape est très importante car elle constitue le point de relais
entre la théorie et l’empirie***.
A la base de chaque recherche sont des questions théoriques. Mais le but
de la recherche est de tester les hypothèses formulées ainsi que le
modèle théorique plébiscité. Pour se faire, le chercheur agit sur deux
axes distincts :
- Il construit un ***dessin de recherche*** adapté et pertinent pour
sa recherche.
- Il ***opérationnalise*** tous les concepts afin de pouvoir les
mesurer.
- ***Ces deux composantes centrales de toutes recherche font donc le
pont entre la partie théorique et pratique***.
Dans toutes méthodes quantitatives, il faut toujours ***faire passer des
concepts au statut d’indicateur***, les mots au statut de chiffres.
Durant cette phase cruciale, il s’agit de concrétiser les concepts
théoriques imaginés en amont puisque ***les concepts théoriques
n’existent pas dans la réalité sociale \!*** Pour mesurer un concept
abstrait comme le racisme, le chercheur pose des questions préalablement
élaborées avec soin à des individus. En effet, demander directement aux
individus s’ils sont racistes ne produira, premièrement, pas de résultat
fiable à cause du biais de désirabilité sociale, mais surtout cette
question ne mesure pas le racisme, mais la possibilité d’exprimer le
racisme pour les individus. Ce travail de réflexion se fait en amont de
la recherche empirique afin qu’aucune maladresse ne puisse mettre en
péril la validité de la recherche.
## L’enjeux de l’opérationnalisation
L’opérationnalisation doit pouvoir permettre de tester ses hypothèses en
descendant dans l’échelle de l’abstraction. Les ***divers choix
effectués par le chercheur*** tout au long de sa recherche ont pour but
de conférer à la recherche un validité interne. Toutefois, aucun
résultat n’est accepté unanimement, justement à cause de ces choix
potentiellement discutables. De plus, il faut faire attention aux
erreurs de mesure pouvant remettre en question la validité de toute la
recherche. En effet, le chercheur doit réussir à ***combler de manière
adéquate le fossé existant entre théorie et empirie*** tout en prenant
en compte les ***différents niveaux d’abstraction*** de ses concepts.
Enfin, les données secondaires doivent être utilisées avec précaution,
l’indicateur devant parfaitement convenir à l’item étudié. En tant que
lecteurs, il faut toujours faire attention à la manière dont les
indicateurs sont sélectionnés.
« Les sociologues utilisent souvent des concepts qui sont formulés à un
niveau plutôt haut d’abstraction. Ils sont assez différents des
variables élaborées au niveau empirique. Le problème lié au fossé entre
la théorie et la recherche est celui de l’erreur de mesure ». (Blalock)
## Deux erreurs de mesure
Il existe ***deux types d’erreurs de mesure***, elle intervient soit au
***niveau théorique***, soit au ***niveau empirique***. Pour ce qui est
de la partie théorique, le chercheur doit faire attention à la validité
de sa mesure. Par exemple, conclure à une différence entre le pays X et
le pays Y sans prendre en compte les diverses techniques de contact
serait une erreur de mesure. De plus, le chercheur doit opérationnaliser
avec soin pour ne pas induire d’erreur au moment des mesures. Au niveau
empirique, la formulation des questions, la fiabilité des mesures ainsi
que la reproductibilité de la mesure doivent être considérés avec
attention pour ne pas induire d’erreur.
## Validité d’une mesure
***Pour qu’une mesure soit valide, elle doit utiliser des indicateurs
fiables permettant de mesure le concept étudié***.
- Exemple d’une mesure valide : Utiliser la fréquence de participation
aux votations et aux élections pour mesurer la participation
conventionnelle.
- Exemple d’une mesure non valide : Utiliser comme indicateur du
bien-être individuel le salaire de l’individu \!
Mais comment faire en sorte de ne produire des mesures valides ? Cela
tient grandement à la rigueur de la démarche mais aussi à la créativité
du chercheur. ***Lazarsfeld a standardisé un processus de déconstruction
conceptuelle en quatre temps*** à cet effet :
1. La première étape est conceptuelle : le chercheur part de concept
abstrait, non directement mesurables. Souvent polysémique, ***le
concept doit être défini précisément et de manière univoque***.
Cette étape est cruciale car pour obtenir des mesures fiables, il
faut être au clair avec le concept que l’on cherche à mesurer. Pour
se faire, le chercheur doit s’aider de la littérature pour combler
ses potentielles lacunes théoriques, mais aussi pour ne pas refaire
un travail qui aurait déjà été préalablement effectué. Par exemple,
le concept de compétence politique est défini de manière très variée
selon les chercheurs \! Pour Dahl, il s’agit de l’autonomie du
citoyen se structurant autour de la connaissance du champ politique
et de la verbalisation de préférences claires, pour Kriesi, il
s’agit de l’intérêt subjectif et objectif porté à la politique,
pour Gaxie, la capacité à se situer dans l’univers politique...
Ainsi, on voit que la définition du concept de base est cruciale.
2. La deuxième étape implique de ***spécifier les dimensions et les
sous-dimensions du concept étudié***. En effet, un concept est
toujours multidimensionnel. Ainsi, il s’agit d’identifier chaque
facette du concept étudié et d’en extraire le sens de chacune. Pour
les concepts simples, le chercheur décomposera son objet en
dimensions telles que l’âge, le sexe, le lieu de
résidence... Toutefois, les concepts complexes seront eux
décomposés en dimensions mais aussi en sous-dimensions pour rendre
compte de l’entier du phénomène. Mais attention, tout comme pour le
concept, chaque composante doit être définie précisément et
de manière univoque. Cette étape est très importante
puisqu’elle permet de ***descendre sur l’échelle de
l’abstraction***. Sur ce schéma, on voit comment Gaxie a décomposé
le concept de la participation politique, préalablement défini comme
la capacité de se situer dans l’univers politique.
3. La troisième et ultime étape de la partie de l’opérationnalisation
est celle de la ***sélection des indicateurs pertinents*** pour la
recherche. Chaque dimension du concept peut être représentée par un
ou plusieurs indicateurs. Un indicateur est une variable qui
elle-même correspond à une mesure qui provient elle-même d’une
question (Indicateur à Variable à Mesure à Question). Mais encore
une fois, pour ce faire, le chercheur doit préalablement avoir
parfaitement défini la (sous-)dimension en question. ***Un
indicateur est créé par le chercheur afin de lui permettre de
mesurer directement une dimension ou sous-dimension issue d’un
concept abstrait***. C’est pourquoi il est toujours bien de mesurer
un concept à l’aide de plusieurs indicateurs pour minimiser les
risques d’erreur. Mais ***l’agencement des différents indicateurs
sélectionnés par le chercheur doivent ensemble reconstituer le
concept \! Ainsi, le nombre d’indicateurs ne doit pas être trop
petit pour éviter tout effet discriminant***. Le chercheur doit donc
sélectionner les bons indicateurs conférant à sa recherche une
validité et une cohérence interne. Les deux questions ci-jointes
sont issues d’un sondage ayant pour but de mesurer l’islamophobie.
Toutefois, on remarque qu’elles consistent en de très mauvais
indicateurs \! Premièrement car le concept très complexe de
l’islamophobie est ici saisi au travers de seulement deux
indicateurs, mais aussi parce que la seconde question a grandement
influencé la réponse des femmes, voulant défendre leurs droits.
Ainsi, ***cette étape pose la question du nombre d’indicateurs
nécessaires pour rendre compte au mieux de la réalité mais aussi de la
manière de poser les questions pour que celles-ci suscitent les réponses
attendues***.
Ces trois étapes représentent l’opérationnalisation, pouvant être
définie comme une toujours plus grande descente dans l’échelle de
l’abstraction. Alors qu’elles interviennent en amont de la recherche,
avant la partie empirique, la quatrième étape du processus mis en place
par Lazarsfeld s’effectue en aval de la recherche, après la récolte des
données.
4. Enfin, c’est lors de la quatrième étape que le chercheur ***forme
ses indices***. Il s’agit pour le chercheur de reconstruire les
dimensions de ses concepts après la récolte des données. C’est
lors de cette étape que le chercheur crée des échelles d’indices,
lui permettant d’effectuer une analyse factorielle. Cette étape fait
le chemin inverse des trois précédentes puisqu’il s’agit de remonter
l’échelle de l’abstraction et ce, pour s’assurer que les indicateurs
pris rendent bien compte du concept premier.
## Sélection des indicateurs
### Ultime étape de l’opérationnalisation
Il faut se demander si on prend un ou plusieurs indicateurs pour une
dimension. Il faut identifier des indicateurs pour chacune de nos
dimensions puisque chaque dimension est mesurée par des indicateurs
précis. Pour faire un bon travail, on dépend du travail en amont (étape
1 et 2). Il faut être bien au clair sur le sens de la dimension et si le
sens reste ambigu, cela veut dire qu’il y a encore d’autres dimensions
qui se cachent derrière donc il faut revenir à l’étape 2. Ce n’est pas
un processus linéaire mais bien circulaire qui englobe des
allers-retours \!
Si la dimension est clair, il faut 2 clés :
- Notre inventivité et la tester
- Reprendre des mesures élaborées par d’autres chercheurs
Pour arriver à une validité interne, il faut plusieurs indicateurs. Il
faut des concepts latents. Toutefois, la relation entre indicateurs et
concepts reste probabiliste, c’est-à-dire qu’il ne couvre jamais
entièrement le concept. Un indicateur indique et ce n’est pas une
reproduction parfaite. Chaque indicateur doit avoir la même relation à
la dimension. Dans l’idéal, ils pourraient devenir interchangeables. En
théorie c’est facile mais pas en réalité. Un indicateur indique toujours
un aspect d’une dimension c’est pour cela qu’il en faut plusieurs. Si on
met ensemble tous les items d’une dimension, on peut reconstruire
empiriquement un concept.
La règle de base pour le choix des indicateurs : plus d’indicateurs
mieux c’est mais pas trop. Moins il y a d’indicateurs, plus on a d’effet
discriminant.
Exemple avec l’islamophobie : les chercheurs ont pris deux indicateurs
pour indiquer l’islamophobie ; autoriser les pratiques religieuses en
Suisse et le port du voile. Le problème avec le second indicateur est
que les femmes soient plus islamophobes. Mais au final, le sont-elles
vraiment ou est-ce un effet de mesure ? Dans ce cas, la multiplication
des indicateurs aurait été souhaitable surtout qu’ici, on est face à un
concept complexe.
Un 2<sup>ème</sup> effet discriminant est quand 2 indicateurs produisent
deux résultats différents. On est face à une discrimination voulue parce
qu’on veut créer de la variation entre individus.
**Comment éviter ou produire ces effets discriminants ?**
Avec des données primaires, on peut faire des pré-test tandis que pour
les données secondaires, il faut passer impérativement par l’analyse
descriptive avant de les mettre en relation. On va voir ainsi comment
notre variable est distribuée selon les réponses et cela va juger la
qualité de notre indicateur.
**En résumé**
Pour les concepts simples ou périphériques, un indicateur suffit. Par
exemple : l’âge, si ce n’est pas un concept clé dans notre recherche, un
indicateur suffit.
Pour les concepts complexes et centraux, il faut plusieurs indicateurs
comme la compétence politique. Attention à la variable dépendante \! Il
faut faire attention à l’opérationnalisation et on prend rarement le
risque d’avoir qu’un indicateur pour la variable dépendante. Pour les
causes principales, on prend rarement qu’un seul indicateur.
- Ainsi, l’opérationnalisation, c’est une descente dans l’échelle
d’abstraction \!
## Formation des indices
Elle se fait après la récolte des données au moment de l’analyse. La
formation d’indices et la reconstruction du concept à partir des
indicateurs. On va faire la synthèse des indicateurs pour chaque concept
et c’est une étape qui se déroule après la récolte des données au moment
de l’analyse. Concrètement, on construit une mesure unique à partir de
ces informations numériques car au moment de l’analyse, on veut
travailler avec nos concepts et tester nos relations causales. On
construit nos concepts à la base de plusieurs indicateurs et on peut
apprendre différentes techniques (additionner). Attention \! cette étape
de la formation des indices n’est pas toujours nécessaire. Si nos
indicateurs mesurent la même chose, on peut en prendre qu’un seul \!
Pour la formation des indices, on prend les résultats et on monte en
abstraction pour mettre nos concepts en relation.
Opérationnalisation a un intérêt vital pour la théorie car elle permet
d’avoir une implication de la théorie et de l’empirie en spécifiant
les cadres théoriques. Cela permet d’éviter les deux mesures majeures ;
la **fiabilité** et la **validité**. La validité de la fiabilité permet
de juger de la qualité de nos mesures. La validité est la manière dont
on juge l’opérationnalisation d’un point de vue théorique. Une mesure
non-valide est celle qui ne mesure pas le concept qu’on a voulu mesure.
L’idée de la validité est simple mais difficile à réaliser ; elle dépend
directement du travail d’opérationnalisation. S’il n’est pas fait de
manière rigoureuse, on a de fortes chances d’avoir des mesures
non-valides.
Exemple : mesurer la participation politique en suisse avec un
indicateur de participation, il manque le pan de votation ou le pan de
la participation protestataire.
## Deux erreurs de mesure
La fiabilité est liée à la formulation et l’élaboration des questions.
Double stimuli (inputs)
Imprécision (jamais de question avec un « ou »)
Jamais bien de supposer les pratiques mais directement les demandées
parce que si on le suppose, les gens pensent qu’ils sont censés le faire
et ne répondent pas comment c’est effectivement.
On voit que la validité se situe au niveau de l’opérationnalisation même
donc au processus qui lie les concepts aux indicateurs pendant que la
fiabilité regarde le lien entre les indicateurs et la question.
Conséquence de ces erreurs : introduisent des biais qui peuvent être
systématiques (confronté à un problème de validité), les biais
systématiques sont des erreurs qui ont une structure et ne sont pas
distribuées au hasard. Elles ne sont pas intégrées dans les analyses en
termes d’erreur. Le biais systématique implique souvent un problème de
validité même s’il y a des problèmes de fiabilité qui sont de cette
nature mais ils sont plus rares.
Lien entre fiabilité et visibilité : pour avoir une mesure valide, elle
doit être fiable mais le contraire n’est pas forcément le cas. La
fiabilité est une condition nécessaire mais pas suffisante pour juger de
la robustesse de la mesure.
Pour faire un bon travail d’opérationnalisation et maximiser la
validité, il faut des concepts clairs, une déconstruction maximale des
concepts on multiple les indicateurs pour éviter les effets
discriminants. Ce travail d’opérationnalisation est très important car
il nous permet de nous approche de la réalité.
# Méthode statistique : introduction
L’analyse de données est souvent décrite comme étant formée de deux
pôles :
- Statistiques *descriptives *: résumer ensemble de données, trouver
des astuces pour montrer des éléments importants sans regarder les
données unes à unes (résumé, graphique). Lorsqu’on va aller plus
loin, on s’appuie sur la partie descriptive, souvent visuel, pour
pouvoir émettre des questions. Puis, on pourrait peut-être faire des
liens entre les données et si tel est le cas, on va généraliser et
on va parler *d’ingérence statistique.*
## La statistique exploratoire (descriptive)
- Simples à comprendre
- S’appliquent à beaucoup de données (flexibles)
- Se basent sur des représentations graphiques
Elle étudie la « structure » de groupe de données, détecte les
tendances, les formes, les observations atypiques… Elle suggère des
*hypothèses de travail* et des modèles qui peuvent être formalisées et
vérifiées dans le deuxième pôle.
## L’inférence statistique
Elle conduit à des conclusions statistiques à partir de données en
utilisant des notions de la théorie des probabilités. Cette partie
s’occupe des méthodes de test et d’estimation.
Nous en tant qu’étudions, on est un échantillon de la population qui est
l’ensemble de la population de l’université de Lausanne. La statistique
référentiel part de l’échantillon puis on se demande si on peut
l’extrapoler à tous les étudiants mais dans une certaine mesure. Il
faut faire attention en indiquant la marge d’erreur (fiabilité de passer
à un sous-ensemble (échantillon) à une population complète). L’inférence
statistique, on va donner des notions de fiabilités, une mesure de
confiance, quelle est la confiance qu’on apporte dans l’extrapolation.
## Vocabulaire
| **Unité statistique** | Le plus petit sur lequel on porte l’analyse statistique |
| ------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Variable statistique** | Caractéristique d’une unité statistique |
| **Modalités** | Valeurs distinctes que prend une variable statistique ; différentes valeurs possibles prises par une variable statistiques. Par exemple la variable statistique cheveu et unité étudiant, on peut avoir plusieurs couleurs pas en fonction de la couleur de cheveux de notre échantillon. |
| **Population** | Ensemble sur lequel on porte une étude statistique ; ce sur quoi porte l’étude |
| **Echantillon** | Sous-ensemble de la population |
| **Paramètre** | Une mesure calculée sur la population entière |
| **Statistique** | Une mesure calculée sur un échantillon (tiré d’une population) |
# Niveaux d’analyse et graphiques : Analyse des données et interprétation
## Informations
L’analyse quantitative offre une multitude d’outils mais il faut
sélectionner les outils en fonction de notre recherche. D’autant plus,
on peut avoir beaucoup de données à disposition donc il faut à nouveau
les sélectionner. Le sujet de recherche qui nous intéresse peut être
relativement complexe et par conséquent, il faut passer par différents
schémas et trouver un résumé à cela. Ainsi, il y a beaucoup
d’informations, d’outils et d’hypothèses. On s’en sort en travaillant
méthodiquement et en allant du plus simple au plus complexe.
Exemple : les données EMS / Article ADL
Il s’agit d’une étude sur des personnes âgées dans les EMS et on
s’intéressait à connaître leur activité journalière (question
genrée). Question : qu’est-ce qui impacte les activités journalières de
ces personnes âgées ? Est-ce que c’est l’âge, une forte corrélation avec
le genre ? Comment l’analyser ?
##
## Niveaux d’analyse
Une analyse de données doit toujours aller du plus simple au plus
compliqué :
- Analyse **univariée **: on ne regarde qu’une variable et on
l’explique
- Analyse **bivariée **: on regarde deux variables (qui peuvent être
en relation) ; est-ce que le genre est associé au niveau d’activité
des personnes ?
- Analyse **multivariée** **(modèle final) **: On teste les relations
entre plusieurs variables pour obtenir un modèle qui va essayer
d’intégrer les autres variables nous paraissant pertinent. Le
modèle final ne signifie pas qu’on prend toutes les variables mais
on va sélectionner les meilleurs apports pour expliquer.
- Chaque étape est liée dans le sens où elle apporte des informations
pour continuer à l’étape suivante.
Exemple : article ADL
- Analyse univariée : table 1, colonné « Overall % »
- Analyse bivariée : Table 1, colonne « Male % », « Females % » et
« p » : mise en relation de chaque variable avec le genre afin de
déterminer si la distribution de la variable est associée au genre
ou non.
- Analyse multivariée : Table 6.
## Variables et modalités
Une *variable* est une caractéristique d’une unité statistique. Elle est
créée par la réponse donnée à une question. La variable « nationalité »
est créée en réponse à la question « quelle est votre nationalité ? ».
Les différentes « valeurs » possibles d’une variable, qu’elles soient
numériques ou non, constituent ses *modalités*.
### Types de variables
Il existe différents types de variables. Une classification habituelle
utilise les 4 catégories suivantes :
1. **Variables qualitatives – catégorielles** :
1. <span class="underline">Nominales </span>: couleur des cheveux
(pas un nombre \!)
2. <span class="underline">Ordinales </span>: il n’y a pas d’ordre
parce que la couleur brune ne peut être supérieur à la couleur
blonde. Lorsque je peux introduire un ordre (mauvais, moyen,
bon, très bon), je vais les appeler les variables catégorielles
ordinales.
2. **Variables quantitatives – numériques **:
1. <span class="underline">Discrètes </span>: on peut les compter
(décimal)
2. <span class="underline">Continues </span>: on peut avoir toutes
les valeurs possibles sur un certain intervalle. Ce sont des
variables comme le poids, la taille, la distance (toutes valeurs
possibles mêmes avec virgule).
- Outils à disposition dépend du type de variable \! Certains outils
sont polyvalents mais la plupart du temps, on fait attention.
Exemple : article ADL
- Genre : variable qualitative nominale (dichotomique) ; il n’y a pas
une notion d’ordre
- Vision (taux de vision) : valeur ordinale parce que ce sont des
modalités entre mauvais, moyen, bien, très bien.
- Années d’entrées en EMS : variables discrète (peu d’années d’entrée)
- MSD- ADL, long term scale : peut être considérée comme une variable
continue
### Echelles d’intervalle et de rapport
Les variables numériques sont parfois aussi catégorisées comme échelles
d’intervalle et échelles de rapport. Comme dans la définition
précédente, les écarts séparant les valeurs successives d’une échelle
sont tous égaux. La différence entre intervalle et rapport réside dans
le rôle du zéro :
- **Echelle intervalle **: Il n’y a pas de zéro absolu : son choix est
une convention arbitraire.
Exemple : température en degré Celsius.
- **Echelle de rapport **: Il y a un zéro absolu, non-arbitraire.
Exemple : Température en degrés Kelvin. Evaluation d’un trait
psychologique sur une échelle de 0 à 10. Temps de réaction.
### Distributions et fréquence
- La **distribution d’une variable** est la liste de toutes les
modalités (ou catégories de modalités) d’une variable avec leurs
fréquences respectives.
- La **fréquence d’une modalité** (ou effectif) est le nombre de
personnes prenant cette modalité dans l’échantillon ou dans la
population.
- La **fréquence relative d’une modalité** est la proportion des
données prenant cette modalité. Elle est exprimée soit sur une base
de 100 (pourcentage) soit sur une base de 1.
### Analyse univariée
L’analyse univariée cherche avant tout à déterminer deux
caractéristiques de la distribution d’une variable :
- Le centre (tendance centrale)
- La dispersion (variabilité)
Pour cela, deux catégories d’outils sont mobilisées :
- Les graphiques
- Les résumés numériques
## Graphiques
### Généralités
Un graphique statistique doit représenter le plus fidèlement possible la
distribution d’une variable. **Principe de proportionnalité** : chaque
modalité est représentée par une surface proportionnelle à la fréquence
(relative) de cette modalité (si on augmente la taille, il faut prendre
garde à mettre en rapport la proportionnalité). Pour qu’un graphique
soit de bonne qualité, les points suivants doivent être considérées :
- Clarté
- Précision
- Bien documenté (titre, légende)
- Respect du principe de proportionnalité
## Principaux types de graphiques
Graphiques pour données catégorielles :
- Graphique en barres
- Graphique circulaire
Graphiques pour données numériques :
- Histogramme
- Diagramme en ligne (pour série temporelle)
- Box-plot (basé sur des résumés numérisés)
Graphiques pour la relation entre deux variables :
- Carré unitaire (variables catégorielles)
- Diagramme de dispersion (variables numériques)
### Graphique en barres
Chaque modalité est représentée par une barre dont la hauteur est
proportionnelle à la fréquence (relative) de la modalité. Chaque barre a
la même largeur et est souvent séparée des autres barres par un espace.
Dans le cas d’une variable ordinale, les modalités doivent être placés
dans l’ordre sur le graphique. C’est le graphique à tout faire de la
statistique. Il peut s’adapter pratiquement à n’importe quelle variable
(salaire médian, taux de chômage, violence domestique…)
### Graphique circulaire
Un cercle ou un demi-cercle est découpé en autant de secteurs qu’il y a
de modalités à représenter. La surface de chaque secteur est
proportionnelle à la fréquence (relative) de la modalité qu’il
représente. Ce type de graphique est particulièrement adapté à la
représentation de distributions de pourcentages (répartition des
travailleurs étrangers en Suisse…).
### Histogramme
L’histogramme est le graphique type pour les variables numériques. Les
modalités de la variable sont au préalable réparties en nombre fini de
classes. Il n’y pas d’écart entre les classes : la valeur finale d’une
classe est la même que la valeur initiale de la classe suivant. La
classe à laquelle appartiennent réellement ces valeurs limites est
choisie arbitrairement. Les différentes classes sont placés sur l’axe
horizontal du graphique et un rectangle dont la surface est
proportionnelle à la fréquence (relative) de la classe est construit
au-dessus de chaque classe.
### Classes de l’histogramme
De manière générale, le nombre de classe ne devrait pas être plus grand
que \(\sqrt{n}\) où *n* est le nombre d’observations. Il y a 2 grandes
principes pour déterminer les classes :
1. Toutes les classes ont la même amplitude (largeur).
- On divise l’étendue des données par le nombre de classe désiré.
2. Toutes les classes ont la même fréquence.
- On ajuste les limites des classes pour que le nombre d’observations
soit assez similaire d’une classe à l’autre.
- **Un histogramme s’interprète en termes de surfaces et non de
hauteurs \!**
### Diagramme en ligne
Le diagramme en ligne permet de représenter l’évolution au fil du temps
d’une variable numérique. La référence temporelle est placée sur un axe
(généralement l’axe horizontal) et les valeurs observées sont placées
sur l’autre axe. Les points représentants chaque observation sont reliés
de manière à mettre en évidence l’évolution dans le temps.
# Analyse univariée : Analyse des données et interprétation
## Introduction
### Caractéristiques d’une distribution
- Les deux caractéristiques essentielles d’une distribution univariée
sont :
- La tendance centrale
- La dispersion
D’autres caractéristiques peuvent se révéler importantes :
- La symétrie
- L’aplatissement
Les résumés numériques sont l’outil le plus utilisé pour analyser ces
caractéristiques (minimum, maximum, milieu). Comment jouer là-dessus
pour mieux décrire la distribution ?
### Relation entre centre et dispersion
Les notions de tendance centrale et de dispersion sont indissociables,
car la connaissance de l’une sans l’autre peut amener à des confusions
et des erreurs d’interprétation.
### Résumés numériques
Un résumé numérique (ou chiffre clé) est une statistique résumant par
une seule valeur une notion complexe. Un bon résumé numérique devrait
avoir les caractéristiques suivantes (conditions de Yule) :
- Etre objectif
- Tenir compte de toutes les observations
- Avoir une signification concrète, être simple à interpréter.
- Etre simple à calculer
- Etre peu sensible aux fluctuations de l’échantillonnage : si on
prend deux échantillons différents, on aura des valeurs différentes.
Comment faire pour qu’elles soient moins différentes ?
- Se prêter à des calculs algébriques ultérieures : on aime bien
travailler avec la variance mais en termes d’interprétation, on
préfère travailler avec l’écart-type.
## Tendance centrale
### Mode d’une distribution
Le mode d’une distribution est la modalité la plus fréquente de
celle-ci. Le mode peut se calculer sur n’importe quel type de variable.
Il n’est pas intéressant pour des variables prenant un grand nombre de
modalités différentes.
**Le mode n’est pas forcément unique et il ne représente pas forcément
le centre \!**
Exemple : échantillon de 30 personnes (4, 4, 8, 12, 15, 32, 40 etc). Le
mode de la distribution est la valeur de 40 heures, c’est-à-dire la plus
grande valeur observée \!
### Médiane
Dans le cas des salaires, une moyenne a l’habitude d’être sensible aux
données extrêmes et donc elle aurait la tendance d’aller vers les
salaires élevés.
La médiane d’une distribution est la valeur telle que 50% des données
sont plus petites qu’elle et 50% des données sont plus grande qu’elle.
Elle ne se calcule que sur des variables dont les modalités ont un ordre
(ordinales ou numérique).
Trois étapes pour le calcul :
1. Classer les observations par ordre croissant
2. Calculer le rang (position) de la médiane :
> rang (med(x)) = **<span class="underline">n + 1</span>**
>
> **2**
3. Trouver la médiane
**Si le rang n’est pas entier, la médiane est la moyenne de deux
observations entourant le rang de la médiane \!**
Exemple : nombre d’heures hebdomadaires de travail
**Rang de la médiane **: 
La médiane est la moyenne entre les 15<sup>ème</sup> et 16<sup>ème</sup>
observations par ordre croissant : 
### Moyenne arithmétique
La moyenne arithmétique se calcule comme :

- La moyenne ne se calcule que sur de vraies variables numériques. Une
variable catégorielle recodée sous forme numérique n’est une vraie
variable numérique \!
Exemple : nombre d’heures hebdomadaires de travail
### Médiane VS moyenne

La médiane est une notion de centre par rapport au nombre de données,
alors que la moyenne est une notion d’équilibre.
Par ailleurs, la médiane est robuste (insensible aux données extrêmes =
ne change pas), alors que la moyenne est non-robuste (facilement
influencée par les données extrêmes).
Exemple : salaire mensuel en France
Données du 4<sup>ème</sup> trimestre 2013 en France dans le secteur
privée. Typiquement, il y a quelques salaires qui sont excessivement
élevés faisant en sorte d’élever la moyenne des salaires tandis que la
médiane n’est pas influencée par des éléments externes.
## Dispersion
### Qu’est-ce que la dispersion ?
La dispersion est une notion de répartition des observations les unes
par rapport aux autres. Plus la dispersion est grande, plus observations
différentes les unes des autres. Telle que vue dans ce cours, la
dispersion s’applique avant tout aux variables numériques, mais il
existe une mesure de dispersion adaptée aux données catégorielles :
l’entropie. C’est un terme venant de la théorie de l’information.
### L’étendue d’une dispersion
Le minimum et le maximum représentent les valeurs limites d’une
variable. Ils n’existent pas lorsqu’une variable peut prendre des
valeurs allant jusqu’à plus au moins l’infini. On peut distinguer entre
le minimum et le maximum théoriques d’une variable et les valeurs
minimales et maximales réellement observées.
Exemple : nombre d’heures hebdomadaires de travail
Sur l’échantillon considéré, le minimum vaut 4 heures et le maximum 40
heures. Sur un plan théorique, le minimum possible pour cette variable
est de 0 heure et le maximum est de 168 (nombres d’heures possibles par
semaine), même si cette dernière valeur ne sera que difficilement
atteinte. Dans cet exemple, la valeur maximale théorique peut aussi
dépendre des lois en vigueur dans le pays considéré.
### Quartiles
Les quartiles complètent la médiane en divisant le nombre de données en
4 groupes plutôt que 2. Le premier quartile noté q1 et tel que 25% des
données sont plus petites que lui. Le troisième quartile noté q3 est tel
que 75% des données sont plus petites que lui. Le calcul des quartiles
se fait comme celui de la médiane, mais les rangs (positions) se
calculent comme suit :

Si les rangs ne sont pas des nombres entiers, on approxime la valeur des
quartiles par interpolation linéaire.
### Définitions
Pour l’interpolation linéaire, il faut introduire de nouvelles
définitions :
Considérons une seule variable mesurée sur *n* observations

**Définition **: La statistique d’ordre d’un échantillon est donnée par
les valeurs de l’échantillon ordonnées de la plus petite à la plus
grande. Elle est notée : 
**Définition **: Le quantile d’ordre est une
valeur telle que % des données sont inférieures
et (100 - )% des données sont supérieures.
**Les quartiles sont donc les quantiles d’ordre 25 (1<sup>er</sup>
quartile), 50 (médiane) et 75 (3<sup>ème</sup> quartile)**
###
**Calcul d’un quantile**
1) Ranger les données par ordre croissant (=statistiques d’ordre)
2) Calculer le rang *r* = 
3) Trouver la valeur correspondante au rang :
1. Si *r* est entier, il s’agit de la r-ième valeur (des
statistiques d’ordre)
2. Si *r* n’est pas entier, la valeur est :

Notation : Si \[r\] et \[r\] désignent respectivement la partie entière
inférieure et supérieure de *r*.
###
### Boxplot
Le boxplot, ou résumé à 5 valeurs, est un graphique simplifié de la
distribution d’une variable.

Entendue : différence entre maximum et minimum (sur quelle plage nos
données sont distribuées)
Ecart interquartile : différence entre le 1<sup>er</sup> et le
3<sup>ème</sup> quartile : lorsque j’ai éliminé de mes données les 25%
des plus petites et grandes, j’ai toutes les données comprises entre le
1<sup>er</sup> et le 3<sup>ème</sup> quartile.
### Schematic plot
C’est une variante du boxplot dans laquelle les données extrêmes
(petites et grandes) ne sont pas intégrées dans le graphique, mais sont
représentées séparément. Dans certains cas, les données extrêmes sont
même totalement absentes du graphique.
### Variance
La variance est la moyenne de la somme des carrées des écarts à la
moyenne.
La variance est calculée comme :
| **Population** | **Echantillon** |
| ------------------------ | ------------------------ |
|  |  |
La variance prend des valeurs allant de 0 à l’infini. La valeur 0
indique une totale absence de variation : toutes les valeurs observées
sont identiques. Plus la variance est grande, plus les valeurs sont
dispersées, c’est-à-dire différentes les unes des autres. La variance ne
s’exprime pas dans la même unité que les données observées.
- Elle est difficilement à interpréter / trouver mathématiquement mais
difficile à interpréter empiriquement.
### Ecart-type
L’écart type est défini comme la racine carrée de la variance :
| **Population** | **Echantillon** |
| ------------------------ | ------------------------ |
|  |  |
Il s’interprète de manière similaire à la variance mais avec l’avantage
de s’exprimer dans la même unité que les données observées. L’écart-type
représente la distance typique que l’on s’attend à observer entre
n’importe quelle donné de l’échantillon et la moyenne de celui-ci.
### Coefficient de variation
Le coefficient de variation est une mesure de dispersion relative,
utilisée pour décrire la précision d’une valeur estimative.
- La valeur et l’écart-type ont le désavantage d’être influencés par
l’ordre de grandeur des données observées.
- Le coefficient de variation est une mesure de **dispersion
relative**, indépendant de l’unité de mesure :

- Il permet de comparer la dispersion de variables mesurées dans des
unités totalement différents les unes des autres.
Exemple : nombre d’heures hebdomadaires de travail
<table>
<thead>
<tr class="header">
<th>Vu comme</th>
<th>Une <strong>population</strong></th>
<th>Un <strong>échantillon</strong></th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>Moyenne</strong></td>
<td><img src="./media/image19.emf" style="width:0.69068in;height:0.26111in" /></td>
<td><img src="./media/image20.emf" style="width:0.66597in;height:0.24447in" /></td>
</tr>
<tr class="even">
<td><strong>Variance</strong></td>
<td><p><img src="./media/image21.emf" style="width:2.75625in;height:0.27022in" /><img src="./media/image22.emf" style="width:0.86042in;height:0.24583in" /></p>
<p><img src="./media/image23.emf" style="width:0.94375in;height:0.16154in" /></p></td>
<td><img src="./media/image24.emf" style="width:0.86736in;height:0.17347in" /></td>
</tr>
<tr class="odd">
<td><strong>Ecart-type</strong></td>
<td><img src="./media/image25.emf" style="width:1.9125in;height:0.27945in" /></td>
<td><img src="./media/image26.emf" style="width:0.74236in;height:0.19987in" /></td>
</tr>
<tr class="even">
<td><strong>Coefficient variation</strong></td>
<td></td>
<td><img src="./media/image27.emf" style="width:0.88958in;height:0.35583in" /></td>
</tr>
</tbody>
</table>
# Collecte des données : Introduction Enjeux de la collecte et types de données
On laisse derrière nous le pôle méthodologique où on a établi un dessin
de recherche adéquat et on a opérationnalisé nos concepts afin de le
rendre réalisable. On va porter notre attention sur la récolte de
données individuelless en passant par le sondage qui sera l’outil
principal.

L’enjeu principal dans la récolte de données est d’arriver à être
systématique. Les données sont des éléments d’information qui sont
récoltés de façon systématique que ce soit sous forme quantitative ou
qualitative. Ceci est également exprimé dans la citation de King et
all. :
« Data are systematically collected elements of information about the
world ». (1994)
## Enjeux de la collecte de données
### Récolte systématisée
Il est nécessaire de trouver des supports qui permettent une telle
systématicité et d’éviter des biais potentiels. Par exemple, si on veut
connaître le volume de participants aux manifestations de rue, on se
rend compte que les chiffres varient selon la source (police,
organisateurs de la manifestation, médias). Il existe toujours
différentes stratégies possibles pour en rendre compte sauf qu’il est
important de justifier notre choix de source de données.
Une stratégie pour faire une collecte systématique est de prendre
systématiquement la même source d’information. Une autre serait de
faire une moyenne des sources disponibles. Le point essentiel est
d’avoir toujours le même indicateur dans l’espace et dans le temps
sinon la collecte n’est pas systématique. Ceci est facile en théorie
mais en pratique, ce n’est pas toujours possible. Dans la pratique, il
faut essayer de minimiser deux types de biais :
- Biais aléatoires ou structurels
- Biais systématiques : variations structurelles
Exemple : nombres de participants dans une manifestation
Si on prend comme source les chiffres de la police, on est confronté à
un biais systématique, c’est-à-dire une tendance à sous-estimer le
nombre de participants. Si on prend comme source les chiffres des
organisateurs d’une manifestation, on est aussi confronté à un **biais
systématique** et il y a une surestimation du nombre de participants.
Par contre, si on prend comme source les chiffres des médias, on risque
d’avoir un **biais aléatoire**, c’est-à-dire une fois une sous et
l’autre fois une surestimation. On est confronté à des variations
aléatoires qui ne sont pas systématiques et qui sont dues à un problème
de fiabilité de la mesure. Ainsi, il faut changer l’indicateur pour
éviter des résultats non fiables.
### Objectifs
Pour avoir des données de bonnes qualités, on doit se fixer comme
objectifs de récolter des données de manière systématique. Il faut
**éviter les biais aléatoires** puis **identifier les biais
systématiques** et les prendre en compte dans l’analyse des résultats.
Dans la recherche comparative, pour éviter les biais aléatoires, il faut
garder le même support ou le même indicateur. On parle notamment de
*critères* et *indicateurs* *invariants*, c’est-à-dire des indicateurs
qui ne changent pas dans le temps et l’espace.
Pour évaluer la classe sociale dans laquelle un ménage se trouve, on
peut utiliser plusieurs indicateurs. Certains indicateurs (possession
d’une télévision en couleur) ont été créés vers 1980 sauf est-ce qu’il
faut le garder, le supprimer ou le modifier ? Dans un panel, on veut
toujours garder les mêmes indicateurs pour éviter des biais aléatoires
mais ceci n’empêche pas l’introduction d’autres problèmes de mesure
comme dans cet exemple. Les biais aléatoires et systématiques sont un
enjeu dans le temps, comme dans le panel, mais d’autres exemples peuvent
être trouvés dans la comparaison entre pays comme le taux de chômage qui
peut être mesuré selon des critères différents dans l’espace.
Particulièrement dans la recherche comparative, on est dans le besoin
de combiner différentes bases de données pour comparer la population.
Exemple : la controverse autour du votant américain
Cette controverse se jouait par beaucoup de publications (1960-2000)
mais notamment autour de deux ouvrages, à savoir *The American Voter* et
*The Changing American Voter*. Le modèle de Michigan a été critiqué 16
ans après par le second ouvrage sauf que ce sont des différents
indicateurs qui ont été pris pour formuler la critique. Donc le second
ouvrage a lui-même été critiqué.
### Qualité des données
Pour obtenir une qualité des données, il faut trouver les biais. Il est
notamment nécessaire de **cerner les biais potentiels**. Il faut
toujours être l’affût de ce problème sinon on pourrait être confronté à
un *artefact statistique* qui est un faux résultat puisqu’on n’a pas
utilisé les bons indicateurs ou on a oublié de regarder les relations
avec des variables concurrentes.
La règle d’or est de **maximiser la validité** **des mesures** et de
**maximiser** **la** **fiabilité des mesures**. Au moment de
l’opérationnalisation, on peut maximiser la validité des mesures. Il
est impératif d’être scrupuleux dans l’opérationnalisation de nos
concepts et de prendre plusieurs indicateurs pour les concepts clés.
Par exemple : une mesure du chômage pour évaluer l’état de l’économie
Il faut être conscient et transparent sur les limites potentielles de
nos mesures. Le taux de chômage peut être corrélé à l’état de l’économie
sauf qu’ils ne sont pas synonymes.
Une fois que la validité est assurée, il faut également s’assurer que
nos mesures sont fiables. Ce contrôle se fait au moment de la sélection
des indicateurs et on évalue si la mesure produit le même résultat dans
l’espace et dans le temps. Une technique pour s’en assurer est de
reprendre des mesures existantes qui ont déjà été testées. On va
également essayer de collecter un maximum de données, notamment pour
les variables dépendantes et indépendantes centrales. Dans la réalité,
ceci se fait toujours sous contrainte de temps et il faut trouver un
équilibre dans l’idée de maximiser des informations sur les choses qui
nous intéressent.
Dans une recherche sur l’opinion publique, 4 indicateurs sur
l’environnement ont été choisis. Dans cet exemple, on peut s’imaginer
que chaque indicateur mesure quelque chose de légèrement différent et
cela pourrait générer des résultats différents. Pour augmenter la
robustesse des analyses, il faut analyser chaque indicateur avant de
développer des résultats. Généralement, plusieurs indicateurs nous
permettent de renforcer la consistance de la recherche car plus
d’indicateurs vont dans la même sens, plus notre résultat est robuste
et le teste de notre analyse n’est pas due au hasard.
### Anticiper les problèmes
Si on est systématique et qu’on veille à une bonne qualité de données,
on devrait être capable d’anticiper les problèmes avant la collecte des
données et donc **de les déjoués en amont**. Ces problèmes sont propres
à chaque recherche.
Par exemple : il faut être conscient qu’on aurait pour chaque recherche
des populations sous-représentées tel que les jeunes.
Un autre problème dont il faut être conscient est la
<span class="underline">fiabilité des codeurs</span>, c’est-à-dire que
si on analyse les articles dans la presse, on utilise plusieurs codeurs
pour déterminer la chose dont ils parlent. Il faut s’assurer et mettre
des stratégies en place pour que chaque personne identifiée les sujets
de la même manière.
Il faut toujours voir s’il y a des <span class="underline">différences
linguistiques</span> dans une variable (confidence – trust / pas de
distinction en français).
Si on regarde dans la temporalité, on pourrait avoir des
<span class="underline">données manquantes</span> comme c’est le cas
lors de la 2<sup>ème</sup> guerre mondiale. Faut-il écarter ce temps de
notre analyse ou en d’autres termes, comment le gérer ?
- Si on anticipe les problèmes avant la collecte, on peut trouver les
problèmes en amont.
### Réplicabilité
Répliquer des études quantitatives est difficile mais en répliquant le
processus de données, on diminue cette difficulté. C’est le cas avec
*The American Voter* où on reprend les données actuellement mais on ne
le réplique pas entièrement. Il est nécessaire de tenir un journal de
bord sur le processus de récolte de données puisqu’on aura une
transparence sur le processus de récolte. Cela va nous permettre
d’expliquer comment on a procédé dans les détails et les problèmes
qu’on a rencontré au fil de notre recherche. Cela nous permet aussi
d’identifier les biais qui se sont introduits. Si on prend compte de
ces biais au moment de l’analyse et de l’interprétation des résultats,
on peut augmenter la qualité de nos résultats. Un journal de bord est
aussi utile pour éviter les artefacts statistiques. Les métadonnées sont
des données sur nos données comme par exemple expliquer comment s’est
passé notre entretien. Le journal de bord et les métadonnées permettent
d’expliciter le processus de récolte de données.
- Pour avoir une bonne qualité de données, il faut :
1. Etre systématique et éviter les biais
2. S’assurer de la validité et de la fiabilité de nos données
3. Essayer d’anticiper des problèmes
4. Permettre la réplicabilité le plus possible
## Différents types de supports
Beaucoup d’informations peuvent être trouvées sur des supports textuels
comme des interventions parlementaires. Un **support textuel** majeur
est la presse ou les médias plus généralement pour saisir les débats
publics comme la migration pour évaluer la structure des débats avant
des élections par exemple. Ces exemples devraient montrer qu’il existe
pleins de données textuelles qui peuvent être converties en données
chiffrées.
Ceci est également le cas pour des **données orales** pouvant venir de
la TV, de la radio, d’internet etc.
En plus des supports textuels et oraux, il y a la technique **d’enquêtes
par questionnaire** qui implique de récolter des données directement
auprès des acteurs. C’est une technique fortement standardisée
puisqu’elle est très utilisée en science sociale. Néanmoins, ce n’est
pas la seule technique pour collecter des données.
### Créativité et imagination
Il n’est pas facile de récolter des données en raison de la
non-disponibilité ou de la difficulté d’accès à des supports de
collecte. On nous apprend des outils de base dans ce cours mais il faut
compter sur notre créativité et notre imagination. La recherche de
Zuccato a proposé d’analyser les eaux usées pour déterminer le taux de
cocaïne que les gens prennent.
Il existe différents processus de récolte de donnée et donc différents
types de données qui ont par conséquent différentes types d’application.
## Différents types de données
### Primaires vs secondaires
Il faut toujours réfléchir si on veut récolter des données primaires ou
utiliser des données secondaires. Les **données** **primaires** sont les
données que le chercheur récolte lui-même et elles sont spécifiques à
une recherche. Ses <span class="underline">avantages</span> sont
nombreux et substantiels :
- Elles sont le fruit d’un dessin de recherche qui correspond à la
problématique de la recherche.
- Ce sont des données dont la chercheuse a besoin et elles sont
adaptées pour répondre à la question de recherche et pour tester
les hypothèses.
- On peut partir du postulat que la validité est bonne et que les
indicateurs sont adéquats.
La raison pour laquelle les chercheurs n’utilisent pas ce type de
données est qu’il y a des **désavantages** considérables. Ce type de
données est coûteux en temps en argent. De plus, on peut ne pas avoir la
formation requise pour bien récolter les données primaires.
A cause de ces désavantages, les chercheurs utilisent des **données
secondaires**, à savoir des données récoltées par d’autres chercheurs.
Leurs **avantages** sont qu’elles :
- Soient disponibles et il n’y a pas de coût ni en temps, ni en argent
ni en formation.
- Elles permettent de faire des comparaisons plus facilement.
Sauf que leur **désavantage** est que ce sont des données qui :
- Ne sont pas toujours adaptées à notre recherche.
- On n’a pas toujours les bons indicateurs
- On est plus confronté à des problèmes de validité.
- La récolte de données peut comporter des biais qu’on ne connaît pas
forcément.
- Question : Comment choisir entre ces deux types de données ?
Avant de se lancer dans une collecte de données, il faut s’assurer qu’il
n’existe pas des données secondaires utilisables. Et si c’est le cas, on
peut essayer d’améliorer certains indicateurs en combinant les indices.
On privilégie les données secondaires dans la mesure où elles sont
adaptées. Sauf qu’il faut être attentif aux problèmes de validité des
mesures. Il faut également bien regarder les métadonnées parce qu’elles
nous donnent beaucoup d’informations.
### Exhaustives vs échantillonnées
Les **données exhaustives** sont les données collectées par l’Etat. Ce
sont des données sur l’ensemble de la population qui suppose une
énumération complète comme pour les recensements de la population ou
pour saisir le flux de migrants. L’avantage principale de ces données
apparaît dans son nom puisque l’exhaustivité implique qu’il n’y a pas de
bais en termes de représentativité donc il n’y aurait pas d’erreur
d’échantillonnage. Toutefois, elles ne sont **pas forcément de bonne
qualité** :
- Par exemple, si c’est la police qui collecte des données sur la
violence, ce sont eux qui déterminent les indicateurs et ce n’est
pas forcément en cohérence par rapport à notre recherche. Donc
l’exhaustivité n’est pas assurée \!
- De plus, ces données contiennent très peu de variables différentes.
- Elles coûtent au niveau de l’argent et au niveau de la lourdeur de
la collecte
- Recensements sont en voie de disparition
Dans la plupart des cas, on travaille avec des **données
échantillonnées** qui sont des données tirées d’une portion de la
population appelée la « population mère ». Ce peut être la population
suisse, des éditions de journaux etc. L’idée d’utilisée un échantillon à
la place d’une population est une idée révolutionnaire. Cela consiste à
prendre un échantillon représentatif de l’ensemble de la population. A
partir de cet échantillon, on fait des inférences statistiques sur la
population qu’elle représente. C’est Kiaer qui a eu cette idée au
19<sup>ème.</sup> Ce type de données ont des **avantages**
puisqu’elles :
- Augmentent les possibilités de collecte de données dans plusieurs
domaines.
- Augmentent la faisabilité des recherches
- Rendent le travail de recherche plus facile.
- En plus de cette flexibilité, elles nous donnent une plus grande
importance en tant que chercheur puisqu’on dépend moins de l’Etat.
Ceci ne veut pas dire qu’on est complètement indépendant puisque les
recherches coûtent cher.
- La majorité des outils techniques a été élaborés pour ce type de
données. Finalement, ce type de données permet une gestion plus
facile des données car on a un plus petit fichier de données.
Les **désavantages** sont que :
- Les chercheurs nécessitent une expertise puisque la sélection de
l’échantillon est un vrai enjeu car il faut assurer la qualité et
la représentativité des inférences.
- De plus, chaque échantillon est confronté à la question de la
représentativité. Cela signifie qu’il y a généralement une
structure dans les non-réponses qui rend l’échantillon non
représentatif.
- Question : comment choisir entre ces deux types de données ?
On privilégie les données échantillonnées à cause de leur flexibilité.
On opte pour l’exhaustivité pour de petites populations. Dans les deux
cas, il faut être attentif. Pour les données exhaustives, même si elles
sont appelées comme ça, il faut toujours faire attention au biais de
sélection. Ceci se fait par exemple sur les groupes qui sont sondées ;
les migrants, oui mais lesquels ? Pour les données échantillonnées, il
faut toujours analyser la qualité et le taux de non-réponse pour avoir
une bonne représentativité.
### Individuelles vs agrégées
La différence majeure est l’unité d’analyse sur laquelle on collecte des
informations. Les **données individuelles** collectent des données sur
les individus comme pour la participation politique, les valeurs ou les
aptitudes. L’unité d’analyse sont les individus avec leurs
caractéristiques. Cela permet d’analyser la variation, c’est-à-dire la
différence entre les individus.
Les **données agrégées** sont des données sur des agrégats tels que des
Etats, des villes, des quartiers, des organisations. Ces données sont
utilisées au niveau macro comme pour l’analyse spatiale du politique. Ce
sont les caractéristiques des régions par exemple et pas des individus
qui y habitent. Par contre, la logique analytique des données agrégées
est partagée avec celles des données individuelles ; la logique d’étude
des variations sauf que c’est entre les agrégats et pas les individus :
Est-ce que la taille des communes a une influence sur la participation
électorale ?
### Erreur écologique
Il est important de distinguer ces deux niveaux pour ne pas faire des
erreurs écologiques.
Au niveau individuel, on peut trouver empiriquement que les individus
avec des difficultés financières tendent à voter à gaucher mais cela ne
signifie pas qu’en période de crise, les partis de gauche ont les scores
les plus élevés. Si on confond le niveau macro et micro, on fait une
erreur écologique.
On peut distinguer entre hypothèses et données. Les deux peuvent être de
niveau <span class="underline">individuel</span> ou
<span class="underline">agrégé</span>. Tant qu’on teste les hypothèses
avec les données récoltés au même niveau, il n’y a pas de problème.
L’erreur écologique consiste à analyser les hypothèses avec les
données récoltes qui ne sont pas du même niveau (agrégé avec
individuel). En d’autres termes, c’est le fait de tester des hypothèses
au niveau individuel avec des données agrégées. Ou encore, le fait
d’analyser des propriétés individuelles inférées sur la base
d’observations faites au niveau agrégé.
Exemple : l’étude de Pisa a trouvé que la Suisse est forte en
mathématique mais cela ne signifie pas que tout écolier est fort en
mathématique. Il y a ainsi une forte variance et donc pas
d’homogénéité \!
A l’origine de cette erreur, il y a l’étude de W. Robinson qui
s’intéresse au lien entre le taux d’analphabétisme et le taux
d’immigré dans un Etat américain.
### Conclusion
Il faut faire attention à l’unité d’analyse de la recherche \! On peut
agréger des données individuelles mais l’inverse n’est pas possible \!
Une manière pour combiner les deux niveaux sont les analyses
multiniveaux qui est une analyse poussée mais même ici, on conserve
chaque niveau séparément. On analyse la relation à un niveau en étant
sous le contrôle de l’autre. Néanmoins, on analyse toujours les
interactions entre les différents niveaux.
# Elaboration d’un questionnaire standardisé : Principes généraux
## Construction d’un questionnaire
***L’enjeu principal autour de la construction d’un questionnaire est la
fiabilité des mesures***. En effet, Kalton et Moser explique bien «
qu’aucun sondage ne peut être meilleur que son questionnaire ».
***Chaque question correspond à une mesure devant être utilisable pour
répondre à nos hypothèses premières***. Pour la recherche, on dit
souvent que la qualité du questionnaire est primordiale. Ainsi, une
mauvaise question entrainera la récolte de mauvaises mesures.
## Deux types d’erreur
1. Il peut y avoir une erreur au niveau théorique
1. Problème de la validité de la mesure : évaluation de la mesure
au niveau théorique
2. Opérationnalisation
2. Erreur au niveau empirique
1. Problème de fiabilité de la mesure : évaluation de la mesure au
niveau empirique (idée de la consistance de la mesure)
2. Fidélité, robustesse, reproductibilité
3. Formulation des questions
### Fiabilité des mesures
L’idée de la fiabilité est simple en théorie mais difficile à mettre en
œuvre. Il y a des questions qui peuvent être comprises de manière
différente que ce qu’on le croit. La reproductibilité correspond au
fait ***qu’un même output sera produit si un même input est appliqué***.
C’est en lien avec la reproductibilité qu’il n’est pas toujours possible
de comparer entre elles des données, devant pour ce faire avoir été
produites de la même manière. C’est pourquoi les questionnaires doivent
être construits de sorte à ce que les ***réponses données proviennent
toutes d’un même input***. C’est pourquoi les questions doivent être
précises, simples... Afin que tous les répondants les comprennent de la
même manière et se positionnent par rapport à des inputs précis. Cet
exercice est d’autant plus difficile si le questionnaire doit être passé
auprès d’une population hétérogène (langue, culture, religion...)
différentes, les mots pouvant être socialement situés. ***En plus des
questions devant être intelligemment conçues pour être comprises de
manière uniforme au sein de la population cible, le questionnaire doit
également être uniformément transmis \!*** En effet, les intervieweurs
ne doivent pas inclure dans la question posée leur interprétation
propre.
Il existe plusieurs sources de non-fiabilité des mesures. Comme nous
l’avons dit, les ***questions peuvent être comprises différemment***
selon l’enquêté. Il faut encore noter que les mots peuvent changer de
sens au fil du temps mais aussi dans l’espace. Cette dimension est
importante à prendre en compte notamment lorsqu’il s’agit de répliquer
une étude ancienne. Il faudra alors se demander si les questions doivent
être traduites dans un vocabulaire plus actuel pour obtenir le même type
de réponses que jadis ou ces mots avaient des connotations différentes.
De plus, si ***la question contient deux inputs***, c’est à dire si la
question demande aux répondant de se positionner sur deux éléments de
question à la fois, le chercheur ne pourra savoir à quel stimuli
l’enquêté a répondu. Il faut également être vigilant au fait que
***la désirabilité sociale joue un rôle important lors de la passation
de questionnaire***. La désirabilité sociale est une sorte d’autocensure
lorsque l’enquêté craint d’être jugé négativement s’il donne une réponse
particulière à une question. Elle évolue dans le temps si bien qu’il est
aujourd’hui tout à fait commun de dire être divorcer, contrairement à
avant. Par contre, dire aujourd’hui que l’on est raciste est très
difficile, terme fortement déprécié. Enfin, il faut s’assurer que
***tous les enquêteurs posent les questions de la même manière*** lors
de la passation du questionnaire et ce, pour n’induire aucun biais de
compréhension.
### Source de non-fiabilité des mesures
Ce n’est pas seulement les questions en soi qui peuvent poser problèmes
mais également les répondants. En plus, ce sont souvent des groupes
différents qui répondent à nos questions. Ils ont des ancrages sociaux
différents et des différenciations générationnelles ce qui fait qu’ils
peuvent comprendre les questions différemment. De plus, il est
nécessaire de prendre les contextes en compte ; cela change en fonction
du temps et de l’espace. Par rapport, ce ne sont pas seulement les
personnes âgées qui posent des problèmes mais tout répondant confondu
lorsqu’il s’agit de questions délicates. Cela rend compte à la
désirabilité sociale où les gens répondent en fonction de ce qui est
perçu comme « bien » socialement ; personne n’est raciste et tout le
monde participe politiquement. Finalement, les enquêteurs peuvent poser
des questions différentes jusqu’au point où la compréhension de la
question varie.
- Toutes ces sources nous montrent que la fiabilité se travaille au
moment de l’élaboration du questionnaire. Cela ne signifie pas
seulement au moment d’écrire et de penser des questions mais qu’il
faut également faire des pré-tests pour identifier des biais
potentiels.
## Questionnaire standardisé : de quoi s’agit-il ?
On récolte des informations de manière systématique. L’idée est de
passer le même questionnaire à tout l’échantillon. L’approche de cette
démarche quantitative est de fermer au maximum l’espace d’expression
pour l’individu. Pour la grande majorité, le questionnaire utilise des
questions fermées, c’est-à-dire des questions avec des réponses déjà
pré-codées. On va donc maximiser la standardisation entre le répondant
avec un input et un même output. Le résultat de cette démarche est de
recevoir peu d’informations sur un grand nombre de personnes pour
pouvoir les analyser de manière systématique les statistiques et les
covariances. L’entretien qualitatif quant à lui veut ouvrir au maximum
l’espace d’expression de l’individu et on laisse simplement parler
l’interviewé. Avec une approche qualitative, la logique est
différente. Pour le questionnaire, il y a peu d’informations pour
beaucoup de personnes tandis qu’avec une approche qualitative, on reçoit
beaucoup d’informations sur peu de personnes. Puis on va analyser ces
informations par une démarche interprétative.
Les deux techniques sont complémentaires et il est possible de les
utiliser mais **<span class="underline">pas</span>** de les mélanger \!
Il faut d’abord en réaliser une puis l’autre en suivant
chronologiquement les procédures.
### Difficultés
Le fait que les personnes ne comprennent pas toujours de la même manière
les questions sauf qu’on peut minimiser ce problème. Un autre problème,
moins évitable, est qu’on force des réponses sur des enjeux sur lesquels
les personnes n’ont que peu de connaissance. La conséquence est que les
gens vont répondre « on the top of the head » ; ils ne vont pas
réfléchir de par eux-mêmes. Les politologues sont les experts pour
poser des questions trop difficiles. Cela peut être frustrant et c’est
pour cela que les sondages peuvent avoir mauvaise presse.
Il faut prendre pour ce faire les questions pour ce qu’elles sont,
c’est-à-dire des approximations. Cela permet d’éviter les plus gros
biais. Ce problème d’ailleurs n’est pas seulement valable pour les
questionnaires mais pour toute enquête de terrain. En dépit de ces
problèmes, le questionnaire reste un instrument intéressant pour les
connaissances sociologiques.
Une fois les questionnaires remplis, il y a une irréversibilité de la
mesure parce qu’in ne peut pas retourner auprès des répondants. Ces
réponses vont nous permettre de mettre en discussion nos hypothèses et
notre théorique. Avec une démarche qualitative, on peut toujours
compléter nos informations.
### Que mesure-t-on au moyen d’un QS ?
1. Ce que les individus pensent avec leurs attitudes, leurs croyances
et leurs valeurs
2. Ce que les individus font : leurs comportements et leurs expériences
passées
3. Ce que les individus sont : leurs attributs personnels
Cette distinction est impérative car ces 3 catégories ne posent pas les
mêmes difficultés dans l’élaboration des questions :

Il est important de distinguer ces trois catégories puisqu’elles sont
toutes des sources potentielles de non fiabilité mais pour des raisons
différentes. En effet, tout ce qui provient directement de l’esprit des
individus n’est pas facile à saisir et source de non fiabilité. En
effet, le contexte de passation du questionnaire, la formulation des
questions... aura un grand impact sur les réponses données, bien plus
que lorsque les personnes parlent de faits plus objectifs comme leur
agissements (font) ou leur statut social (sont). De plus, il faut
prendre en compte les efforts de cohérence individuelle dont les
individus font preuve pour conter leur vie, mais aussi de problèmes de
mémoire pouvant biaiser les réponses. Pour ce qui est des questions
liées à « l’être» des individus, il est très fréquent de les placer en
fin de questionnaire puisque ces questions, potentiellement intrusives,
peuvent rebuter des répondants en début d’étude.
Voici maintenant un exemple montrant à quel point la formulation des
questions est important et influence les réponses données :

Exemple de Rugg et Cantril 1944 :
Q1 : Des gens disent que depuis que l’Allemagne est en train de battre
la Russie et bientôt l’Angleterre, il est nécessaire que les USA
viennent en aide à l’Angleterre, qu’en pensez-vous ?
Q2 : Des gens disent que depuis que l’Allemagne va probablement vaincre
la Russie dans quelques semaines et bientôt diriger toute sa force armée
contre l’Angleterre, il est plus important que jamais que les USA
viennent en aide à l’Angleterre, qu’en pensez-vous ?
La différence peut être dû au fait de l’influence de la question mais
aussi à l’hétérogénéité des groupes.
Exemple de Zaller 1992 :
Questions rétrospectives : Continuer à penser à la question à laquelle
vous de répondre, j’aimerais que vous me dites quelles sont les idées
qui vous viennent à l’esprit lorsque vous répondiez à cette question.
Questions Stop-and-think : Avant de répondre à la question, j’aimerai
que vous me dites ce que vous ressentez, ce qui vous viens à l’esprit
lorsque vous pensez à cette question.

- Il se trouve que lorsque les gens réfléchissent après avoir donné la
réponse, on trouve moins d’ambivalence dans la réflexion que s’ils
formulent la question avant.
## Elaboration d’un questionnaire
Trois axes :
1. **Formulation des questions **: parfois un travail artisanal surtout
pour la construction de questions nouvelles. Dans ce processus,
l’inventivité et l’ingéniosité du chercheur est importante car on
n’a pas mal de liberté dans ce processus. Sauf qu’elle est limitée
dans un certain nombre de pièges à éviter. Puis, il faut acquérir
l’expérience qui nous permet d’éviter les mesures pour avoir une
bonne fiabilité et validité des mesures.
- <span class="underline">Peut-on y répondre</span> (à ma
question) ? Pour chaque question, on doit se demander si mes
répondants ont les connaissances nécessaires pour répondre aux
questions. Sauf que les gens ne vont souvent pas admettre leur
ignorance. De plus, ils ne vont pas utiliser la coche « ne sait
pas ». Ainsi, toutes les personnes ne peuvent pas répondre aux
questions.
- <span class="underline">Veut-on y répondre ?</span> Il faut être
sensible au fait que les gens ne veulent pas répondre à nos
questions. Cela a deux incidences ; au niveau de non-réponses ou
au niveau de qualité des réponses livrées. Il faut informer les
répondants de notre recherche et les assurer de leur anonymat.
- <span class="underline">Accroître la fiabilité :</span> Pour
accroitre la fiabilité et la validité des questions présentées
dans un questionnaire, il est important de ***proscrire les
leading questions***, c’est à dire une question amenant un
élément extérieur pouvant influencer la réponse de l’enquêté.
Il s’agit, par exemple, de demander simplement : Etes-vous pour
une augmentation des impôts ? Et non pas : Etes-vous pour une
augmentation des impôts pour améliorer la protection sociale des
citoyen-e-s ?
> Un autre moyen d’accroitre la fiabilité d’une
> question est ***d’éviter les questions aprioristiques***. En effet, il
> s’agit de remettre dans le ***contexte*** la question pour éviter les
> biais ou encore d’appliquer un ***filtre***. Un exemple de questions
> aprioristiques serait : Qu’avez-vous voté lors des dernières élections
> ? Ainsi, pour éviter tout biais, il faudrait plutôt construire la
> question en utilisant un filtre comme suit :
###
### Désirabilité sociale
Ainsi, cette deuxième question associée permet de vérifier que la
première réponse est correcte. Enfin, ***la désirabilité sociale peut
introduire de nombreux biais dans une recherche***. Il faut donc être
attentif que l’acceptabilité sociale de la réponse potentiellement
donnée à la question posée soit suffisamment grande pour que les
individus puissent se permettre de le dire. Ainsi, les questions de type
: Etes-vous raciste ? Sont évidemment à proscrire. Comme le montre cet
exemple, la désirabilité sociale affecte considérablement les résultats.
Pour rétablir cela, il est intéressant d’appliquer un filtre afin de
trier les personnes répondant sous la pression de la désirabilité
sociale.

Ainsi, on voit que sur les questions sensibles pour lesquelles les
répondants ont peur d’être jugés ou mal vus par l’enquêteur, les
réponses données peuvent être différentes de ce qu’il en est en
réalité. Pour ***contrer ce biais de désirabilité sociale***,
plusieurs options s’offre au chercheur. Premièrement, il peut s’agir de
***déculpabiliser le répondant***, notamment en incluant dans la
question un stimuli déculpabilisant. Par exemple, pour une question
portant sur le taux de participation, il s’agirait de demander non pas «
avez-vous voté » mais plutôt «lors des votations, environ la moitié des
personnes se rendent aux urnes. En ce qui vous concerne, avez-vous voté
? ». Une autre solution réside dans le fait de ***libérer la parole***,
ce que l’on appelle communément l’effet pommade. Il s’agit par exemple
d’utiliser la sympathie pour que le répondant se sente plus à l’aise
de s’exprimer sincèrement. Voici un exemple tiré d’une enquête effectuée
par Mayer en 2002 qui illustre cette méthode de prévention du biais de
désirabilité sociale :

### Désirabilité sociale – solutions
Bradburn propose ***trois solutions différentes pour annihiler le plus
possible les biais de désirabilité sociale***, en opposition à
l’approche habituelle qui consisterait à poser directement et sans
détour une question. En effet, l’approche usuelle consisterait à
demander au répondant : Avez-vous tué votre femme ? Mais cette question,
très sensible, risque de ne produire des résultats que peu concluants.
C’est pourquoi il propose trois approches plus fines, destinées à
libérer la parole de l’enquêté :
- ***L’approche des cartes*** : Plusieurs cartes sont présentées au
répondant qui doit rendre à l’enquêteur celle correspondant à sa
réponse. Ce procédé a pour particularité de ne pas demander au
sujet de verbaliser sa réponse, ce qui peut avoir être plus facile
lorsque des sujets difficiles sont abordés.
- ***L’approche « tout le monde »*** : Cette approche consiste à
déculpabiliser le répondant en lui faisant sentir qu’il n’est pas
le seul à penser/agir/être... ainsi. Cela permet au répondant de se
sentir moins seul et isolé dans sa situation et donc de libérer sa
parole.
- ***L’approche « les autres »*** : Cette approche consiste à
demander, en préambule, au répondant s’il connaît quelqu’un dans une
situation peut avouable avant de lui demander si lui-même s’y
trouve. Cela permet encore une fois de déculpabiliser le répondant
en lui montrant qu’il n’est pas le seul dans cette situation.
C’est toujours avec le même souci d’accroitre la fiabilité des mesures
que ***les questions rétrospectives doivent être considérées avec
attention***. En effet, il faut tenir compte que les individus peuvent
avoir oublié ou réinterprété des évènements passés si bien que la
fiabilité peut être mise à mal. De plus, la validité s’en voit aussi
menacé puisque le risque est de ne pas mesurer ce que le chercheur
souhaite. Voici un exemple de question rétrospective :

Comme on le voit sur cet exemple, un bon moyen de contrôler les biais
que peut induire ce type de questions est de ***poser des repères
temporels*** (cette année, durant le mois de...).
### Formulation des questions synthèse
En résumé, lorsque l’on construit les questions d’un sondage, il faut
penser :
- ***Si les répondants sont en mesure de répondre aux questions
posées***. C’est pourquoi il faut ***bannir les pratiques
aprioristes*** et ne jamais postuler que les répondants savent, la
connaissance n’étant pas socialement répartie de manière homogène.
- ***Si les répondants vont être d’accord de répondre aux questions
posées***. Pour ce faire, il faut respecter les enquêtés et établir
un lien de coopération avec l’enquêteur. C’est pourquoi les
questions intrusives doivent être placées en toute fin du
questionnaire.
- A la ***fiabilité du questionnaire***, c’est à dire si le stimuli
présent dans chaque question produira le même type d’output, c’est
à dire ***si tous les enquêtés comprendront la question de la même
manière et répondront en fonction de cette compréhension commune***.
C’est pourquoi il faut poser des questions précises, claires,
accessibles et courtes, ne postulant jamais que les individus
savent.
- A la ***validité du questionnaire***, c’est à dire si le
questionnaire permet au chercheur de mesurer ce qu’il souhaite.
C’est pourquoi il faut faire très attention aux « leading
questions » qui peuvent influencer les réponses données.
- A prendre en compte ***les potentiels biais que peuvent induire
chaque question.*** Ainsi, il faut être attentif aux biais que ***la
désirabilité sociale*** peut induire dans chaque enquête en
formulant finement les questions, mais aussi ***se méfier des
questions rétrospectives*** faisant appel à la mémoire
potentiellement approximative des répondants.
## Format des questions
Comme nous l’avons préalablement expliqué, il est très rare que des
questionnaires de type quantitatifs n’intègrent de questions ouvertes.
C’est pourquoi il faut également ***réfléchir attentivement à la
formulation et au format de réponse proposés aux enquêtés***. Ainsi,
trois enjeux principaux sont à considérer lors de cette étape.
5. Il faut se demander ***si les réponses proposées permettent aux
enquêtés de répondre à la question posée***.
6. Il faut se questionner quant à ***la qualité statistique désirée par
le chercheur***. En effet, selon les formats de réponses, le
chercheur ne pourra pas effectuer les mêmes procédés statistiques
sur ces données ni même recueillir le même type d’informations.
7. Il faut se demander si ***les réponses proposées sont
statistiquement discriminantes***. En effet, ce que l’on cherche
dans une recherche, ce ne sont pas des constantes mais bien des
variations permettant une réelle analyse statistique \!
### Peut-on y répondre ?
La formulation des réponses standardisées sont
primordiales puisqu’elles vont permettre au répondant de répondre à la
question posée d’une manière particulière. C’est un véritable enjeu pour
la fiabilité du questionnaire \! En effet, ***se pose alors la question
de proposer, ou non, aux répondants de ne pas se positionner***. Il faut
se demander que faire des ***sans-opinions ou des positions centrales***
qui sont des catégories particulières et problématiques. Certains
chercheurs décident de ne pas proposer de telles catégories de réponse
lors de leurs questionnaires, ce qui correspond à forcer les individus à
répondre \! Cette considération est directement reliée au fait qu’un
sondage impose une problématique aux répondants qui peuvent ne jamais
avoir préalablement pensé à cette thématique. Ainsi, ***les
sans-opinions (ou les positions centrales) sont parfois de vraies
réponses pleines de sens, signifiant que la personne n’a réellement pas
de préférences nettes quant au sujet traité \!*** Mais il faut aussi
considérer la tendance humaine à choisir la position centrale lui
permettant de s’économiser une réflexion couteuse en temps et en énergie
(rationnel). ***C’est pourquoi les sans-opinions et les positions
centrales posent problème lors de l’interprétation des réponses, ces
catégories étant constituées de personnes n’ayant réellement pas
d’opinion et d’autres ayant choisi cette modalité de réponse pour
s’économiser les couts d’une réflexion approfondie***. Certains
chercheurs choisissent donc de considérer ces catégories de réponses
comme des données manquantes, alors que d’autres attachent une grande
importance à l’analyse de ces modalités. Ce graphique montre que la
catégorie centrale est bien plus souvent choisie par les individus que
les autres modalités de réponse. Reste à savoir si les individus ont
répondu ainsi car ils se considèrent réellement au centre de
l’échiquier politique ou simplement car ils ne savaient pas ou se
positionner et ont choisi de s’économiser les couts de la réflexion.

Cet exemple permet d’atténuer l’effet de la catégorie centrale. En
effet, cette catégorie moyenne existe mais du fait qu’on lui ait
attribué un sens, elle devient plus évidente à interpréter.
De plus, ***la construction des modalités de
réponses implique de se questionner quant à la formulation des réponses
mais aussi quant à leur nombre***. En effet, le chercheur peut décider
d’offrir à ses répondants une modalité de réponse dichotomique (oui /
non, d’accord / pas d’accord...) ou plusieurs catégories de réponses.
Plus les catégories de réponses sont nombreuses, plus les informations
collectées seront riches. Toutefois, elles deviennent également plus
difficilement interprétables. Dans de très rare cas, le chercheur
choisit d’offrir aux répondants de s’exprimer librement quant à la
question posée (qualitatif). Cette modalité de réponse est choisie
lorsque le chercheur ne parvient pas à constituer lui-même des
catégories de réponse pertinentes relatives à la question posée (si
le sujet est mal connu par exemple). ***Généralement, aucune
question ouverte n’est présente dans les enquêtes
quantitatives. ***Toutefois, ce tableau montre que ces deux types de
réponse (ouverte ou fermée) ont chacune des avantages et
des désavantages. ***Il est toutefois possible de mobiliser les deux
types de réponses*** (ouverte et fermée) en les combinant entre elles.
Il s’agit de demandé à l’enquêté de répondre librement à la question
posée et l’enquêteur rapporte ensuite lui-même la réponse à des
catégories standardisées en fonction de ce qu’aura exprimé l’enquêté.
Voici un exemple de ce type hybride :

### Quelle qualité statistique ?
***La qualité statistique est donnée par le
format de réponse choisie par le chercheur***. En effet, cela dépend du
type de variables pour lequel le chercheur a opté. Elles peuvent être
***quantitatives*** (variables à intervalles ou variables dichotomiques)
ou ***qualitatives*** (variables nominales ou variables ordinales). Il
est aussi possible de combiner entre elles différentes questions pour
obtenir des échelles, c’est d’ailleurs ce qui est fréquemment fait avec
les variables ordinales. Toutefois, ces échelles correspondent parfois
davantage à une réalité statistique que sociale, c’est à dire qu’elles
font plus sens mathématiquement que pour les répondants eux-mêmes. Comme
le montre ce schéma, les différentes variables permettent chacune de
prendre en compte des éléments différents. Très peu de variables
permettent de considérer le point 0 dans les réponses.
***Les variables nominales*** sont considérées comme des variables
catégorielles. En effet, ***les choix de réponse ne sont pas chiffrés
si bien que c’est au chercheur de recoder lui-même les réponses au
moment de l’analyse statistique***. Voici un exemple de variable
nominale :

***Les variables ordinales*** sont des variables quantitatives puisque
les réponses, bien que correspondant à une définition écrite, sont des
***réponses chiffrées*** que le chercheur peut directement utiliser lors
de l’analyse statistique (exemple 1). En effet, il est bien plus facile
pour un répondant de se positionner sur une échelle chiffrée lorsque les
chiffres sont associés à une définition faite de mot, contrairement aux
échelles numériques n’indiquant qu’une gradation dans les préférences
de l’individu. Comment savoir si l’on se situe plus entre le 3 ou le 4,
qui ne corresponde à rien d’explicite (exemple 2) :
 Exemple 1 :
Exemple 2 : 
De nombreuses recherches préfèrent actuellement utiliser des variables
nominales, faisant plus de sens auprès des individus, bien que cela soit
plus difficile à utiliser lors des analyses statistiques. Car en effet,
***choisir l’un ou l’autre de ces types de réponse est un enjeu
important puisque lors de l’analyse statistiques, il ne sera pas
possible d’utiliser les mêmes outils analytiques \!***
### Sont-elles discriminantes ?
***Toute analyse statistique a pour but de mettre en évidence des
variations***. En effet, les constantes sont peu intéressantes puisque
la base de tous calculs statistiques repose sur les variances \! Il est
toutefois utile d’utiliser les constantes dans la phase descriptive de
la recherche, mais les analyses intéressantes ne portent pas sur elles.
Ainsi, le premier graphe cherche à être éviter par les chercheurs, ne
pointant aucune variation alors que le deuxième est statistiquement
beaucoup plus intéressant.

- Ainsi, il est important de proscrire les variables qui débouchent
sur des constantes. ***On parle de discrimination en ce qu’il s’agit
de ne considérer, pour l’analyse, que les variables donnant lieu à
des variations pouvant être statistiquement analysées***.
### Synthèse
Ainsi, lorsque l’on construit les réponses proposées aux répondants,
***il faut tout d’abord se demander si les individus pourront, par ce
biais, répondre à la question posée***. La formulation des questions
doit être réfléchie et ce, afin de garantir la fiabilité des mesures
obtenues par ce biais. Il s’agit également de décider d’inclure, ou non,
une catégorie de réponse permettant aux répondants de ne pas se
prononcer sur un objet. En effet, ***savoir si oui ou non on force les
répondants à se positionner est un réel enjeu pour l’analyse
statistique***. De plus, bien que les réponses dichotomiques soient très
simples à analyser, elles ne permettent pas de récolter des informations
riches quant aux répondants si bien que ***le nombre de réponses
proposées aux individus doit également être réfléchi***. Enfin, la
forme même des questions est primordiale puisqu’elles impliquent
d’analyser les données de manière particulière. Par souci
d’efficacité, très peu voir aucune question ouverte n’est posée dans
les enquêtes quantitatives. ***Pour ce qui est de la qualité statistique
visée par le chercheur, elle dépend directement du type de réponses
proposées***. Elles peuvent être nominales, ordinales, à intervalles ou
dichotomiques. Selon le type choisi, ***l’analyse des données s’en verra
affectée***. Il faut toutefois être attentif au sens sociologique de la
réponse \! En effet, bien que les échelles chiffrées soient très
pratique d’un point de vue statistiques, elles peuvent manquer de sens
pour les répondants. Enfin, il faut se demander si les ***réponses sont
statistiquement discriminantes***. C’est toujours avec le même souci
d’observer des variations que le chercheur tente de récolter par le
biais de questions posées des différences entre les individus. C’est
pour cela qu’***avant chaque enquête, on effectue des pré-tests \!***
## La structure du questionnaire
Une fois que les questions et les réponses ont été définies par le
chercheur, ***il faut encore réfléchir à l’agencement de ces questions
(associées à leurs réponses possibles) au sein du questionnaire***. Il
s’agit de définir l’ordre dans lequel les questions seront posées, la
structure des sections composant le questionnaire et leur ordre entre
elles mais aussi la longueur du questionnaire total. Ces considérations
sont importantes car il s’agit ici ***d’éviter au maximum les effets de
structures***, c’est à dire que les questions s’influencent entre elle
en ce qui concerne les réponses des répondants.
### L’ordre des questions
Il est important de réfléchir à l’ordre dans lequel les questions seront
présentées et ce, afin d’éviter au maximum l’interdépendance entre
questions. Il est fréquent que les questions concernant un même objet
soient présentées groupées dans un questionnaire. Toutefois, ***il faut
faire attention à ce que les réponses données par les répondants ne
soient pas influencées par l’ordre dans lequel les questions sont
posées***. Car il est vrai que l’influence entre question est bien plus
grande lorsque les questions sont présentées en batterie, par rapport à
un questionnaire ou elles seraient réparties dans toute sa longueur.
C’est toutefois pour rendre le questionnaire plus cohérent et pratique
que les batteries de questions sont fréquemment utilisées par les
chercheurs. C’est donc ***dans le but d’éviter les distorsions que
l’ordre des questions doit être réfléchi***. Il faut toutefois être
attentif au fait que s’il on décide de reprendre une batterie de
questions d’une enquête déjà effectuée dans le but de comparer les
résultats obtenus, il faut que les questions restent dans le même ordre
et ce, pour ne pas créer des effets de structures différents pouvant
influencer les réponses et donc induire de fausses variations. Voici un
exemple d’interdépendance entre question qui pointe très clairement que
le fait de répondre en premier à la question 1 influence la réponse
donnée à la question 2 :

### La structure des sections
L’enjeu premier de la structure des sections du questionnaire est de
***laisser les structures de sens des individus remonter***. Ainsi, une
section doit être une ***séquence logique*** permettant à l’individu se
structurer progressivement sa pensée. C’est pourquoi on commence
toujours avec les questions les plus faciles, demandant le moins de
réflexion possible. Ensuite, on place les questions plus difficiles, le
répondant pouvant s’appuyer sur ses précédentes réponses pour structurer
un avis, avant de terminer par les questions les plus intrusives. En
effet, il est très important de les placer à la fin et non au début, au
risque de faire fuir un certains nombres de répondants.
### La longueur du questionnaire
La longueur du questionnaire est aussi un enjeu important. Un
questionnaire trop long risque de perdre tout une partie des répondants
n’ayant pas suffisamment de temps à y consacrer. C’est pourquoi ***il
est communément admis qu’un questionnaire ne dois pas durer plus de 30 à
45 minutes***. C’est pourquoi les questions présentées au sein du
questionnaire, en plus de comporter tous les précédents points discutés,
doivent être efficaces et utiles. Toutefois, cela ne représente qu’un
ordre de grandeur qu’il faut ***adapter à la population étudiée***. En
effet, il sera possible de questionner plus longtemps certaines
populations, comme des gens intéressés par la politique, et bien moins
longtemps d’autres populations, comme des personnes âgées. De plus,
***la longueur du questionnaire doit prendre en compte le mode de
passation utilisée***. Un questionnaire passé en face à face durera plus
long qu’un questionnaire administré par téléphone, qui lui-même sera
plus long que les questionnaires auto-administrés (internet, papier...).
### Synthèse
Lorsque l’on agence un questionnaire, il faut être ***attentif à l’ordre
des questions afin de limiter au maximum les effets de structures***. De
plus, réfléchir à ***la structure des sections*** au sein du
questionnaire est un enjeu important puisqu’elle doit servir à ***faire
remonter les structures de sens des répondants*** et ainsi, éviter les
réponses « de surface » (répondre la première chose qui nous vient à
l’esprit). Enfin, ***la longueur du questionnaire doit être adaptée à
la population cible ainsi qu’à la méthode de passation et ce, afin de ne
pas décourager de répondants***.
## Passation du questionnaire
Comme nous l’avons préalablement dit, il existe ***trois types
d’administration de questionnaire***. Choisir l’un plutôt que l’autre
implique une réflexion importante puisque ***la manière de faire passer
le questionnaire aura une influence sur les réponses récoltées***. Un
questionnaire peut être passé :
- En ***face à face***, c’est à dire que l’enquêteur et l’enquêté se
retrouve lors d’un entretien au cours duquel l’enquêteur fait passer
le questionnaire au répondant. Cela peut ***influencer les réponses
de l’enquêté et ce, en fonction des propriétés sociales de
l’enquêteur*** (femme, personnes de couleur, handicap...).
- En ***face à face indirect***, c’est à dire que l’enquêteur fait
passer le questionnaire à l’enquêté sans être physiquement présent.
C’est le cas des études par téléphone par exemple. Ce mode de
passation annihile un certain nombre de biais, le répondant ne
pouvant pas, de par ses propriétés sociales influencer le répondant
puisque ce dernier n’a pas de contact direct avec lui.
- Par ***auto-administration***, c’est à dire que le répondant répond
seul au questionnaire. C’est la technique la moins couteuse mais
aussi la moins fiable.
- Ainsi, ***le chercheur choisira l’une ou l’autre de ces méthodes de
passation de questionnaire en fonction de la population cible, du
taux de réponse désiré, de la longueur du questionnaire mais surtout
en fonction des ressources à disposition (temps mais surtout
argent).*** Chaque type de passation de questionnaire comporte des
avantages et des inconvénients, comme le résume bien les deux
tableaux suivants :


### Conclusion
En résumé, on peut dire que ***l’élaboration d’un questionnaire
standardisé est un travail minutieux***. Chaque étape est essentielle et
nécessite une réflexion approfondie pour assurer la qualité des données
récoltées. C’est pourquoi l’élaboration d’un questionnaire représente
une étape difficile dans la mise en place d’une recherche quantitative.
## Les pré-tests
Une fois les questions, les modalités de réponses et le questionnaire
agencé dans son ensemble, les chercheurs lui font ***passer des
pré-tests***. Jamais un questionnaire n’est directement soumis à la
population cible. ***Les pré-tests permettent de déceler tous problèmes
induit pas le questionnaire***. Cela permet également de détecter si
certaines questions débouchent sur des variables qui sont peu
pertinentes pour l’analyse statistique. Le but est de voir si les
personnes participant au pré-test...
- Comprennent uniformément les questions
- Si les catégories de réponses proposées font sens pour eux
- Si les catégories de réponses sont exhaustives
- Si les effets de structures ne sont pas trop grands
- Si le questionnaire leur semble cohérent
- Si la longueur du questionnaire n’est pas trop grande
La plupart du temps, les pré-tests se font auprès de 25 à 75 personnes
au sein de la population sondée. ***Le nombre de pré-tests n’est
préalablement pas connu puisque cela s’effectue de manière circulaire
et ce, jusqu’à ce qu’un nouveau pré-test ne décèle plus aucun problème
au sein du questionnaire***. C’est pourquoi on peut dire qu’au minimum,
deux pré-tests doivent être effectués avant la passation véridique du
questionnaire.
# Echantillon : logique de l’échantillonnage
## Echantillon vs population
Dans la majorité des cas, la population qui nous intéresse ne peut pas
être observée de manière exhaustive. On travaille de ce fait avec un
échantillon de la population. Les caractéristiques de la population
sont inconnues puisqu’on ne détient pas toutes les informations tandis
que les caractéristiques de l’échantillon sont connues. Ainsi,
l’objectif est de déterminer les caractéristiques de la population en
fonction de celles de l’échantillon.
**Exemples**
Comment construire un échantillon dans les cas suivants ?
Etude de la perte de poids chez des personnes ayant perdu du poids par
elles-mêmes, sans avoir recours à des médecins ou des associations ?
En général, on a une population et on va en
tirer un échantillon (pas ce qui nous intéresse mais il y a un besoin de
passer par un sous-ensemble – coûts, accessibilité, etc.). N :
population *n *: échantillon
## Qualité d’un bon échantillon
### Représentativité de l’échantillon
Un bon échantillon est **représentatif** de la population étudiée. Sauf
qu’il ne faut pas comprendre un échantillon représentatif comme une
photocopie en modèle réduit. On ne doit pas prendre toutes les
informations de la population. De plus, **un échantillon représentatif
est un échantillon dans lequel toutes les grandes caractéristiques de la
population qui sont utiles pour l’étude vont se retrouver**. Il est
parfois nécessaire de surreprésenter ou de sous-représenter certaines
catégories dans notre étude. Ces sur- et sous-représentations
volontaires seront corrigées au niveau des analyses statistiques à
l’aide de pondérations.
**Exemples **:
- Etude sur les pratiques religieuses des résidents du canton de Vaud
- Certaines religions sont très faiblement représentées dans le canton
de Vaud
- Prendre un échantillon aléatoire au sein de tous les résidents du
canton de Vaud ne permettrait pas d’étudier les minorités
religieuses.
- Nécessité de surreprésenter les personnes appartenant à des
minorités religieuses
### Définition de la population étudiée
L’échantillon doit être représentatif de la population étudiée. Il faut
définir au préalable la population étudiée \! Cela implique des critères
d’inclusion et d’exclusion. Bien entendu, il faut s’assurer que la
population ainsi définie :
- Permet bien de répondre aux objectifs de l’enquête
- Est contactable de manière à en constituer un échantillon ; comment
une partie de la population est contactable ? Si on ne peut
l’atteindre, comment allons-nous procéder ?
### Taille de l’échantillon
La taille optimale *n* de l’échantillon n’est pas facile à déterminer
car elle dépend notamment :
- Des méthodes statistiques qui seront utilisées
- De la variabilité des données
- De la **précision désirée** pour les résultats
Pour les situations simples (moyenne, comparaison de 2 populations, …)
des formules permettent de calculer la taille d’échantillon optimale.
Des facteurs extra-statistiques tels que la facilité de collecte des
données et les moyens (temps et argent) à disposition des enquêteurs
sont aussi considérer. Attention \! Il ne sert à rien de travailler avec
un échantillon plus grand que nécessaire \!
Exemple : estimation d’une proportion
Estimer la proportion de votants
En considérant le pire des cas (incertitude maximale), nous obtenons les
tailles d’échantillon nécessaires :

Exemples :
- Votations no-billag (méthodologie utilisée) = sondage est une
photographie des opinions publiques à un moment donné ; indication
marge erreur, le nombre de personnes constituant l’échantillon
- Elections au Grand Conseil Genevois ; indication marge erreur, le
nombre de personnes constituant l’échantillon
### Variabilité de l’échantillon
Si je prends deux échantillons, je fais un sondage maintenant et dans
une heure je fais le même sondage mais avec un échantillon différent,
j’aurais de résultats distincts. Enormément d’échantillons différents
peuvent être obtenus à partir d’une même population, mais en pratique,
un seul d’entre eux sera utilisé pour les analyses statistiques. Quelles
implications ces différences ont-elles sur la qualité des résultats
statistiques ?
## Procédures d’échantillonnage
### Différentes procédures d’échantillonnage
Différentes procédures existent pour obtenir un échantillon. La règle
est de toujours essayer d’appliquer la procédure optimale par rapport au
contexte. Parfois, une même étude peut recourir à plusieurs procédures
de manière à recouvrir au mieux la population visée (*mixed modes*).
Dans ce cas, comment combiner au mieux les différents échantillons
obtenus ?
### Base de sondage
- **Base de sondage** (=listing) : liste permettant de contacter
individuellement toutes les personnes faisant partie de la
population étudiée.
- **Echantillon probabiliste **: défini à partir d’une
<span class="underline">base de sondage</span>. S’il n’existe pas de
base de sondage, alors on a un
<span class="underline">échantillonnage non-probabiliste</span>.
Pour les votations, pour la base de sondage, on pourrait avoir le
registre de tous les votants. Si la question se pose sur la
consommation de cocaïne, on n’aura pas de base de sondage et pour ce
faire, on devrait procéder autrement et donc passer par une méthode
empirique.
- Il est préférable d’avoir un échantillon probabiliste car :
- Permet d’éviter des biais de sélection
- Permet de généraliser facilement à l’ensemble de la population
(inférence)
### Défaut de couverture
Une base de sondage incomplète engendre des biais car une partie de la
population visée ne sera pas présente. On appelle cela un **défaut de
couverture**. Les causes principales pour ce genre de phénomène est
qu’il peut y avoir des changements par rapport à une situation de
référence ou une non-connaissance de certains cas.
Par exemple : L’annuaire téléphonique n’est pas une base
d’échantillonnage exhaustive puisqu’on peut éviter d’y être en tant
que citoyen, de moins en moins de personnes ont des numéros fixes et
souvent, il n’y avait que le numéro d’une seule personne de la famille
et cela touchait qu’une seule personne.
### Tirages avec remises
Les tirages sont indépendants les uns des autres :
- Un cas est sélectionné dans la population, il est étudié
(questionnaire), puis il est remis dans la population.
- Un second cas est ensuite sélectionné et étudié, etc.
Le risque est qu’on peut sélectionner et étudier à plusieurs reprises le
même cas. Les <span class="underline">avantages</span> est qu’ils sont
plus simples à gérer, permettent un meilleur anonymat et ils sont plus
pratiques d’un point de vue mathématique. Sauf si l’on travaille avec un
échantillon de relativement grande taille par rapport à celle de la
population (taux de sondage élevé), on considère en général que les
tirages sont avec remises.
### Tirages sans remise
Les tirages sont dépendants les uns des autres :
- Un cas est sélectionné dans la population, il est étudié mais il
n’est pas remis ensuite dans la population.
- Un second cas est sélectionné et étudié, etc.…
Les cas sont différentes les uns des autres. Les
<span class="underline">avantages</span> sont que les résultats sont
plus précis (variance plus petite) que les tirages avec remises.
Cependant, la différence s’amenuise rapidement avec l’augmentation de la
taille de l’échantillon.
### Méthodes empiriques de sondage
L’échantillonnage empirique est généralement utilisé lorsqu’il n’y a pas
de base de sondage. La probabilité qu’un membre de la population soit
inclue dans l’échantillon n’est pas connue. Les principales méthodes
empiriques sont :
- Les quotas
- Les itinéraires
- L’emplacement
- Le volontariat
- La boule de neige
Toutes ces méthodes génèrent des **échantillons d’opportunité** (formé
sur la base de méthodes empiriques) par opposition aux échantillons
probabilistes.
#### Les quotas
On choisit un certain nombre de caractéristiques dont on connaît la
distribution au sein de la population étudiée (âge, sexe…). Ces
caractéristiques doivent être relevant pour l’étude en cours. On
constitue un échantillon en respectant les mêmes proportions pour ces
caractéristiques que celles de l’ensemble de la population. Un sondage
par quota est plus simple à mettre en œuvre qu’un sondage probabiliste,
car les personnes interrogées d’un groupe sont parfaitement
interchangeables et une personne manquante peut être remplacée par
n’importe quelle autre personne du même groupe.
**Exemple **:
Supposons que la population fréquentant habituellement un centre de
fitness lausannois comporte 60% de femmes, 20% des clients ont moins de
18 ans et 20% plus de 60 ans, et la moitié travaille dans le secteur
bancaire.
On constitue ensuite un échantillon en respectant les mêmes proportions
pour ces caractéristiques que celles de l’ensemble de la population.
Un enquêteur pourrait alors recevoir les consignes suivantes :

Si l’on connait en plus la répartition croisée des trois variables sexe,
âge et secteur d’activité, on pourrait alors avoir quelque chose
d’encore plus précis :

#### Les itinéraires
L’enquêteur suit un itinéraire défini très précisément, avec un point de
départ et un point d’arrivée. Il doit ensuite réaliser des interviews
dans un certain nombre d’endroits (logements ou autres) soit définis au
préalable par exemple par tirage au sort, soit selon un critère précis
(par exemple interroger une personne sur 5 qu’il rencontre ou une
personne tous les 500 mètres). L’itinéraire coïncide avec une voie
ferrée entre deux villes et on veut étudier les nuisances perçus par
les personnes habitant à proximité de cette voie.
#### L’emplacement
Un lieu et un moment sont définis pour la création de l’échantillon. On
interroge alors les personnes qui s’y trouvent.
Exemples : enquête réalisée devant l’entrée d’un magasin ; au service
des urgences du CHUV ; au départ de la ligne 31 des tl, à Renens, le
lundi entre 6h30 et 8h30.
#### Le volontariat
On se base sur le bon vouloir des gens et seuls ceux qui veulent
répondent et entrent dans l’échantillon. Le problème est que ce n’est
pas forcément représentatif de la population, une personne pourrait
remplir le questionnaire plusieurs fois et les personnes peuvent
répondre au hasard etc.
#### La boule de neige
Dans un système de type boule de neige, on choisit tout d’abord un
ensemble de personnes faisant partie de la population étudiée. On
demande ensuite à ces personnes d’en contact d’autres qu’elles
connaissent et qui font aussi partie de la population étudiée. Ces
personnes en contacteront d’autres à leur tour etc. L’échantillon final
sera constitué de toutes les personnes contactées. Le problème est qu’on
ne sait pas qui il y a dans la population et le nombre est incertain
parfois. Pour ce faire, on y insert des probabilités.
Exemple : enquête auprès de consommateurs de drogues.
#### Le RDS (Respondent-Drive-Sampling)
Il s’agit d’une tentative visant à rendre probabiliste la méthode de la
boule de neige. La grande différence réside dans le fait que le RDS ne
cherche pas uniquement à collecter un échantillon mais aussi à
déterminer certaines caractéristiques de la population concernée,
notamment sa taille. L’autre différence consiste à réduire l’impact du
choix des personnes utilisées pour amorcer la collecte des données sur
l’échantillon final.
### Avantages des méthodes empiriques
- Simples à mettre en œuvre
- Ne nécessitent pas de base de sondage exhaustive
- Permettent de collecter de l’information dans des situations
difficiles
### Désavantages des méthodes empiriques
- Tous les membres de la population n’ont pas la même probabilité de
faire partie de l’échantillon.
- Les individus sont interchangeables. Un non-répondant pourra être
remplacé par une autre personne même si le non-répondant a peut-être
des caractéristiques très différentes de celles de l’autre personne.
- Il est difficile de calculer des marges d’erreur ou de manière plus
générale de faire l’inférence statistique de bonne qualité.
### Probabilité d’inclusion
Dans une méthode probabiliste, chaque membre de la population a une
probabilité connue a priori d’être inclus dans l’échantillon. Cette
probabilité est appelée la **probabilité d’inclusion**. Pour pouvoir
calculer les probabilités d’inclusions, il est obligatoire de disposer
d’une base de sondage exhaustive de la population étudiée.
### Taux d’échantillonnage
Le taux d’échantillonnage *f* (ou taux de sondage) est calculée
comme avec :
- N : taille de la population
- *n* : taille de l’échantillon
- Ces deux inconnus sont supposés être connues et finies.
### Différence avec les quotas
Au contraire de la méthode des quotas dans laquelle on essaie
généralement de mimer au plus juste la population étudiée, les
méthodes probabilistes permettent de sur-échantillonner ou de
sous-échantillonner sciemment certaines catégories de la population.
L’avantage est de pouvoir ainsi disposer pour les analyses d’un nombre
suffisant de personnes de chaque catégorie. En sachant par quel facteur
certaines catégories ont été sur ou sous-représentées, il sera ensuite
possible de corriger les estimations en conséquence en attribuant à ces
personnes une pondération différente de celle des autres personnes.
### Plans d’échantillonnage simples
Un sous-ensemble de *n* cas est sélectionné de façon mé dans l’ensemble
de la population.
Deux procédures usuelles :
- **Echantillonnage aléatoire simple **: les *n* cas sont sélectionnés
au hasard de telle manière que la probabilité d’être sélectionné
soit la même pour chaque membre de la population étudiée.
- **Echantillonnage systématique **: sur la base d’un registre de la
population, on sélectionne aléatoirement un cas assez proche du
début de la liste, puis on sélectionne systématiquement un cas tous
les X éléments de la liste (pas de l’échantillonnage, X = 10, 25,
100…).
#### Limites de l’échantillonnage simple
Ne s’applique que si la population est homogène dans son ensemble ou du
moins, si les sous-populations sont toutes de même taille et s’il n’y a
pas de raison de supposer que le taux de non-réponse différera d’une
sous-population à l’autre. Si certains sous-groupes intéressants pour
l’étude sont rares par rapport à la taille de la population, on ne
collectera que peu ou pas de données les concernant. Dans le cas de
l’échantillonnage systématique, il ne doit pas y avoir de liens entre
le pas de l’échantillonnage et les individus sélectionnés. (Si on prend
1 sur 2, il ne faut pas que ce soient systématiquement les hommes dans
des couples mariées).
### Plans d’échantillonnage à plusieurs niveaux
La population est d’abord divisée en plusieurs sous-populations en
fonction d’une variable de contrôle, puis des procédures
d’échantillonnage sont appliquées à chaque sous-population. Les
sous-populations peuvent elles-mêmes être redivisées sur la base d’un
autre critère. Ces procédures s’appliquent lorsque la population étudiée
n’est pas homogène et que l’on veut s’assurer que toutes les composantes
de l’échantillon se retrouveront dans l’échantillon.
- Deux cas limite : les **tirages par strates** et les **tirages par
grappes**.
#### Tirages par strates
Un échantillon aléatoire est sélectionné dans chacun des
sous-populations :
 C’est utilisé lorsque les données sont
supposées être homogènes au sein de chaque sous-population mais
hétérogènes entre ces mêmes sous-populations (Exemples de strates :
cantons, genres…)
#### Tirages par grappes
Un échantillon de sous-populations est sélectionné aléatoirement puis
chacune des sous-populations sélectionnée est étudiée de façon
exhaustive : 
Utilisé lorsque les données sont homogènes d’une sous-population à
l’autre mais hétérogènes au sein de chaque sous-population. (Exemples
de grappes : ménages, classes d’écoles)
### Les 3 logiques des méthodes multi-niveaux
1. Au niveau de l’ensemble de la population étudiée, les estimations
des paramètres intéressants doivent être exactes (sans biais) et
précises.
2. Au niveau des sous-populations que l’on veut pouvoir étudier, on
doit disposer de suffisamment de données pour obtenir des résultats
exacts et précis.
3. L’échantillon total doit être réparti entre les sous-populations de
manière à prendre en compte et à exploiter la variabilité de chacune
d’entre-elles.

### Avantages des méthodes probabilistes
- Permettent de collecter un échantillon vraiment représentatif de la
population.
- Autorisent la prise en compte lors des analyses statistiques de
sous-population sur ou sous-représentées.
- Permettent de faire l’inférence statistique et de déterminer les
caractéristiques de la population sur la base de celles de
l’échantillon.
### Désavantages des méthodes probabilistes
- Plus difficiles à mettre en œuvre que les méthodes empiriques -\> il
faut penser à plus de choses \!
- Nécessitent une base de sondage exhaustive de la population étudiée.
- Sensibles à des problèmes imprévus : questionnaire non-transmis à
certains membres de l’échantillon
## Traitement préalable des données
### Saisie des données
Les données doivent être saisies dans une base de données que ce soit
durant la collecte des données ou après :
- Saisie manuelle (clavier d’ordinateur)
- Saisie automatique (code barre, scanner, questionnaire informatisé
sur internet)
- Toute saisie de données implique des risques d’erreurs.
### Données manquantes
Les données manquantes sont des données dont la récolte avait été
planifiée mais qui n’ont pas pu être récoltées :
- <span class="underline">Non-réponses totales </span>: un répondant
n’a pas du tout répondu à l’enquête.
- <span class="underline">Non-réponses partielles </span>: un
répondant n’a pas répondu à une partie des questions.
Simplement ignorées ? Non car il y a des conséquences sur les analyses
statistiques :
- <span class="underline">Biais </span>: la valeur estimée ne
correspond pas à la réalité
- <span class="underline">Manque de précision </span>: marge d’erreur
et variabilité des résultats élevées.
### Non-réponses totales
3 types de non-répondants :
1. Non-valides : impossibilité de réponse (décédés, déménagés, ne
faisant pas réellement partie de la population cible.
2. Non-contacts : impossibilité de contacter
3. Refus : refus de répondre
L’impact sur les résultats dépend de la catégorie de non-répondants.
Dans le cas d’enquêtes longitudinales, on parle d’**attrition**
lorsqu’une personne arrête de répondre à l’enquête après une certaine
vague de celle-ci.
### Non-réponses partielles
Causes aux non-réponses partielles :
- Questionnaire trop long
- Manque d’intérêt
- Questions sensibles
- Bug lors de la sauvegarde des données
Dans le cas de questionnaires formatisés, il est possible de rendre
obligatoire les réponses. La présence de non-réponses partielles
implique que les calculs statistiques ne se feront peut-être pas
toujours sur le même échantillon.
### Traitement des données manquantes
Les données manquantes traitées :
- Durant la collecte : incitations à répondre (cadeau, tirage au
sort…)
- Après la collecte : Imputation, reconstitution de la vraie valeur à
partir d’un autre fichier de données.
Dans certains cas, il n’y malheureusement pas de moyen pour traiter les
données manquantes et il ne rste qu’à prendre en compte le fait que
certaines données sont absentes.
### Données aberrantes
Les données aberrantes sont les données dont la valeur est clairement
fausse :
- Valeurs trop grandes ou trop petites (personne de 3m)
- Valeurs impossibles (âge négatif)
- Incompatibilité entre les valeurs de deux variables (enfant ayant le
permis de conduire)
Ces données doivent être détectées puis corrigées ou dans le pire des
cas remplacées par des données manquantes.
### Construction de nouvelles variables
Certains items d’un questionnaire forment une échelle et ne sont pas
destinées à l’analyse séparément. Il est aussi possible de créer de
nouvelles variables en combinant les variables existantes.
Exemples :
- Internet Addiction Teste (IAT) : échelle mesurant le degré avec
lequel l’utilisation qui est faite d’internet est problématique. Il
est composé de 20 items prenant des valeurs de 1 à 5 et son score
total est calculé en additionnant les 20 réponses obtenuse.
- BMI (Body Mass Index) : 
# Inférence statistique – analyse des données et interprétation
## Statistique inférentielle
### Jugement sur l’échantillon
Un échantillon a du sens dans l’interprétation où on tire des choses de
l’échantillon pour les inférer dans la population. Le centre d’intérêt
n’est pas vraiment l’échantillon mais bien la population. On part d’un
échantillon pour avoir des caractéristiques et elles vont être
similaires à celles de la population si notre échantillon est bien
formé. Il va ainsi représenter la population.

L’<span class="underline">objectif </span>: de déterminer les
caractéristiques / paramètres / estimations / valeurs d’une population
à partir d’un échantillon issu de celle-ci. On a deux outils principaux
pour l’inférence statistique :
- *Estimation* (ponctuelle (une seule valeur) ou par intervalle
(intervalle de valeur)
- *Tests d’hypothèses* (on se fixe certaines hypothèses et on regarde
si elles sont vraies ou fausses. On va parler d’un faisceau de
preuves qui vont nous permettre de valider / réfuter nos
hypothèses).
- Ces outils sont utilisés dans presque tous les modèles statistiques.
L’estimation par intervalle et les tests sont basés sur des lois de
probabilité continues théoriques.
Exemple : le niveau d’activité physique
Nous voulons étudier le niveau d’activité physique des jeunes de 18 ans
en Suisse. Ce niveau d’activité physique est défini comme le nombre de
jours par semaine où l’on effectue une activité physique soutenue. Nous
disposons d’un échantillon de n = 77 personnes (37 hommes et 40 femmes)
alors que la population étudiée est d’environ 80'000 personnes.
- Question : comment obtenir à partir de l’échantillon des résultats
qui s’appliquent fiablement à l’ensemble de la population ?
### Utilité des lois continues
Les données observées d’une variable ou certaines caractéristiques en
découlant (moyenne, variance…) peuvent souvent prendre une
quasi-infinité de valeurs. On s’intéresse alors à la distribution de ces
quantités et l’on utilise pour cela des lois de probabilité continues
dont les principales sont :
- **Loi normal (loi de Laplace-Gauss)**
- Loi du chi-2 (comparaison bivariante entre 2 populations avec
variables de type qualitative ; variable dépendante d’une autre ?)
- Loi de Student (si on ne connaît pas grand-chose sur la population ;
avec échantillon suffisamment grand)
- Loi de Fisher-Snedecor (comparaison de variance de deux ou plusieurs
variances)
- Ces lois sont parfaitement connues et des tables statistiques
permettent de déterminer les probabilités qui leurs sont associées.
## Définition de la loi normale
Soit une variable X représentant la somme de nombreux effets dont aucun
ne domine les autres. Alors, C’est une écriture
considérant une variable aléatoire nommé X (donnée continue tel que la
quantité en gramme de yogourt) suivant les valeurs d’une loi dont les
paramètres sont la moyenne et la variance au carré. C’est une
distribution symétrique puisque les valeurs de l’infini à l’infini.
Elle se caractérise par deux paramètres, à savoir la moyenne et la
variance.
Dans le graphique à gauche, on disperse les valeurs. On l’interprète à
droite en tant que valeurs possibles pour l’axe des X et en ordonnées
(axe des Y) ce sont des probabilités. La probabilité devient plus faible
en s’éloignant des 0.

### Loi normale centrée- réduite
Il est toujours possible de passer d’une loi normale X de moyenne
\(\mu\) et de variance \(\sigma^{2}\) à une autre loi normale ayant
d’autres caractéristiques. En particulier, la loi normale de moyenne 0
et de variance 1 est appelée la **loi normale centrée-réduite**. Elle
est notée Z est défini comme :

- Cela revient à soustraire la moyenne et diviser par l’écart-type de
la loi normale X d’origine.
Les probabilités sont représentées par la surface comprise entre la
fonction de densité de la loi et l’axe horizontal :

Cette loi normale, comme toute loi de distribution, permet de faire des
calculs de probabilité. La probabilité qu’un cas apparaissent est
représenté par la surface sous la courbe formée à l’aide du jeu de
données. Ainsi, lorsque l’on calcule des probabilités, on ne
s’intéresse qu’à une partie spécifique du graphique : entre – 1.96 et
+ 1. 96 pour avoir 95% de la surface sous la courbe. Mais le plus
important est de savoir que tout calcul de probabilité provient d’une
loi normale.
Les probabilités les plus importantes en fonction d’un seuil z :

- Pour toute fonction de probabilité, l’air sous la courbe = 1 et cela
signifie qu’on a le 100% de toutes les valeurs. La fonction de
densité est la courbe de la fonction. Si on s’écarte de 1.96, la
probabilité d’être dans cette zone est de 0.95.
### Théorème central-limite
Soit une suite (X<sub>1,</sub> X<sub>2</sub>… X<sub>n</sub>) de *n*
variables aléatoires (\(\mu\), \(\sigma^{2}\)). Lorsque *n* -\>
\(\infty\), la distribution de  tend vers la loi
N (\(\mu\), \(\sigma^{2}\)). Quelle que soit la distribution d’une
variable numérique dans la population, la distribution de la moyenne de
la variable suit une loi normale.
## Estimation
### Concepts
**L’estimation** consiste à assigner une valeur à un paramètre de la
population sur la base de ce qui a été trouvé au sein d’un échantillon
issu de celle-ci.
**Estimation ponctuelle **: on assigne une valeur précise au paramètre.
**Estimation par intervalle **: on assigne un intervalle de valeurs au
paramètre.
- Lorsqu’on a une estimation et non la vraie valeur (généralement
inconnue) du paramètre, on surmonte le nom du paramètre d’un
chapeau : \(\widehat{\mu}\) au lieu de \(\mu\).
### Principe de l’estimation ponctuelle
Si l’échantillon utilisé est de bonne qualité, il doit représenter
fidèlement la population. Par conséquent, les paramètres estimés dans
l’échantillon doivent prendre des valeurs proches de celles de la
population. L’estimation ponctuelle consiste donc à estimer **la**
valeur d’un paramètre de la population sur la base de la valeur calculée
sur l’échantillon. Elle est notée à l’aide du paramètre surmonté d’un
accent circonflexe (un chapeau) : .
### Propriété : absence de biais
Le **biais** d’un estimateur est la différence entre l’espérance de cet
estimateur et la vraie valeur du paramètre estimé. Un estimateur est
**non-biaisé** si son espérance (valeur moyenne) est égale à la vraie
valeur de la population.

### Propriété : convergence
Un estimateur  est dit **convergent** si,
lorsque la taille n de l’échantillon devient grande, le biais
disparaît :

Et la variance devient nulle :

- Cela revient à dire que lorsque la taille de l’échantillon augmente,
l’estimation devient de plus en plus précise.
### Estimateur absolument correct
Un estimateur non-biaisé et convergent est dit **absolument correct**.
Souvent, la valeur du paramètre calculée à partir de l’échantillon est
une estimation valable de la valeur de ce même paramètre au sein de la
population.
### Estimateur de la moyenne
La moyenne est un estimateur absolument correct :
 non biaisé et convergent :

Exemple : niveau d’activité physique

\(\widehat{\mu}\) = 2.75 est l’estimation ponctuelle de la moyenne pour
la population.
### Estimateur de la variance
La formule de la variance d’une population ne définit pas un estimateur
sans biais. C’est pourquoi, un estimateur absolument correct de la
variance est : 
Exemple au niveau de l’activité physique :

\(\sigma^{2}\) = 2.35 est l’estimation ponctuelle de la variance pour la
population.
### Principe de l’estimation par intervalle
Un échantillon n’est pas toujours une image parfaitement fidèle de la
population. En faisant une estimation ponctuelle, on attribue une valeur
précise  à un paramètre mais on court le risque
que la valeur ainsi obtenue soit éloignée de la réalité. Au lieu de
fournir une estimation , on construit un
intervalle de valeurs de la forme :

dans lequel la vraie valeur du paramètre a une certaine probabilité
fixée à l’avance, notée  de se trouver.
 est appelé le **degré de confiance**
 est le **risque de première espèce**
### Choix du risque de première espèce

Le choix du risque de première espèce  est
déterminant car il influence directement l’utilité des résultats :
- Si  est très **petit**, l’intervalle est
très fiable, mais il devient tellement large qu’il ne nous
renseigne plus de façon utile sur la vraie valeur du paramètre.
- Si  est très **grand**, l’intervalle est
très précis (=étroit) mais la probabilité qu’il recouvre
effectivement la vraie valeur du paramètre est faible.
- On choisit généralement un risque de  de 5%.
Exemple : le niveau d’activité physique
Au seuil  = 5%
Intervalle de confiance pour l’échantillon \[2.42 ; 3.10\].
Femmes seulement : \[2.10 ; 3.10\]
Hommes seulement : \[2.41 ; 3.42\]
Y a-t-il des preuves attestant que le niveau d’activité physique dans la
population est différent entre les femmes et les hommes ?
On ne peut pas l’estimer précisément puisque le seuil de
l’ est de 5%, on aurait donc que 95% de
probabilité et on est faiblement renseigné sur la vraie valeur du
paramètre. Comme les deux intervalles entre hommes et femmes ont des
valeurs communes, on ne peut pas déterminer avec justesse qu’il y a des
différences entre les deux catégories.
La véritable valeur se trouve quelque part dans l’intervalle \! Est-ce
qu’on peut avoir une identique pour les deux intervalles ? Les deux
intervalles se superposent et ici, avec une probabilité d’erreur de 5%,
il n’est pas possible de dire que statistiquement, le taux d’activité
des femmes est différent de celui des hommes. Il n’y a pas suffisamment
de preuves que c’est distinct.
### Intervalle de confiance et taille de l’échantillon
L’intervalle de confiance pour une moyenne \(\mu\) s’écrit :


On prend la moyenne de notre échantillon et on s’écarte un petit peu
vers la gauche et la droite. Cette précision s’exprime mathématiquement
par un quantile qui est le Z d’ordre 1- \(\alpha\)(risque de se tromper)
/ 2. Donc l’intervalle recherchée ne se retrouve pas dans l’intervalle
de confiance.
La **précision** de l’estimation correspond au demi intervalle de
confiance : 
Il en découle que : 
- La taille de l’échantillon *n* ainsi calculée représente la taille
minimale nécessaire pour atteindre la précision d recherchée. Si je
connais la variance d’une population et de la précision voulue, je
peux calculer la taille de l’échantillon.
**Exemple : le niveau d’activité physique**
L’échantillon utilisé comporte *n* = 77 personnes (données valides). Au
niveau global, l’intervalle de confiance pour  =
5% vaut \[2.41 ; 3.10\] et la précision obtenue est
.
Pour obtenir une précision d=0.1, toutes choses étant égales par
ailleurs, il aurait fallu un échantillon de taille :
 soit au minimum 903 personnes. En pratique, il
est aussi nécessaire jongler avec le budget qui va influencer la taille
de l’échantillon et la précision qu’on pourrait obtenir.
# Tests d’hypothèses : analyse des données et interprétation
## Principe
On formule une hypothèse sur la population étudiée. On vérifie si
l’échantillon utilisé provient bien (avec un certain degré de
confiance) de la population étudiée. Le test statistique lui-même
correspond à la règle de décision. Que tester ? :
- La valeur d’un paramètre (notamment son égalité à 0 = test de
significativité)
- L’égalité de deux ou plusieurs paramètres
- La forme de la distribution d’une ou plusieurs variables
## Hypothèses nulles et alternatives
Un test consiste à choisir entre deux hypothèses en fonction d’un
échantillon :
- L’hypothèse nulle, notée H<sub>0</sub> est l’hypothèse de base du
test, celle qui est considérée comme vraie jusqu’à preuve du
contraire. (= status quo)
- L’hypothèse alternative, notée H<sub>1</sub>, est son « contraire ».
(= ce que l’on aimerait montrer)
Exemple : 
H<sub>0</sub> est rejetée dès lors que la valeur de la statistique de
test observée dans l’échantillon est trop différente de la valeur
théorique postulée sous H<sub>0</sub> pour la population. Grâce au
calcul, on veut savoir si c’est plausible d’avoir H<sub>0</sub>.
L’hypothèse nulle porte généralement sur une seule valeur ou sur une
égalité entre paramètres. On parle d’hypothèse simple :

L’hypothèse alternative regroupe généralement un très grand nombre de
situations différentes. C’est une hypothèse composite avec 3 variantes :

**Exemple : au tribunal**
Une personne est jugée. Les hypothèses suivantes sont formulées :


- P (condamner un innocent) = \(\alpha\) Erreur de type I
- P (acquitter un coupable) = \(\beta\) Erreur de type II
Ne pas condamner un innocent est prioritaire par rapport à acquitter un
coupable \!
### Risques, puissance

\(\text{α\ }\) = Erreur de première espèce (type I) =\> risque de
rejeter faussement H<sub>0</sub>
\(\beta\) = Erreur de deuxième espèce (type II) =\> risque de rejeter
faussement H<sub>1</sub>
1 – \(\beta\) = puissance du test (probabilité de ne pas se tromper en
rejetant H<sub>0</sub> )
## Risque de première et de seconde espèce
- Risque \(\text{α~}\):
- Spécifié par le chercheur avant d’effectuer le test
- Fixé généralement à 5%.
- Risque \(\beta\) :
- N’est pas choisi librement mais dépend des autres éléments de
l’analyse (risque \(\alpha,\) taille de l’échantillon, écart
entre les 2 hypothèses du test…)
- Plutôt que \(\beta\), on considère souvent la notion de
**puissance** du test, à savoir la probabilité d’accepter
(lorsqu’elle doit l’être) l’hypothèse alternative
H<sub>1</sub> : 1 – \(\beta\) = P(accepter H<sub>1</sub> /
H<sub>1</sub> vraie)
- Risque de première et de deuxième espèce sont liés puisque si
j’augmente un, je diminue l’autre et vice versa.
Exemple d’un test unilatéral à droite :

Situations problématiques :
\(\alpha\) est trop petit -\> \(\beta\) est grand
H<sub>1</sub> peut différent de H<sub>0</sub> -\> \(\beta\) est grand

Sur ce graphique, on peut observer deux lois normales, chacune
correspondant à une hypothèse. A gauche, on a la distribution de
H<sub>0</sub> (notre hypothèse nulle) si elle est vraie. A droite, on a
la distribution H<sub>1</sub> si c’est l’hypothèse alternative qui est
vraie. Ces deux intervalles découpent l’ensemble des possibles en
matière de moyenne en deux zones, celle proche de H<sub>0</sub> et
celle proche de H<sub>1</sub>. « r » représente la zone de rejet,
c’est-à-dire que selon où on se situe par rapport à elle, on
acceptera l’une ou l’autre des hypothèses. Ainsi, la surface de la zone
orange représente la probabilité de rejeter faussement l’hypothèse nulle
alors que la surface de la zone verte représente le risque de rejeter
faussement l’hypothèse alternative.
Si on souhaite non pas avoir un alpha à 5% comme généralement accepté,
mais un alpha à 1%, la courbe se déplacera sur la droite si bien que
c’est bêta qui deviendra plus grand. Cela correspond à rapprocher
notre hypothèse nulle de notre hypothèse alternative faisant par la même
grandir bêta. De plus, comme nous l’avons vu, deux hypothèses proches
sont difficilement distinguables pour le test d’hypothèse \! La seule
solution pour réduire le risque alpha et bêta, c’est d’augmenter la
taille de l’échantillon. Ainsi, c’est au terme d’une réflexion préalable
que l’on peut voir si l’étude projetée en vaut la peine et sous quelles
conditions.
## P- valeur et son utilisation
La **p-valeur** ( ou **degré de signification**), notée p, est la
probabilité d’avoir observé l’échantillon utilisé sachant que
l’hypothèse nulle H<sub>0</sub> est vraie. La p-valeur s’interprète
aussi comme la probabilité d’obtenir à partir d’un autre échantillon
tiré de la même population une valeur du paramètre testé plus extrême
(plus éloignée de H<sub>0</sub>) que la valeur réellement observée.
Après avoir fixé le niveau du risque de première espèce, alpha, le
résultat du test s’obtient à l’aide de la règle de décision suivant :

Pour un test unilatéral à droite, la situation décrite par le graphique
suivant conduit au rejet de H<sub>0</sub>, car la p-valeur (zone
hachurée verticalement) est plus petite que le risque alpha (zone
hachurée horizontalement)

Sur ce schéma, on voit que la p-valeur représente la probabilité d’être
à droite de Z<sub>0</sub>. Ainsi, si le test prouve, pour la p-valeur,
une valeur supérieure à la zone de rejet, la p-valeur sera plus petite
qu’alpha et H<sub>0</sub> sera affirmer. Mais comme on voit sur le
graphique, la p-valeur est plus petite qu’alpha si bien qu’H<sub>0</sub>
est rejetée.
- Pour conclure par rapport à un test statistique, on observe la
p-valeur, si elle supérieure au risque alpha, le status quo demeure
(H0). Par contre on rejette H<sub>0</sub> si p est inférieure ou
égale à alpha. Si p est supérieure à alpha, on accepte H0 parce que
la probabilité est supérieure à 0.05.
Exemple : le niveau d’activité physique
- Hypothèse nulle : H<sub>0</sub> : \(\mu\) = 2.5
- Hypothèse alternative : H<sub>1</sub> : \(\mu\) ≠ 2.5
- Le risque \(\alpha\) est fixé à 5%.
Ces données sont rentrées dans R. On voit que la p-valeur est égale à
0.151 donc 15.1% \! Ce résultat est plus grand qu’\(\alpha\) (5%) si
bien que l’on se trouve dans la zone d’acceptation de l’hypothèse nulle
H0. On peut donc continuer de dire qu’en moyenne, les jeunes de moins de
18 ans pratiquent une activité physique 2.5 jours par semaine. Cet
histogramme représente l’activité physique de l’échantillon sur la
dernière semaine. De cette manière, on voit que l’on est éloigné d’une
loi normale puisque la répartition ne se fait pas de manière symétrique
autour d’un axe unique.

## Vue d’ensemble

### Rappel
Statistiquement, il y a suffisamment d’évidences pour rejeter
H<sub>0</sub> mais on ne va jamais dire qu’on l’accepte. Avec l’exemple
de la machine à sou, on va dire que si on joue 100 fois et qu’on perd à
chaque fois, on va dire qu’on va rejeter l’hypothèse H<sub>0</sub>. De
ce fait, on arrive à un rejet de l’hypothèse nulle. A chaque fois, on
essaie de montrer une relation et de ce fait, on aimerait avoir
suffisamment d’évidences pour montrer quelque chose qui se trouve dans
l’hypothèse alternative. Les raisons pour ne pas rejeter l’hypothèse
nulle sont multiples : elle peut être vraie, l’échantillon n’est pas
assez grand…. Dans ces tests, on a l’hypothèse nulle (=status quo) et
l’hypothèse alternative (ce qu’on veut montrer). Pour conclure un
test, il y a une règle : avant d’effectuer le test, on se fixe une marge
d’erreur (=erreur de première espèce notée alpha qui se trouve avec une
probabilité à 5%) puis là, on peut faire le test. Le test nous donne
pleins d’indications mais entre autres, la p-valeur qui est une
probabilité comprise en 0 et 1. Puis on compare cette probabilité à
notre seuil critique qui est alpha. Si c’est plus petit que 5%, on
rejette l’hypothèse nulle sinon on ne la rejette pas. La p-valeur est la
probabilité basée sur un échantillon d’être éloigné de H<sub>0</sub>.
Avec le jeu, c’est la probabilité d’avoir 5 fois de suite un échec
sachant qu’on a 1/10 de gagner. La probabilité d’avoir un résultat aussi
éloigné de ce que l’on s’attend ; si on perd 10 fois, la probabilité
d’avoir un tel score est la p-valeur (probabilité théorique d’avoir un
tel résultat). C’est ce qui nous permet de conclure par rapport au
risque pris préalablement.
- Tout ceci pour faire un test statistique. Il nous permet d’indiquer
si oui ou non on a suffisamment de preuves pour affirmer quelque
chose. Par contre, pour l’instant, on n’a pas encore l’intensité de
l’effet. Si statistiquement on peut dire que oui, peut-être que cet
effet est très petit.
# Analyse bivariée : dépendance vs indépendance / corrélation vs causalité – analyse des données et interprétation
## Complexité du monde réel
Il est très rare qu’une variable soit totalement indépendante de son
environnement. Chaque variable est probabilité liée à d’autres
variables, voire même influencée par celles-ci. La statique bivariée a
pour but de mettre en relation deux informations différentes afin de
vérifier si elles sont ou non liées. La mise en évidence d’un tel lien
peut notamment servir à faire des prédictions sur la valeur prise par
une variable en fonction de celle prise par une autre. L’analyse
bivariée donne aussi des informations utiles permettant ensuite de
construire un modèle multivarié.
### Objectifs et outils
Concrètement, les objectifs de l’analyse bivariée sont :
- Déterminer si une relation existe entre deux variable d’un
échantillon.
- Si une relation existe, quantifier la force de cette relation.
- Vérifier si la relation observée sur un échantillon est dû au hasard
ou si elle est aussi valide au niveau de l’ensemble de la population
considérée.
Les outils utilisés en statistique bivariée dépendent fortement du type
de variables analysées :
- 2 variables *qualitatives *: tables de contingence (représenter dans
un tableau croisé les quantités de chacun des deux variables et
leurs modalités), chi-2 (distribution de chi-2) et V de Cramer
(score calculé à partir du chi-2)
- 2 variables *quantitatives *: diagramme de dispersion (pour voir la
forme que prennent ces deux variables), corrélation de Pearson
(score calculé)
- 2 variables *ordinales *: corrélation de Spearman (corrélation
s’attache au rang de ces variables et à partir d’eux, on va
calculer une corrélation de Spearman)
- On peut mélanger les variables, on peut rendre une variable
qualitative en une variable quantitative
Exemple : Données GSOEP
Nous disposons de données extraites du German Socio-Economic Panel
(GSOEP), un panel représentatif des ménages allemands pour l’année 1994.
Ces données concernant 3377 individus âgés de 25 à 64 ans. Variables
liées au travail :
Variables liées au travail :
- TRAVAIL : variable indiquant si la personne a un emploi : non/oui
- COL BLEU : variable indiquant si la personne a un emploi type « col
bleu » (travail manuel) : non/oui
- COL BLANC : variable indiquant si la personne a un emploi de type
« col blanc » (travail de bureau) : Oui/non
- INDEP : variable indiquant si la personne a un travail indépendant :
non/oui
Variables liées à la santé
- SANTE : satisfaction autoreportée avec la santé sur une échelle de 0
à 10
- HANDI : variable indiquant si la personne a un handicap : non/oui
- HANDI.POUR : degré de handicap en pourcents (o pour les personnes ne
souffrant d’aucun handicap)
- DOC.3M : nombre de visites chez un docteur durant les 3 derniers
mois
- DOC\_4C : nombre de visites chez un docteur durant les 3 derniers
mois en 4 catégories
Variables socio-démographiques :
- GENRE : homme/femme
- AGE : âgé en années
- REVENU : revenu net mensuel du ménage en marks allemands / 10000
- ENFANTS.16 : variable indiquant s’il y a des enfants de moins de 16
ans dans le ménage….
## Variables qualitatives
### Fréquences absolues conjointes
Une table de contingence est l’équivalent d’une distribution de
fréquence mais pour <span class="underline">deux</span> variables
simultanément. Il y a un croisement entre ces deux variables.

### Fréquences relatives
Ces 4 valeurs divisées par le nombre de personnes (=3377). Le
pourcentage est indiqué en bas (9.061% par exemple).

### Fréquences conditionnelles par ligne
On fixe une modalité (genre) à homme, puis on
dit des choses sur la variable travail. Donc je me situe comme si
j’étais avec 1812 personnes. Quelle est la distribution variable
travail sachant que les personnes que j’ai à disposition sont des
hommes ? Il y aurait environ 17% d’hommes qui auraient un travail
contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17%
n’ont pas de travail et les autres oui. Cela revient à restreindre notre
échantillon puisqu’on considère qu’une seule des deux modalités du
genre. On peut aussi regarder la distribution de la variable genre (par
colonne) ; je prends uniquement ceux qui n’ont pas de travail et je
regarde la distribution de la variable genre.
Autre exemple : COL BLANC et DOC\_4c, On a le total (3377), les
répartitions (table de contingence) et ici, on analyse par ligne (=100
dans le total).
Question : en regardant ce tableau, si on a une personne issue de ce
panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir
la répartition des visites de médecin ou pas ? Est-ce que l’information
donnée (COL BLANC) nous apporte quelque chose ? Quasi pas \! Quelle est
la probabilité qu’une personne soit allée plus de deux fois chez le
médecin ? 44.120% \! Si on prend une personne au hasard, quelle est la
probabilité que cette personne soit allée deux fois chez le médecin ? Le
calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que
la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce
qu’il faut comprendre, c’est que si les deux variables col blanc et
nombre de visite sont liées, a priori, le lien est extrêmement faible.
- Ce « lien » est la dépendance ou pas.
### Indépendance
Deux variables A et B sont *indépendantes* si la connaissance de la
modalité prise par A n’influence pas la distribution de B et vice versa.
Sur une table de contingence, cela implique que :
- Les distributions conditionnelles par ligne sont toutes identiques
- Les distributions conditionnelles par colonne sont toutes
identiques.
### Indépendance et information marginale
En cas d’indépendance des 2 variables, toute l’information de la table
de contingence est résumée par les distributions séparées (margines) des
deux variables. On peut alors reconstituer la distribution conjointe de
la manière suivant : 
Exemple de situation d’indépendance parfait
On a fait les totaux par ligne et par colonne,
on regarde les fréquences absolues (n<sub>ij</sub>) et les fréquences
relatives (f<sub>ij</sub>). (On divise 16/80=0.2).
### Dépendance et degré d’association
Lorsque deux variables ne sont pas indépendantes, elles sont
dépendantes. Il est utile de mesurer leur degré d’association. Plus le
degré d’association est élevé, plus il devient possible d’utiliser une
variable pour prédire l’autre. Sauf qu’association ≠ causalité \!
### Chi-2
Une façon d’estimer la force de la relation entre les deux variables
d’un tableau croisé consiste à comparer les données observées avec la
situation que l’on aurait en cas d’indépendance. La statistique du
chi-2, notée K<sup>2</sup> est définie comme :
où -\>
- Est la fréquence de la case d’indices *ij* sous l’hypothèse
d’indépendance.
Cette statistique du chi-2 est comprise entre 0 et une certaine valeur.
La valeur maximale est la taille de l’échantillon (n) x le minimum
nombre de ligne -1 et le nombre de colonne -1. 
- Si K<sup>2</sup> vaut zéro, nous sommes dans la situation
d’indépendance.
- Si K<sup>2</sup> est supérieur à zéro, il y a dépendance ou
association.
- Plus K<sup>2</sup> est grand, plus l’association est forte mais
attention, K<sup>2</sup> dépend de la taille de la table de
contingence.
Exemple : fréquences observées et attendues
Sur ce tableau, on voit la distribution
conjointe de deux variables différentes : homme/femme et travail/pas de
travail. La distribution conjointe représente la relation entre les deux
variables. Ici, c’est en nombre d’individus que la table se présente. On
voit que parmi les hommes, 83% ont un emploi alors que chez les femmes,
seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre
échantillon, les hommes occupent plus fréquemment un emploi que les
femmes. Ces fréquences conditionnelles peuvent aussi être calculées par
colonnes. Ce que l’on remarque alors c’est que parmi les individus
n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui
est des personnes occupant un emploi, seules 37% des femmes On voit, sur
la base de ces tableaux, que les hommes et les femmes ne sont pas égaux
face au travail. Toutefois, on ne peut pas conclure à une causalité ni
spéculer sur la force de cette différence dans la population totale.
La distribution des deux variables sont
parfaitement identiques : elles sont donc parfaitement indépendantes
l’une de l’autre. Ainsi, il est possible de retrouver la distribution
en se basant uniquement sur les totaux des lignes et des colonnes en
suivant la formule (total de i x total de j)/total.
A partir du moment que l’on ne se trouve pas dans une situation
d’indépendance parfaite, c’est une situation de dépendance.
Toutefois, cette dépendance peut être plus au moins forte. Plus la force
d’association entre deux variables est élevée, plus il devient possible
de prédire l’une par rapport à l’autre. Mais attention, dépendance ne
signifie pas causalité \!
### Normalisation du chi-2
La valeur maximale du chi-2 dépend de la taille de la table de
contingence ainsi que de l’effectif total. Il est donc difficile
d’évaluer le résultat. Une solution consiste à normaliser le résultat
afin qu’il évolue entre des bornes finies et connues. La mesure de V de
Cramer est définie comme :

où K<sup>2</sup> est la statistique du chi-2, *n* est le nombre de
données, \(\mathcal{l}\) est le nombre de ligne et *c* est le nombre de
colonnes.
La mesure V a pour bornes : 
- 0 signifie l’indépendance parfaite entre les variables
- 1 signifie une association maximale
- Le V de Cramer est facile à comparer entre des tables de dimensions
différentes et comportant un nombre d’observations différent.

### Test du chi-2
Tous les calculs précédents (chi-2 et V de Cramer) concernant
l’échantillon de données utilisé. Pour déterminer s’il y a dépendance
ou indépendance au niveau de la population, il faut effectuer un test
d’hypothèses :
- H<sub>0</sub> : indépendance entre les 2 variables
- H<sub>1</sub> : Dépendance entre les 2 variables
Le même test permet aussi de savoir si le V de Cramer prend une valeur
égale ou supérieure à zéro dans la population.
Exemple :
On considère un risque de première espèce à \(\alpha\) = 5%.

### Degrés de liberté
En statistique, les degrés de liberté (*degrees of freedom*)
représentent le nombre de données ou d’éléments d’un problème qui
peuvent être fixés sans contrainte, indépendamment les uns des autres.
Exemples :
- Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi
que leur moyenne, alors il y a 4 degrés de liberté car la valeur de
la 5<sup>ème</sup> observation peut être retrouvée en utilisant la
moyenne.
- Pour un test d’indépendance sur une table de contingence pour
\(\mathcal{l}\) ligles et c colonnes, il y a (\(\mathcal{l}\)-1) x
(c-1) degrés de liberté car les autres éléments de la distribution
d’indépendance peuvent être retrouvés en utilisant les totaux
connus des lignes et des colonnes.
**A retenir **:
Lorsqu’on a affaire des variables de type catégorielles ou qualitatives,
on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut
calculer la force de dépendance via le V de Cramer et on associe un test
dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et
la dépendance.
Exemple : le niveau de mathématiques avec la taille des pieds (plus on a
des grands pieds, plus on est bons en mathématique
Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus
qu’on ne connaît pas la population. Il est possible d’avoir deux
variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause
de l’autre. Ainsi, il n’y a pas toujours de cause à effet \! On peut
trouver des relations fortes entre deux variables mais cela ne signifie
pas nécessairement qu’il y a une relation de cause à effet \! Par
contre, le nombre d’années d’apprentissage pourrait être la cause
d’avoir de meilleurs résultats en mathématique \!
- Même si deux variables sont fortement corrélées, il faut toujours
remettre en question la cause à effet.
- Pour connaître la dépendance, on peut faire une représentation
graphique mais on utilise des tables de contingence. On regarde les
valeurs conjointes entre ces deux variables. Une fois qu’on a ces
valeurs conjointes, on pourra expliciter la dépendance ou
l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est
une valeur qui explique la différence entre la situation
d’indépendance et la situation que j’ai. Si elle est égale à 0,
c’est l’indépendance complète. L’autre formule est le V de Cramer
qui se situe entre 0 et 1. Pour des variables qualitatives, on les
compare en utilisant le V de Cramer.
## Variables quantitatives
### Diagramme de dispersion
Le diagramme de dispersion permet la mise en relation de deux variables
numériques. La relation est-elle linéaire ?

On a deux variables numériques. La relation est-elle linéaire ?
Graphiquement, on fait un diagramme de dispersion.
### Intérêt des relations linéaires
Les relations linéaires sont simples à analyser et comprendre
(proportionnalité linéaire (=immédiate) entre variable explicative et
variable expliquée). Il existe de nombreux outils pour les analyser
(corrélation linéaire (coefficient), régression linéaire (fonction
explicative par rapport à une autre)…). En cas de non-linéarité :
- Transformation des données (linéarisation de la relation)
- Méthodes non-linéaires
### Covariance
La covariance de deux variables X et Y est définie comme la moyenne des
produits des écarts à la moyenne des deux variables :

C’est une différence par rapport à la moyenne et on multiplie les
différences par rapport à la moyenne de l’autre valeur. La covariance
peut prendre n’importe quelle valeur comprise entre - \(\infty\) à +
\(\infty\). Mais comment savoir s’il y a un lien entre les deux
variables si les valeurs vont de l’infini à l’infini.
Si toutes les valeurs sont égales pour la variable X et toutes égales
pour la variable Y (sans variation) ; si la covariante est égale à 0,
toutes les valeurs sont proches de la moyenne et on n’a qu’une seule
valeur. Par contre, avec une différence, la covariance peut prendre des
valeurs négatives ou positives.
### Interprétation de la covariance
La covariance permet de déterminer le sens de la relation entre les deux
variables :
- COV (X,Y) \> 0 les variables évoluent dans le même sens. Les deux
variables ont tendance à prendre simultanément des valeurs grandes
ou petites.
- COV (X,Y) \< 0 les variables évoluent en sens contraire. Si une
variable prend une valeur élevée, l’autre variable a tendance à
prendre une petite valeur, et vice verse.
- En l’absence de relation linéaire, la covariance vaut zéro.
### Limites de la covariance
La covariance souffre de deux défauts :
1) Elle dépend de l’unité de mesure des variables (avoir la même unité
pour les variables)
2) Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
- Difficile de l’interpréter
Exemples :
Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a
d’éducation, plus le revenu est élevé puisque la covariance est
élevée.
Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme
ça parce que les unités ne sont pas les mêmes.
Santé et visites chez le médecin : cov = -3.54. Plus le nombre de
visites augmente, moins on a bon état de la santé. Ce qui est important,
c’est que c’est négatif et cela est logique ; l’état de santé est moins
bon.
## Corrélation linéaire de Pearson
Le coefficient de corrélation linéaire de Pearson entre deux variables X
et Y est défini comme :

où COV (X,Y) est la covariance des deux variables et S<sub>x</sub> et
S<sub>y</sub> sont les deux écarts-types. La corrélation ne mesure
qu’une association **linéaire** à l’exclusion de tout autre type de
relation entre les deux variables.
### Interprétation de la corrélation
Le coefficient de corrélation linéaire de Pearson mesure l’ajustement
des données à une droite. Il évolue entre -1 et +1 :


On voit sur ces graphiques que la linéarité peut être plus au moins
parfaite. En effet, les deux graphiques de gauche illustrent une
situation de linéarité parfaite avec en haut, une pente positive et en
bas, une pente négative. Le graphique en haut à droite illustre le cas
où une corrélation linéaire est forte sans toutefois être parfaite, les
points n’étant pas parfaitement alignés sur la même droite. Enfin, le
graphique en bas à droite illustre un cas éloigné de la corrélation
linéaire bien que l’on puisse identifier une tendance linéaire
discrète.
R =1 : tous les points sont situés sur une droite et la relation est
linéaire (=droite). Si la valeur x augmente, la valeur y augmente
également.
R = 0.95 : petite variation mais je peux prédire en connaissant x avec
une petite marge d’erreur.
R = -1 : si j’augmente x, y diminue.
R = 0.39 : la variabilité autour de la droite est beaucoup plus grande.
La relation linéaire est ici positive (j’augmente x donc y aussi) mais
c’est beaucoup moins fort.
On est capable d’indiquer une intensité linéaire mais ce n’est pas
suffisant \! Par exemple, on prend un échantillon de 2 individus pour
deux variables de type quantitative. Le coefficient de corrélation
linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si
petit échantillon, c’est difficile de déterminer la signification.
### Test de la corrélation
Du point de vue inférentiel, la première question est de savoir s’il y a
oui ou non corrélation. Les hypothèses testées sont alors les
suivantes :

L’acceptation de H<sub>0</sub> signifie **une absence de relation
linéaire entre les deux variables**, pas l’absence totale de
relation \!
Exemple : éducation et revenu
Difficile de trouver une relation linéaire. Si
on augmente le niveau d’éducation, il semble que le revenu augmente avec
de grosses variations donc on aurait un semblant de linéarité. Si
j’effectue le teste statistique, on aura des éléments. Il compare la
variable « éducation » avec la variable « revenu ». L’hypothèse
alternative est qu’elle est différente de 0. On obtient un coefficient
de relation de 0.445. Cela signifie que c’est positif donc si l’une
variable augmente, l’autre variable augmente aussi. Quelle est la force
de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un
peu de linéarité. De plus, a-t-on raison d’appliquer à la population ?
Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La
p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse
H<sub>0</sub>. Donc oui effectivement il existe une relation linéaire
entre ces deux variables. La valeur du coefficient de relation qui
l’exprime est de 0.445.
Exemple : âge et revenu
Les éléments du test indiquent que la valeur du
coefficient de relation est très faible (0.0242) donc une faible
relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la
p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.
Exemple : santé et visites chez le médecin
On constate que le coefficient de relation est égal à -0.389. La
p-valeur est faible donc inférieur au seuil de 5% et dans la population,
le coefficient de relation est négatif et on peut l’estimer avec le
coefficient de relation. Si on augmente la valeur de l’un, je diminue
l’autre.
## Corrélation de variable ordinales
De par sa formule, la corrélation de Pearson ne concerne que les
variables numériques. Il est cependant possible d’appliquer un concept
similaire à des variables ordinales. On parle alors de **corrélation de
Spearman** ou de **corrélation non-paramétrique**, notée \(\rho\) (rho).
Le principe consiste à numéroter indépendamment pour chaque variable,
les observations de la plus petite à la plus grande (selon l’ordre des
modalités). Ces numéros sont appelés les **rangs** des observations. On
calcule alors la corrélation entre ces deux séries de rangs.
La corrélation non-paramétrique s’interprète de la même façon que la
corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y
a toujours le même écart entre deux modalités successives d’une
variable. Lorsque la corrélation non-paramétrique est appliquée sur des
variables numériques, elle rend égaux les écarts successifs entre les
valeurs réellement observées.
Exemple : santé et doc\_4c
Ici, entre la santé et le nombre de visites, on
a un coefficient de corrélation de Spearman égal à -0.363 où si le
nombre de visites augments, la santé diminue. La p-valeur est faible et
donc on a raison d’inférer où notre échantillon est significatif par
rapport à la population. On n’a plus d’intervalle de confiance mais les
mêmes caractéristiques sont présentes.
### Causalité
Pour qu’il y ait causalité d’une variable A vers une variable B, les 3
conditions suivantes doivent être vérifiées :
- A et B doivent être corrélées.
- Il doit y avoir une relation temporelle entre A et B, à savoir que A
doit avoir lieu avant B.
- Toutes les autres raisons pouvant valablement expliquer l’influence
observée de A sur B doivent avoir été écartées.
Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies
que l’on peut parler **d’influence causale** d’une variable sur une
autre \!
- Ici, le terme de corrélation doit se comprendre comme une
association au sens large, linéaire ou non.
### La corrélation n’implique pas la causalité
La corrélation n’implique pas automatiquement la causalité : ce n’est
pas parce que deux variables sont fortement corrélées l’une à l‘autre
que l’une est forcément la cause de l’autre. Il arrive fréquemment que
deux variables soit corrélées car elles dépendant toutes deux d’une même
troisième variable. Il peut aussi arriver que deux variables
s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse,
si la valeur prise par une variable dépend de celle d’une autre variable
(causalité) alors les deux variables sont corrélées.
# Analyse bivariée : comparaison de population. Analyse des données et interprétations
On ne va plus faire des tests sur une seule population mais on veut voir
ce qui se passe quand on a deux populations et on veut voir quel test on
peut appliquer sur ces deux populations.
## Introduction
### Problématique
Un problème classique en recherche consiste à déterminer si deux ou plus
de deux populations sont significativement différentes les unes des
autres. Une problématique similaire s’observe lorsque l’on désire
comparer les réponses de mêmes personnes interrogées à plusieurs
reprises au fil du temps. EN pratique, on considère une ou plusieurs
variables numériques d’intérêt et on se demande si leurs
caractéristiques (moyenne, variance…) diffèrent réellement d’une
population l’autre.
### Données appariées ou indépendantes ?
Deux populations sont dites ***appariées*** si chaque élément de la
première population correspond exactement à un élément de la seconde
population et vice verse. Deux populations sont dites
***indépendantes*** s’il n’existe aucune relation particulière entre un
élément de la première population et un élément de la seconde. Deux
populations appariées contiennent forcément <span class="underline">le
même nombre d’individus</span>, alors que ce n’est pas forcément le cas
pour des populations indépendantes. Ces mêmes concepts s’étendent
naturellement à un nombre quelconque de populations.
### Comparaison des moyennes
Le critère de comparaison le plus souvent utilisé est celui de la
moyenne. ***L’analyse de variance*** ou ***ANOVA*** permet de faire une
comparaison des moyennes entre plusieurs populations. Dans le cas
particulier où l’on ne désire comparer entre-elles que 2 populations, on
utilise généralement le ***test de Student***, une version particulière
de l’ANOVA.
### Tests non-paramétriques
Quand on veut faire un test, on veut dire quelque chose sur la
population. L’ANOVA et le test de Student sont des **méthodes
paramétriques** (on veut établir un paramètre) reposant notamment sur
l’hypothèse selon laquelle les données sont distribuées selon des lois
normales. Cette hypothèse de normalité se révèle parfois fausse. Par
ailleurs, lorsque la taille de l’échantillon est petite, les tests de
normalité usuels, tel que celui de Kolmogorv-Smirnov, ne sont pas assez
puissants et ils ne peuvent donc jamais rejeter l’hypothèse nulle de
normalité, ce qui est donc non-informatif. Les tests paramétriques sont
alors souvent remplacés par des tests équivalents
***non-paramétriques*** qui ne postulent aucune distribution
particulière des données.
Les tests non-paramétriques comparent les médianes et non les
moyennes \! Ils sont généralement moins puissants que leurs équivalents
numériques mais ils sont plus robustes (médiane n’est pas sensible aux
valeurs extrêmes \! Donc test non-paramétrique comparant des médianes et
plus robuste) et ont un plus grand champ d’application. Tests
non-paramétriques pour les comparaisons de populations :
- Test du signe et test du signe de Wilcoxon (comparaison de 2
populations appariées / test de calcul sur la différence entre les
rangs en considérant l’amplitude, à savoir la différence entre les
rangs)
- Test de Wilcoxon et test de Mann-Whitney (test non paramétrique de
comparaison entre 2 populations indépendantes)
- Test de Friedman (comparaison de plus de 2 populations appariées)
- Test de Kruskal-Wallis (comparaison de plus de 2 populations
indépendantes)
Exemple : données du test pilote LHC
En décembre 2014, des étudiants des Universités de Lausanne et Genève
ont participé au premier test pilote d’un nouveau type de questionnaire
biographique online : le LHC (Life History Calendar). A deux semaines
d’intervalles, différentes données ont été récoltés telles que l’âge,
le genre, la taille, le poids, le nombre de déménagements…. Ces données
permettent soit de comparer les réponses données à la même question lors
des deux passations du questionnaire (**données appariées**), soit de
comparer lors d’une même passation les réponses fournies par deux
groupes distincts de personnes (**données indépendantes**).
## Test de Student : données appariées
### Test de la moyenne de la différence
Lorsque les données sont appariées, il est possible de construire une
variable D (quantité à l’instant T1 et T2 et on regarde la différence)
représentant leur différence terme à terme. Soit X et Y, deux variables
appariées dont les moyennes dans la population sont notées \(\text{μX}\)
et \(\text{μY}\). Alors : D = Y – X.
Le test de Student se formule alors de la façon suivante :

**Exemple : comparaison de la taille à T1 et T2**
Nous voulons déterminer si la taille en centimètres donnée lors des deux
passations du questionnaire est la même ou pas. Formellement, D = taille
temps 1 – taille temps 2
Pour savoir ce sur quoi porte le test, c’est
l’hypothèse alternative où la différence réelle est différente de 0.
Donc H<sub>0</sub> = 0 et H<sub>1</sub> ≠ 0. La valeur 0 est-elle
comprise dans l’intervalle de confiance ? Oui c’est le cas donc rien
qu’avec ça, on peut dire qu’on ne peut pas rejeter l’hypothèse nulle
indiquant que la différence ne moyenne est égale à 0. Cela se confirme
avec la p-valeur qui est supérieure au seuil que l’on se fixe pour faire
le test donc dans ce cas-là, on ne peut pas rejeter l’hypothèse nulle.
Il n’y a pas de différence significative entre la taille donnée au temps
1 et la taille donnée au temps 2. Le degré de liberté est de 57 ; on a
une indication sur la taille de l’échantillon et la valeur statistique
de test t.
- On peut conclure en regardant soit la p-valeur soit l’intervalle de
confiance. Les tailles données au temps 1 et au temps 2 par ces
mêmes individus, il n’y a pas eu de changement significatif. A-t-on
le droit d’effectuer ce test ? Les données proviennent d’une
population avec une distribution normale.
##
## Test de Student : données indépendantes
### Test de la différence des moyennes
Lorsque les données sont indépendantes, il n’est pas possible de
construit une variable D représentant leur différence terme à terme. Les
hypothèses du test de Student s’écrivent alors simplement :

### Variances égales ou inégales
Mathématiquement, la distribution théorique du test de Student n’est pas
le même selon que les populations dont sont issues les deux variables X
et Y ont la même variance ou non. Il existe donc deux versions du test
de Student pour des données indépendantes. Afin d’utiliser la bonne
version, on commence par tester l’égalité des variances des deux
variables. Ensuite, si les variances sont égales, on utilise le test de
Student standard alors que si les variances sont inégales, on utilise le
***test de Welch***.
### Test de l’égalité des variances
Le test le plus courant pour comparer les variances de deux populations
est le test F du rapport des variances. Nous voulons tester les
hypothèses suivantes :

Mais ces hypothèses sont reformulées de manière équivalente comme suit :

**Exemple : taille des femmes et des hommes**
Nous voulons déterminer si la taille en centimètres est égale chez les
femmes et les hommes. Nous commençons par comparer les variances des
deux populations :
On va tester les variances dans ces
populations ; est-ce que la variance chez les hommes est le même chez
les femmes ? On fait le test F et il nous dit que l’hypothèse
alternative est indiquée. On regarde la p-valeur (0.55) et on ne peut
pas rejeter l’hypothèse nulle puisqu’on pourrait dire qu’on n’a aucune
preuve pour la rejeter. Peut-on supposer que les variances sont égales ?
Oui \! Le résultat du test, oui, les variances peuvent être supposées
égales.
L’hypothèse d’égalité des variances étant acceptées, nous pouvons
utiliser la version habituelle du test de Student.
On a suffisamment d’évidence pour rejeter H<sub>0</sub> (p-valeur) et
rejeter le fait que la moyenne chez l’homme et chez la femme est égale.
Donc la taille moyenne des hommes et des femmes est significativement
différente.
**Exemple : Age au premier smartphone**
Nous voulons déterminer si l’âge en années
auquel les femmes et les hommes ont eu le premier smartphone est le même
ou pas.
On applique le test F qui nous dit qu’avec une p-valeur inférieure à
0.5, on rejette l’égalité des variances.
Donc, on va devoir faire le test de Welch du
test de Student où on applique le test avec une p-valeur égale à 0.77.
On ne peut pas rejeter l’hypothèse nulle donc l’âge peut être considéré
comme identique entre les hommes et les femmes. Autre manière de voir,
si on regarde l’intervalle de confiance, puisque la différence est
comprise entre -1.313 et 0.981, le zéro se situe là-dedans.
# Analyse des données et interprétation des résultats : analyses uni-,bi- et tri-variées, leur utilité pour la recherche ?
### Objectifs de cette séance
L’analyse univariée nous permet de décrire des variables et comment une
variable est distribuée. L’analyse univariée est aussi importante quand
on fait la plausibilité d’un jeu de données. Par exemple, quand on
récolte nos données, on regarde toutes les fréquences de toutes les
variables pour voir s’il y a des problèmes. A chaque recodage, il est
utile de tirer des fréquences pour voir s’il n’y a pas de missing.
Au niveau bi-varié, on peut regarder des corrélations ou associations
entre deux variables mais on doit toujours veiller au risque de fausse
relation.
## Analyse univariée
C’est l’analyse la plus basique. Elle sert à décrire une variable d’où
le nom univariée tel que combien de femmes on a dans notre échantillon ?
Cette analyse permet de regarder la distribution, la fréquence et le
pourcentage d’items dans une variable. Elle permet également de regarder
la centralité et la dispersion d’une variable à travers la moyenne et la
médiane et pour d’autres types de variables, à travers la moyenne et
l’écart-type.
### Utilité de l’analyse univariée
Ce sont des informations clés qu’on veut savoir. Par exemple, si on
travaille sur l’action protestataire, je veux savoir si je travaille sur
un phénomène marginal ou important de notre société. Elle permet aussi
d’expliquer un processus. La description peut se faire dans le temps
et l’espace mais dans le cas de l’explication qui est un cas plutôt rare
dans la recherche, elle a lieu quand la variable n’est pas mesurée ou
qu’on ne peut pas mesure la variable indépendante. Ainsi, l’analyse
descriptive est capable de nous faire connaître un objet ou un
phénomène. Comme le dit Bunge, pour accroître la connaissance sur un
phénomène, il faut pouvoir le décrire et l’expliquer.
- Exemple : protestation politique dans les démocraties
L’analyse univariée ne permet pas seulement de décrire une variable dans
une base de données mais aussi de suivre une variation dans le temps et
l’espace. Avec ce type d’analyse, on peut répondre aux questions comme
« est-ce que le protestation politique est stable ou fluctuante dans
le temps ? », « Est-ce qu’on retrouve plus/moins de protestation en
Suisse depuis 1968 ? ». On peut également tenter d’expliquer une
variation à travers des moments qui ont eu lieu à un moment donné. On
peut également analyser si la protestation politique varie dans
l’espace. Cette comparaison peut aider à expliquer la variation à
travers les institutions politiques. Par exemple, Kriesi a montré
pourquoi il y a beaucoup de grèves en France et comparativement, peu en
Suisse ? Leur hypothèse c’est que c’est lié aux institutions politiques
des pays respectifs.
- Exemple : stabilisation des conflits politiques et démocratie
(Bartolini et Mair)
L’objectif majeur de leur étude est de tester la thése de Rokkan et
Lipset qui dit que les conflits majeurs dans une société sont organisés
autour de 4 grands clivages politiques qui sont entre le capital et le
travail, entre l’Eglise et l’Etat, entre la ville et la campagne et
entre le centre et la périphérie. Ces clivages sont représentés par les
partis politiques majeurs dans un pays. Du coup, les partis politiques
majeurs reflètent les conflits politiques les plus importants et
permettent ainsi de stabiliser et représenter ces conflits au niveau
politique. Le clivage de classe est le conflit politique le plus célèbre
et il est traditionnellement représenté par un parti précis. Grâce à ce
processus d’intégration politique de ces conflits sociaux, on assiste à
une organisation t à un déclin de ces conflits et ainsi à une
stabilisation de la démocratie puisque l’électorat a pu s’aligner
derrière les partis représentatifs traditionnellement pour ce genre
d’intérêts.
Bartolini et Mair utilisent un dessin de recherche qusi-expérimental de
groupes identifiées en amont (pays) Ils font cette comparaison dans le
temps et l’espace. Ils utilisent un temps très long (un siècle) et ils
comparent 13 pays européens. L’unité d’analyse sont les individus ou
plus précisément, le vote des individus agrégés par période de 5 ans et
par pays. Ils utilisent des données exhaustives donc pas de sondage et
d’échantillon de toutes les élections ayant eu lieu dans chaque pays.
Avec ces données, ils ont créé une mesure de « volatilité » qui mesure
combien de gens ont changé de camp politique d’une période à une autre.
Comme on n’a pas à faire à des mesures de ce que les gens pensent ou
disent ce qu’ils ont fait mais à des chiffres officiels, donc ce sont
des bonnes mesures en termes de validité. De mesure similaire, pour
augmenter la fiabilité, on se retrouve avec deux indicateurs pour la
volatilité du clivage de classe :
1. Une moyenne sur 5 an : meilleure lisibilité des courbes
2. Moyenne sur 5 ans et 1 an : pour voir s’il n’y a pas de biais
(variations erratiques)
Leur hypothèse est affirmée puisqu’une
stabilisation politique signifie qu’il y a moins de volatilité. Sauf
qu’il y a des controverses liées à la volatilité électorale et
clivage. On assiste à une émergence de nouveaux clivages puisque de le
clivage de classe n’existe plus et à une hausse de la volatilité
électorale à partir des années 1990.
- Exemple : citoyenneté contestée (Koopmans, Statham, Giugni, Passy)
Question de recherche : Les migrants arrivent-ils à se mobiliser
politiquement dans leur pays d’accueil ? Cette étude fait le constat en
2005 que le sujet de la migration est des relations ethniques sont des
enjeux vivement débattus dans nos sociétés. Ce débat tourne autour de la
question de l’Etat-nation, c’est-à-dire que c’est l’Etat-nation qui
définit les paramètres du fait « d’être suisse » donc il joue un rôle
important tout comme la migration. Donc les auteurs essaient de lier
l’Etat-nation à la migration. Comme la nation et surtout l’accès à la
nation est au cœur de ce débat, ce sont des débats qui varient en
fonction de l’Etat. Les auteurs appellent cela des débats à géométrie
variable qui varient dans leur contenu qui est discuté mais également
dans le type d’acteurs et le mode d’action utilisé dans un pays
différemment. Dans chaque pays, ce débat a des caractéristiques
spécifiques. L’accès à la nation ne signifie rien d’autre que la
conception de la citoyenneté qui est au centre de ce débat. A nouveau,
cette conception varie d’un pays à l’autre et par conséquent, les enjeux
migratoires peuvent être placés de manière variée sur l’agenda
politique.
L’opérationnalisation des régimes de citoyenneté ou de l’accès à la
nation se fait sur 2 dimensions :
1. Accès individuel : entrée dans l’espace national. L’accès civique
contre l’aspect ethnique (le droit du sol VS le droit du sang).
2. Accès collectif : mesure le fait de vivre ensemble et plus
précisément si dans un pays on accentue plutôt la diversité ou une
assimilation culturelle.
Conséquences de régimes de citoyenneté sont fortes et multiples. Les
auteurs soulignent deux impacts majeurs, à savoir que ces régimes
exercent une influence sur l’intégration/exclusion de migrants et
d’autres part, ces régimes posent des structures contraignantes pour
participer au débat politique et la mobilisation politique.

Pour la Suisse, cela a créé du débat \! A partir de ce cadre théorique,
ils choisissent leur cas d’étude : Suisse, France et GB :
###
### L’étude et ses analyses
On se retrouve dans une comparaison de groupes (pays) qu’ils ont pu
identifier en amont. Donc on est dans un dessin de recherche
quasi-expérimental. L’unité d’analyse sont les acteurs collectifs et
notamment leurs actes de paroles et de mobilisation. Les chercheurs
‘s’intéressent à qui parlent dans un acte de parole ou qui se
mobilisent, comment ils se mobilisent (type d’action) et avec quel
message. Pour mesurer cela, ils utilisent la presse écrite et ils ont
codé une édition sur deux pendant 10 ans. Attention, on pourrait croire
que les 10 ans impliquent une comparaison dans le temps mais ce n’est
pas le cas \! Ils ne regardent pas une comparaison dans le temps puisque
les 10 ans ne doivent pas être pris en compte dans le dessin de
recherche. Ils ont choisi de récolter des données pendant 10 ans pour
augmenter la validité de leurs mesures et d’éviter des variations
conjoncturelles. S’ils avaient pris une année particulière, il y aurait
eu un biais sur leurs résultats censés être généralraislb.es Ils
présentent surtout des fréquences qui comparent les actions d’acteurs
publics dans différents pays. C’est une analyse centrée sur le cas,
typiquement pour un dessin quasi-expérimental. Sauf qu’ils ne peuvent
pas mesurer directement le régime de citoyenneté.
Résultat : les migrants sont-ils porteurs de leur propre revendication ?
Si oui, est-ce le cas dans tous les pays ? La Suisse dispose d’un des
régimes les plus contraignants avec un accès à la citoyenneté civique
et un monisme culturelle. La conséquence serait-elle que les migrants ne
se mobilisent pas ou qu’ils sont exclus de l’espace public ?
Si on compare ce pourcentage relatif entre les
différents pays, on constate qu’il y a une moindre mobilisation en
Suisse qu’en GB. Il semble qu’il y a peu de différence entre la France
et la Suisse. Donc il se pourrait que ce ne soit que l’accès collectif
qui tranche cette différence. Donc le régime de citoyenneté est plus
contraignant en Suisse que dans les deux autres pays.
Conclusion : concernant le régime en Suisse, il y a double contrainte.
En tout cas, pour ce qui concerne la mobilisation des migrants eux-mêmes
en suisse pour des revendications destinées à la Suisse. EN même temps,
l’enjeu de migration est essentiellement porté par des acteurs
collectifs de solidarité et d’autres acteurs qui s’engagent sur
plusieurs enjeux (UNIA). Ces acteurs « suisses » semblent fonctionner
comme des relais politique pour les revendications des migrants.
Migrants en Suisse : que conclure ?
AU niveau thématique, les résultats semblent indiquer que les
institutions de citoyenneté excluent fortement la mobilisation de
certains acteurs et notamment des migrants eux-mêmes mais également le
relais politique privilégié. Ceci fait la lutte pour la voix des
migrants et contre le racisme, une des luttes les plus compliquées de
nos jours.
Au niveau méthodologique, les analyses descriptives ne servent pas
seulement à décrire mais également à comprendre et expliquer des
processus sociaux.
## Analyse bi-variée
Elle constitue un premier pas dans l’analyse causale et met en relation
deux variables. Les outils statistiques qu’on utilise sont les tableaux
croisés, la comparaison des moyennes et les corrélations.
### Utilité de l’analyse bi-variée
Dans ce cours, on nous apprend l’analyse statistique par étape et on
passe du simple au complexe. Cela est nécessaire pour déjouer les
problèmes si on passe directement à l’analyse multivariée. L’analyse
bi-variée nous montre s’il y a une association entre deux variables
aussi elle permet de visualiser la nature de la relation : est-elle
linéaire ou plurilinéaire ou une autre forme de relation entre deux
variables. Ceci est crucial puisque dans une analyse univariée, on ne
peut pas le voir et du coup, ça peut donner des relations
non-significatives et donc inexistantes mais c’est juste parce que la
relation est inexistante. Par exemple, l’âge est plurilinéaire. L’étape
bivariée est une étape incontournable de l’analyse statistique mais
rarement suffisante parce qu’on ne peut pas contrôler les causes
concurrentes et donc éviter les relations fallacieuses. On ne peut
s’arrêter au niveau bivariée.
## Analyse tri-variée
C’est le premier pas vers le contrôle et on met en relation deux
variables sous le contrôle d’une 3<sup>ème</sup> variable. Les outils
statistiques utilisés sont les mêmes que pour l’analyse bivarée. On
utilise également des tableaux croisés, des moyennes comparées, des
corrélations partielles et des régressions multiples (linéaires,
logistiques). L’analyse tri-variée n’a pas de propre outil statistique.
### Utilité de l’analyse tri-variée
Elle joue un rôle clé vers une approximation de la causalité parce
qu’elle permet de contrôler si une relation au niveau bivariée
subsiste au contrôle d’une troisième variable. Dans l’analyse
tri-variée, on peut détecter ce qui se cache derrière. Cependant, pour
avoir un petit retour de l’analyse causale, ce n’est pas seulement par
l’analyse multivariée qu’on peut contrôler pour la causalité.
***L’enjeu pour ce niveau d’analyse est le contrôle de la causalité et
donc de déceler les fausses relations et d’identifier les causes
concurrentes***. C’est pourquoi la théorie joue un rôle essentiel,
permettant de déjouer en amont les causes concurrentes ou les fausses
relations. Ainsi, le contrôle peut s’effectuer à divers moments de la
recherche en fonction du dessin de recherche plébiscité par le chercheur
(expérimentaux = contrôle ex-ante, corrélationnels = contrôle ex-post).
### Logique et analyse du contrôle
- ***Si X a véritablement un effet sur Y, cet effet devra perdurer
malgré l’introduction de causes concurrentes*** |R***.***
- ***Si X*** à ***Y n’est pas une relation fallacieuse, alors l’effet
de X devra perdurer après l’introduction d’une cause concurrente***
|R.
### Logique du contrôle ex-post
Ainsi, le contrôle ex-post tente de déterminer si l’introduction d’une
nouvelle variable influence la relation postulée entre X et Y. Si la
relation ne se maintient pas, quatre explications sont possibles :
Nous nous trouvons dans une ***relation
fallacieuse*** : C’est à dire que la relation supposée est une fausse
relation car un autre effet se cacher derrière elle. La relation X1 à Y
ne se maintient pas lorsque X5 est introduit. Ainsi, c’est X5 qui se
trouve être la véritable cause de la relation entre X1 et Y. C’est par
exemple le cas lorsque l’on observe pour ce qui est de l’acceptation de
la légalisation de l’avortement. Les jeunes acceptent plus grandement
cela par rapport aux vieux si bien que l’on pourrait conclure à une
relation entre âge et acceptation de l’avortement. En réalité, c’est
l’éducation qui se trouve être la cause de cela.

On peut se trouver dans un ***cas de multicolinéarité***. C’est à dire
que les deux causes appliquées à la variable dépendante ne sont pas
indépendantes l’une de l’autre \! L’effet de X1 est restreint pas X5 ,
qui est corrélé à X1 et diminue son pouvoir explicatif. Ainsi, X1
n’explique pas un élément et X5 un autre mais bien le même de manière
associée. Sur le schéma, on voit que les deux causes associées diminuent
par la même leur pouvoir explicatif contrairement au cas où ces
deux causes auraient été indépendantes. Voici un exemple. X1 et X2
explique Y, les deux ont un effet mais le poids explicatif des deux est
diminué de par cette association.

On peut également assister à ***un effet médiatisé***, c’est à dire que
l’effet de X1 sur Y est médié par une seconde variable. Ainsi, l’effet
de X1 est réduit par le présence de X5 , c’est pourquoi on peut parler
d’effet indirect. Sur l’exemple, on voit comment un effet médiatisé
peut exister entre la confiance gouvernementale, la participation
électorale et l’efficacité politique.
Enfin, on peut être en présence d’un ***effet
d’interaction***. Il en existe deux types. Il peut être
***conditionnel***, c’est à dire que l’effet X1 ne s’exerce sur Y que si
la variable X5 est présente, ou ***variable***, c’est à dire que l’effet
de X5 sur X1 varie selon les catégories considérées. Par exemple, on
sait que l’impact d’une manifestation dépend de l’opinion publique sur
elle. Un autre exemple peut être l’impact du genre sur la participation
électorale. Bien que l’on voit que les femmes participent moins que les
hommes, le genre n’est pas la variable explicative première puisque
c’est avant tout le niveau d’éducation qui influence la participation
électorale. Ainsi, on voit que cette variable influence différemment
selon le groupe socioculturel d’appartenance comme le montre ce
graphique.
### Une analyse importante
Ainsi, ***l’analyse tri-variée*** est très importante puisqu’elle permet
de ***rendre compte des relations sous-jacentes et constitue le premier
pas du contrôle (exclure des relations fallacieuses, examiner
l’interdépendance des VI (multicolinéarité), réfléchir aux éventuels
effets médiatisés, détecter les effets d’interactions***. Toutefois, ce
niveau n’est toujours ***pas suffisant*** pour ce qui est de l’analyse
statistique. En effet, le niveau multivarié est très fréquemment utilisé
pour contrôler l’effet de plusieurs causes concurrentes sur une variable
dépendante. C’est ce que l’on appelle les ***analyses de régression
multiple***. De plus, cette analyse constitue le premier pas du contrôle
où on peut contrôler les effets des causes concurrentes tel que l’effet
de l’âge sur la législation de l’avortement ; relation fallacieuse ?
(contrôlé par l’éducation), multicolinéarité (entre intérêt politique et
éducation) et relation additive ?
## Conclusion
L’analyse uni-variée est très importante puisqu’elle permet de décrire
les variables et de commencer à les expliquer. L’analyse bivariée est
tout aussi cruciale bien que problématique, ne permettant d’avoir aucun
contrôle sur nos variables. C’est pourquoi on passe à un niveau
d’analyse plus complexe que représente l’analyse tri-variée. Elle
consiste en le premier pas du contrôle et permet de vérifier si
l’intervention d’une cause concurrente impacte ou non la relation
premièrement observée. Toutefois, elle n’est également pas suffisante,
c’est pourquoi on passe alors au niveau mutli-varié. On a besoin de
méthodes d’analyse plus puissantes telle que l’analyse de la régression
multiple. Ainsi, ***on va toujours du niveau le plus simple au niveau le
plus complexe lorsque l’on effectue des analyses statistiques.***
# Analyse multivariée : régression linéaire. Analyse des données et interprétation
## Introduction
### Modèles statistiques
La régression est un terme exprimant une fonction. De plus, on s’attache
aux régressions linéaires dites des fonctions linéaires. Un modèle
statistique est un outil permettant d’analyser une situation et d’en
tirer des conséquences. Un modèle combine généralement différents
concepts statistiques « simples » tels que la tendance centrale, la
dispersion, la corrélation… au sein d’une ou plusieurs équations
mathématiques. Un modèle permet de tenir compte simultanément de
différents facteurs influençant la situation considérée. Dans la mesure
du possible, un modèle doit tenir compte du plan d’échantillonnage et
des spécificités des données.
### Quelques modèles
- Prédire la valeur prise par une variable numérique =\> **régression
linéaire**.
- Prédire la modalité prise par une variable dichotomique / mooléenne
=\> **régression logistique**
- Comparer plusieurs populations =\> **analyse de la variance
(ANOVA).**
- Réduire le nombre de variables ou d’observations à traiter =\>
**classification automatique / méthodes** **factorielles** (ACP,
AFC,…). Techniques avancées de réduction du nombre de variable.
- Expliquer l’évolution d’une variable au fil du temps =\> **chaîne de
Markov, analyse de survie, analyse des séquences**
### Modèles de régression
Dans un modèle de régression, un ensemble de **variables**
**explicatives** ou **indépendantes** X<sub>1</sub>, X<sub>2</sub>,
X<sub>3</sub>… est utilisé pour expliquer une variable expliquée ou
indépendante Y : *Y* = *f*(X<sub>1</sub>,X<sub>2</sub>,X<sub>3</sub>…)
Le type de régression dépend du type de la variable expliquée *Y* :
- Numérique -\> régression linéaire
- Dichotomique -\> régression logistique
- Nominale -\> régression multinomiale
- Ordinale -\> régression ordinale
Exemple : Données GSOEP
**Exemples de régressions**
- Prédire le REVENU d’un ménage -\> régression *linéaire*
- Prédire le fait d’avoir un TRAVAIL -\> régression *logistique*
- Prédire le nombre de visites chez un docteur durant les 3 derniers
mois en 4 catégories (DOC\_4c) -\> régression *multinomiale* ou
*ordinale*
## Régression Linéaire
### Régression linéaire simple
#### Le modèle
En régression linéaire simple, une seule variable indépendante X
(explicative) explique la variable dépendante Y (expliquée). Le modèle
est linéaire, ce qui signifie que la relation théorique entre les
variables X et Y est une droite. Sauf cas particulier, la relation
linéaire liant X et Y n’est pas parfaite. Le modèle s’écrit alors (ce
qu’on aurait dans la population) :

où *e* est un **terme d’erreur** représentant la part de Y qui n’est pas
expliqué par le modèle linéaire. Après estimations des coefficients
\(\beta\)<sub>0</sub> et \(\beta\)<sub>1</sub>, le modèle fournit une
estimation de  pour chaque observation
Y<sub>1</sub> (dans un échantillon, on a des valeurs estimées et on
essaie d’estimer la pente par bêta. On n’obtient pas directement les
vraies valeurs parce que si on a deux échantillons, on va obtenir deux
échantillons distincts) :

Le modèle comporte deux coefficients à estimer :
- \(\mathbf{\beta}\)**<sub>0</sub> est la constante (ordonnée à
l’origine)** du modèle. C’est la valeur de Y lorsque la variable
explicative Y vaut 0.
- \(\mathbf{\beta}\)**<sub>1</sub> est la pente** du modèle. Elle
s’interprète comme l’effet sur Y d’une variation d’une unité de la
variable X.


Le point commun de toutes les régressions linéaires, c’est le point de
moyenne entre X et Y (\(\overline{x}\),\(\ \overline{y}\)).
### Estimation des coefficients
L’estimation des coefficients
\(\beta\)<sub>0</sub> et \(\beta\)<sub>1</sub> s’effectue selon la
méthode des **moindres carrées**. L’objectif est de trouver la droite
de régression qui minimise globalement les termes d’erreur
e<sub>i</sub>. La droite optimale passe par le point moyen
(\(\overline{x}\),\(\ \overline{y}\)).
- Bêta 1 (pente) : Estimateur des moindres carrées : la covariance de
X et Y / variance de X
- Bêta 0 (constante) = moyenne Y (variable dépendante) – pente x la
moyenne de X
- Pour trouver les coefficients à estimer, il faut faire l’estimateur
des moindres carrées. Pour trouver l’estimation de la constante, il
faut calculer les moyennes et prendre la pente.
**Exemple : REVENU et EDUCATION : Le revenu
dépend-t-il du niveau d’éducation ?**
On voit que dans le tableau des résultats, nous avons trois parties dans
le listing. La partie centrale correspond au modèle lui-même. La
catégorie « intercept » correspond à l’ordonnée à l’origine – bêta 0
(ici = à 0.1669) et la catégorie D$EDUCATION correspond à la pente ou
bêta 1 (ici = à 0.0242). Ainsi, on peut dire que par années d’éducation
supplémentaire, le revenu augmente théoriquement de 0.0242%. Ainsi, il
semble que l’éducation influence positivement le revenu puisqu’il est
possible de trouver une relation entre ces deux variables.
On obtient ça comme modèle. A partir de ce
modèle, on peut prédire quel salaire une personne devrait théoriquement
toucher en fonction du nombre d’année d’éducation à son actif. Par
exemple, quel devrait être le salaire d’une personne ayant été 17 années
à l’école ?
Exemple : REVENU et EDUCATION
Une fois estimé, le modèle peut être utilisé pour faire des prédictions
en l’appliquant sur des valeurs choisies des variables explicatives.
Pour x=17 années d’éducation, le modèle prédit :

soit en moyenne un revenu de 0.5738.
**Attention **:
- Pour faire des prédictions valables, il faut que le modèle soit de
bonne qualité, ce qui n’est pas le cas ici.
- Un modèle ne peut être utilisé que pour des données du même ordre de
grandeur que celles ayant servi à estimer le modèle.
- Ce que le graphique permet de voir, c’est que ***les points ne sont
pas bien alignés sur la droite, ce qui permet de dire que ce modèle
est insuffisant pour expliquer à lui seul le revenu***. Pour obtenir
un meilleur modèle avec un pouvoir explicatif plus fort, il faut
intégrer d’autres variables dans l’analyse. De plus, il faut
***exclure les données aberrantes pour que ces dernières ne puissent
pas influencer et biaiser le modèle*** construit par le chercheur.
En effet, il est bien intéressant de les étudier séparément.

On a remplacé notre variable X et on obtient d’autres valeurs.
On a un intercept plus une pente négative fois
la valeur col bleu oui/non. Cela signifie que si j’augmente col bleu,
l’effet sur le revenu sera augmenté (on regarde le coefficient qui est
négatif et donc on descend dans les valeurs). Si je passe à col bleu,
cela a pour effet un revenu qui décroît par rapport à un col blanc.
### Le modèle
La variable dépendante Y est souvent influencée simultanément par
plusieurs variables explicatives. Soit X<sub>1</sub>,
X<sub>2</sub>,…X<sub>k</sub>, k variables indépendantes qui peuvent
toutes expliquer en partie la variable dépendante Y. Le modèle s’écrit
alors :

Même s’il n’est pas possible de représenter graphiquement le modèle, la
relation entre chaque variable explicative et la variable dépendante
reste <span class="underline">linéaire</span>.
### Indépendance des variables explicatives
Les variables explicatives du modèle doivent être linéairement
indépendantes les unes des autres : il ne doit pas être possible
d’écrire l’une d’entre-elles comme une combinaison linéaire des
autres. Cela revient à dire que chaque variable explicative doit
apporter une information qui lui est propre pour l’explication de la
variable dépendante. Si les variables explicatives ne sont pas
linéairement indépendantes, le modèle ne peut plus estimer et on parle
alors de **multicolinéarité**. Par ailleurs, les variables explicatives
doivent aussi être indépendantes des termes d’erreur du modèle.
Je tente d’expliquer le revenu par l’âge,
l’éducation et le col bleu. Dans notre output, on a à nouveau un bêta
0 estimé, un bêta 1 pour l’éducation, un bêta 2 pour l’âge et un bêta 3
pour col bleu. Si on veut établir l’équation expliquant le revenu, il
serait égal à XXXX. Si je connais cette équation, je suis capable de
donner une estimation du revenu où je remplacerais l’éducation par le
nombre d’années d’éducation. On voit sur l’exemple que le R<sup>2</sup>
est égal à 0.0759, on peut donc conclure que ce modèle permet
d’expliquer à 7,59% le niveau de revenu des individus. Ainsi, c’est un
modèle très insuffisant pour expliquer le salaire, sans pour autant être
inutile puisqu’il permet malgré tout de comprendre une partie de la
variable dépendante Y. La variable col bleu n’est pas significative.
L’interprétation des coefficients, pour une année supplémentaire
d’éducation, j’augmente mon augmentation de 0.024791 en éducation.
### Variables explicatives qualitatives
L’utilisation de variables explicatives qualitatives (nominales ou
ordinales) est problématique car les codes numériques attribués à leurs
modalités sont arbitraires. Si le code change, l’estimation du modèle
change aussi, ce qui n’est pas réaliste. La solution consiste à associer
à chacune des modalités une **variable indicatrice** binaire (0-1). On
parle aussi de **variables muettes** (dummy variables). Une variable
catégorielle à *c* modalités est remplacée par c-1 variables muettes,
la i-ème variable prenant la valeur 1 si la variable originale prend la
valeur i et zéro sinon. Une des modalités sert de référence et on ne lui
associe par de variable indicatrice.
Exemple : REVENU et DOC\_4
Vu qu’on a 4 modalités, il faut trois variables indicatrices valant 0 ou
1.
### Niveau d’analyse
Sauf car particulier, il est toujours possible d’estimer la valeur des
coefficients d’un modèle de régression. Cependant, l’existence du modèle
n’implique pas automatiquement qu’il soit de bonne qualité. Plusieurs
niveaux d’analyse peuvent être utilisés afin de juger de la pertinence
du modèle de régression linéaire :
- Qualité globale de l’ajustement
- Test individuel de chaque coefficient
- Analyse des termes d’erreur
Cette problématique n’est pas spécifique à la régression linéaire. Elle
est présente dans tous les modèles statistiques.
### Qualité globale de l’ajustement
Le premier point à vérifier après avoir calculé un modèle est de savoir
si ce modèle permet d’expliquer réellement, en partie du moins, la
variable dépendante. Si c’est le cas, il sera ensuite utile d’étudier un
à un ses coefficients. Si ce n’est pas le cas, le modèle doit être
purement et simplement rejeté et un autre modèle doit être défini.
### Coefficient de détermination de R<sup>2</sup>
Le coefficient de détermination (ou de corrélations multiple)
R<sup>2</sup> est une mesure variant entre 0 et 1 et représentant la
part de la variable dépendante qui est expliquée par le modèle de
régression. Plus R<sup>2</sup> est proche de 1, plus le modèle s’ajuste
bien aux données. Le coefficient de détermination est défini comme la
proportion de la variance totale expliquée par le modèle :

Dans le cas particulier de la régression linéaire simple,

### Coefficient de détermination R<sup>2</sup> ajusté
Le coefficient de détermination R<sup>2</sup> présente l’inconvénient
d’augmenter en fonction du nombre de variables explicatives. Le
coefficient de détermination R<sup>2</sup> ajusté corrige ce défaut :

où *n* est le nombre d’observations et *p* le nombre de coefficients
estimés du modèle. C’est ce coefficient ajusté qui devrait toujours être
utilisé.
Exemple :
Le col bleu n’est pas significatif. Donc on
teste chacun des coefficients Bêta 1, 2, 3 pour savoir s’ils sont
différents de 0.
###
###
###
###
###
### Test de la significativité globale
Nous aimerons savoir si le modèle contient des éléments utiles pour
expliquer la variable dépendante. Pour ce faire, nous formulons le test
suivant :

Si l’on accepte H<sub>0</sub>, aucune des variables explicatives n’a
d’influence sur la variable dépendante et le modèle doit être
entièrement rejeté.
La statistique de test **F-statistic** se calcule comme :

### Test individuel de chaque coefficient
Même si un modèle apporte globalement de l’information pour comprendre
le comportement de la variable dépendante, cela ne signifie pas que
toutes les variables explicatives sont utiles. Ceci est particulièrement
vrai dans le cas de modèles comportant un grand nombre de variables
explicatives. Seules les variables apportant réellement quelque chose de
significatif doivent être interprétées.
### Test de significativité de chaque coefficient
Nous voulons vérifier si chacun des coefficients du modèle est
réellement différent de zéro et donc utile au niveau de la population.
Nous effectuons pour chaque coefficient le test suivant :

Ces tests sont appelés les **tests de significativité** et le
coefficient est dit significatif si l’hypothèse nulle est rejetée.
Accepter l’hypothèse nulle revient à dire que la variable explicative
correspondant au coefficient testé n’a pas de relation avec la variable
dépendante.
### Coefficients standardisés de la régression
Quelle est l’importance d’un coefficient ? Si on veut comparer les
coefficients entre eux, on ne peut pas le faire parce qu’ils n’ont pas
la même unité. Pour ce faire, il faut essayer de standardiser.
La valeur des coefficients de la régression dépend de l’unité de mesure
des variables explicatives correspondantes. Ce n’est donc pas parce
qu’un coefficient est très différent de zéro qu’il est significatif.
Une solution consiste à standardiser les coefficients de manière à les
rendre comparables les uns avec les autres :

où S<sub>y</sub> est l’écart-type de la variable dépendante et
Sx<sub>j</sub> est l’écart-type de la j-ième variable explicative.

### Analyse des termes d’erreur
Le modèle de régression linéaire repose sur un ensemble d’hypothèses
ayant trait aux termes d’erreur du modèle. Si ces hypothèses ne sont pas
vérifiées, alors le modèle perd en fiabilité et il devrait être modifié.
Selon les cas, ces hypothèses peuvent être vérifiées graphiquement ou
par calcul. Pour une observation i, le terme d’erreur se calcule
comme (valeur réelle (<sub>Yi</sub>) – valeur estimée Y<sub>i</sub>
chapeau estimée par la régression) :

Un terme d’erreur positif correspond donc à une sous-estimation de la
réalité par le modèle et un terme négatif correspond à une
surestimation.
### Erreur standard de la régression
L’erreur standard du modèle de régression est
l’écart-type non-biaisé des termes d’erreur :
La somme carrée des erreurs/ nombre d’observations – nombre de
paramètres estimés (variables) au raciné carré.
L’erreur standard intervient notamment dans le calcul des tests de
significativité et lors de la détection de donnés atypiques de
l’échantillon.
### Données atypiques
Les modèles de régression sont fortement influencés par des données
atypiques ou aberrantes au sein de l’échantillon. Le mieux est de
supprimer ces données avant l’estimation mais il est aussi possible de
détecter leur présence a posteriori. Un critère habituel consiste à
supprimer les données dont le terme d’erreur pris en valeur absolue
dépasse 2.5 fois l’erreur standard du modèle. En supposant normale la
distribution des observations, ces données font partie du 1% des données
les plus extrêmes (grandes ou petites).
Exemple :
La limite pour des données atypiques est 2.5 x
0.208 = 0.52. Les termes d’erreur acceptable sont compris entre
\[-0.52 ; 0.52\]. La valeur maximale est de 2.57 sauf qu’il y a un
souci parce qu’il y a au moins une valeur atypique supérieure à 0.52.

Si on regarde le graphique, on remarque que tout ce qui est au-dessus,
ce sont de trop grandes erreurs donc il y a un souci.
### Hypothèses sur les termes d’erreur

## Construction de modèles
### Deux approches
- **Approche théorique **: on part d’une théorie existante et on
construit le modèle explicatif qui lui correspond. Les variables
explicatives utilisées dépendant de la théorie.
- **Approche empirique **: on recherche le modèle permettant
d’expliquer au mieux la variable dépendante. Le choix des
variables explicatives utilisées dépend uniquement de leurs qualités
statistiques.
- L’approche théorique est généralement préférable à l’approche
empirique.
### Ajustement VS simplicité
Il n’est pas forcément souhaitable que le modèle estimé à partir d’un
échantillon soit trop parfait \! L’échantillon est une image imparfaite
de la population. Un modèle parfait pour l’échantillon ne le sera pas
forcément pour la population. Une telle situation est une situation dite
de surapprentissage. Un bon modèle doit être le résultat d’un arbitrage
entre l’ajustement aux données et la simplicité.
### Approche théorique
Dans le cas d’une approche théorique, le modèle est défini par la
théorie et il n’y a normalement pas de doutes quant aux variables
explicatives à utiliser. La limitation provient naturellement des
données à disposition : si les concepts théoriques n’ont pas pu être
correctement mesurée, alors le modèle ne reflètera pas exactement la
théorie \! Cela rappelle une fois encore l’importance de penser à une
recherche quantitative comme un tout et de prévoir bien avant la récolte
des données ce qui sera fait avec ces dernières du point du vue
statistique.
### Tester la théorie
Partir d’un modèle théorique ne veut pas dire que l’on ne peut pas le
remettre en question. Le test de significativité de chaque coefficient
permet de déterminer quelles variables soutiennent la théorie et quelles
variables la remettent en cause. De même, il est possible d’ajouter des
variables ne faisant pas partie de la théorie, de manière à remettre en
question la théorie et à en proposer une nouvelle.
### Comparer des théories
Dans certains cas, plusieurs théories différentes ont été bâties afin
d’expliquer un même phénomène. Sous réserve de disposer des variables
nécessaires pour chaque théorie, il est possible de calculer un modèle
différent pour chaque théorie, puis de les comparer afin de déterminer
quelle théorie est la mieux soutenue par les données. La comparaison
peut se faire notamment sur la base du coefficient de détermination
ajusté (R<sup>2</sup>) ou de critères d’information tels que le **BIC**.
### Approche empirique
Dans le cas d’une approche empirique, toutes les variables à disposition
peuvent être utilisée comme prédicteurs de la variable dépendante. Au vu
du nombre de modèles différents que cela peut impliquer, il faut
travailler de manière systématique. Principales approches :
- Backward
- Forward
- Blocs
### Procédure backward
La procédure backward prend comme point de départ un
<span class="underline">modèle incluant toutes les variables
explicatives</span> à disposition. On utilise ensuite l’algorithme
suivant :
- Le modèle de régression multiple est estimé.
- Chaque coefficient du modèle est testé individuellement.
- Décision :
- Si tous les paramètres sont significativement différents de
zéro, la procédure s’arrête.
- Sinon, la variable correspondant au paramètre le moins fortement
significative (celui pour lequel l’hypothèse H<sub>0</sub> a été
la plus fortement acceptée) est supprimée du modèle et on
retourne au point 1).
### Procédure forward
La procédure forward prend comme point de départ un
<span class="underline">modèle incluant uniquement une constante</span>.
On utilise ensuite l’algorithme suivant :
- On recherche, parmi les variables ne faisant pas partie du modèle,
celle qui permet le mieux d’améliorer le modèle. Cela peut
nécessiter le calcul de tous les modèles possibles en incluant à
tour de rôle chacune des variables potentielles.
- Décisions :
- Si cette variable est significative lorsqu’on l’ajoute au
modèle, on l’ajoute et on retourne au point 1.
- Sinon, la procédure s’arrête.
Remarque : les procédures « stepwise » combinent les deux approches
précédentes. Une variable peut ressortir du modèle après y être
entrée, et vice versa.
### Construction par blocs
La construction par blocs est une approche intermédiaire entre les
approches théoriques et empiriques. Les variables explicatives sont
réparties en plusieurs blocs (variables essentielles, variables
sociodémographiques, variables de contrôle…) et ces blocs sont ajoutés
successivement au modèle. L’objectif n’est plus seulement d’établir
l’utilité de chaque variable explicative prise isolément mais de
mesurer l’apport respectif de chaque bloc ou type de variables dans
l’explication de la variable dépendante.
### Comment comparer ces modèles ?
Plusieurs critères peuvent être utilisés pour comparer des modèles entre
eux. Tout d’abord, il faut savoir si l’on travaille au **niveau
individuel de chaque variable** ou **au niveau du modèle** pris dans son
ensemble :
- **Au niveau des variables**, on peut utiliser le test de
significativité si la variable est dans le modèle, ou se baser sur
la corrélation (partielle) entre cette variable et la variable
dépendante sinon.
- **Au niveau du modèle**, on peut se baser sur des coefficients
d’ajustement (R<sup>2</sup>), sur des tests du rapport de
vraisemblance, ou sur des critères d’information (BIC).
### Critères d’information
Les critères d’information combinent la qualité d’ajustement du modèle
aux données avec sa complexité :
- Akaike : AIC = *FIT* + 2*k*
- Bayes (Schwarz) : BIC = *FIT* + ln(*n*)*k* -\> où *k* est le nombre
de coefficient estimés du modèle et *n* est le nombre
d’observations.
Plus un coefficient est proche de zéro, meilleur il est. Pour une
régression logistique, *FIT* est égal à -2 fois la log-vraisemblance du
modèle, alors que pour une régression linéaire, il s’agit de *n* fois le
logarithme de la somme des carrés des résidus du modèle.
Il n’est pas possible de tester formellement la valeur du BIC mais
*Raftery* (1995) propose un ordre de grandeur pour la comparaison de
deux modèles. Soit M<sub>1</sub> et M<sub>2</sub>, deux modèles tels que
M<sub>2</sub> est emboîté dans M<sub>1</sub> (ie : il a été obtenu en
supprimant une ou plusieurs variables de M<sub>1</sub> et il est donc
plus simple). Alors :

**Exemple : comparaison de théories**
Pour expliquer le revenu, il faut prendre la
variable travail (oui/non), si c’est un col blanc (oui/non) et s’il est
indépendant. Les 3 variables sont significatives par rapport à leur
p-valeur.

On a la variable santé qui est significative et les deux autres qui ne
sont pas significatives.

On a aussi des variables significatives et d’autres qui ne le sont pas
(âge, diplôme universitaire).
Lequel des 3 modèles est le plus pertinent ? On compare les
R<sup>2</sup> ajusté et les BIC.
Le R<sup>2</sup> du modèle sociodémographique
permet d’expliquer les 12% de notre modèle de comparaison. Avec le BIC,
la valeur la plus petite, c’est une sorte de différence entre ce que ça
prédit et ce qui est réellement donc plus c’est petit, mieux c’est. Pour
les deux critères, on a le modèle sociodémographique qui est meilleur
mais est-ce un bon modèle ? Là, on a environ 12% de variance expliqué
mais ce n’est pas excellent. Parmi les 3, c’est le meilleur mais il
n’est pas très bon.
**Exemple : construction par blocs**
On construit un modèle en examinant tout d’abord l’influence des
facteurs économiques puis celle de la santé et en dernier lieu celle des
facteurs socio-démographiques.
Le <span class="underline">bloc économique </span>: on prend le même
modèle. On remarque qu’il y a au moins une valeur qui est
significative. Toutes les variables sont significatives en l’occurrence
avec un R<sup>2</sup> de 0.0509 donc on explique 5% de la variance.
Maintenant on rajoute les valeurs dues à la santé à ce modèle. Ce
nouveau modèle comprenant deux séries de blocs de variables, il vaut la
peine de s’y intéresser. Est-ce qu’il explique beaucoup mieux la
variable indépendante ? Les variables sont significatives du bloc
économique et juste une du modèle de la santé. Puis on ajoute les
variables socio-démographiques et on obtient un modèle combiné par les 3
blocs de variables. On voit ainsi qu’il y a des variables
non-significatives.
Si on compare ces 3 modèles entre eux,
Le dernier bloc permet la plus forte
augmentation et donc la plus forte explication de la variation (avec un
pourcentage d’environ 16%). Par conséquent, c’est l’ajout des facteurs
socio-démographiques qui permet la plus forte augmentation de
l’explication de la variable dépendante.
**Exemple : sélection backward**
A partir du modèle précédent à 3 blocs de variables, on effectue une
sélection backward en supprimant à chaque étape la variable
non-significative ayant la plus grande p-valeur. On supprime ainsi
successivement les variables suivantes : HANDI.POUR, HANDI, UNIV, AGE.
En termes de R<sup>2</sup> ajusté, le modèle obtenu est très proche du
modèle précédent à 3 blocs, tout en étant plus simple.
Toutes ces variables ont l’air significatives.
Comment expliquer la variance ? Par 16.2% mais qui n’est pas terrible.
C’est un modèle considéré comme mauvais.
# Analyse multivariée : régression logistique. Analyse des données et interprétations
Elle va nous permettre de prédire la valeur d’une ou l’autre des
modalités d’une variable de type catégorielle.
## Introduction
### Problématique
Nous voulons construire un modèle de régression pour expliquer une
variable dichotomique. Problème : une telle variable ne prend que deux
modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux)
alors qu’un modèle de régression produit des résultats numériques allant
de – infini à + infini. Comment faire coïncider une variable dépendante
dichotomique avec l’output d’un modèle de régression ? La solution
consiste en deux étapes successives.
### Transformation logit (fonction)
Soit une variable dépendante dichotomique et soit *p* la probabilité de
la modalité pour laquelle nous allons construire le modèle.
- **Etape 1 **: En considérant la probabilité p plutôt que la modalité
elle-même, nous revenons à une variable dépendante numérique. Mais
une probabilité évolue entre 0 et 1, alors qu’un modèle de
régression produit des résultats allant de –infini à +infini.
- **Etape 2 **: On estime le modèle pour la fonction logit, notée
\(\pi\) plutôt que pour *p* :

- On veut prédire des valeurs avec une régression connue où on se
ramène à un cas où les valeurs vont aller de – l’infini à +
l’infini. C’est une fonction logistique \!

Donc on passe d’une variable dichotomique à quelque chose qui peut avoir
des valeurs allant de – l’infini à + l’infini. La transformation est
permise par le log. Nous on estime sur le PI avec une régression
linéaire.
### Modèle
Equation générale d’une régression logistique :

Même si le modèle de régression logistique ne permet pas forcément
d’expliquer à 100% le logit, on n’indique généralement par le terme
d’erreur car il n’est pas distribué selon une loi bien définie.
Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on
prend quelqu’un au hasard sans connaître ces modalités, on prend la
modalité la plus présente, à savoir le 80 d’individus. En termes de
probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2.
Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre
information à part les données de départ, à savoir de la variable
dichotomique.
**Exemple : données GSOEP**
Nous disposons de données extraites du German Socio-Economic Panel
(GSOEP), un panel représentatif des ménages allemands pour l’année 1994.
Ces données concernant 3377 individus âgées de 25 à 64 ans. On a des
variables liées au travail, à la santé et des variables
socio-démographiques.
## Interprétation
En régression linéaire, il suffit de minimiser la somme des carrées
d’erreur. Ici, on aura une fonction dite de régression logistique.
### Niveaux d’analyse du modèle
Tout comme en régression linéaire, on peut évaluer à la fois la qualité
globale d’un modèle et l’utilité de chacun de ses éléments. Par
ailleurs, les coefficients du modèle peuvent soit être interprétés
directement soit être transformées en *odds ratio – rapport de cote*.
Cette seconde forme est plus naturelle dans le cas de la régression
logistique.
**Exemple : modélisation du fait d’avoir un travail**
La variable dépendante est d’avoir un travail
et on veut l’expliquer avec toutes les autres variables indépendantes.
AIC = critère d’information. On a ici les coefficients nécessaires de
notre régression ; on a des informations sur la qualité du modèle, sur
la valeur des paramètre (dernière colonne).
On a ici de nouvelles informations par rapport
au précédent.
### Qualité globale du modèle : déviance
La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le
modèle et les observations. Elle est utile pour comparer des modèles en
particulier le modèle basique ne contenant aucune variable explicative
et le modèle complet où on a toutes nos variables. Ces deux chiffres
indiquent une certaine distance entre le modèle et les observations.
Plus la distance est petite, meilleur sera le modèle. En ayant une
déviance plus petite, on aura un modèle considéré comme meilleur. Si on
n’a aucune variable explicative et si on prend toutes ces explications
du modèle précédents des variables indépendantes, la déviance est plus
petite et donc le second modèle est meilleur que le modèle où on a juste
les intercept.

### Qualité globale du modèle : chi-2
La statistique chi-2 du rapport de vraisemblance évalue l’amélioration
de la déviance par rapport au modèle « NULL » (avec constante
seulement) :

Si la statistique du chi-2 n’est pas significative, le modèle est
rejeté. Cette statistique permet aussi de comparer des modèles entre
eux.

Donc notre modèle vaut la peine d’être considéré mais cela ne signifie
pas qu’il est bon \! C’est aussi un outil qui nous permet de juger la
validité de notre modèle.
###
###
### Qualité globale du modèle : pseudo-R<sup>2</sup>
- **Cox & Snell **:

- **Nagelkerke** (exemple : R<sup>2</sup> = 0.227)

- **McFadden **:
où -2LL<sub>0</sub> est la déviance du modèle NULL et -2LL<sub>M</sub>
est la déviance du modèle que l’on teste. Au contraire de la régression
linéaire, ces R<sup>2</sup> ne représentant pas la part expliquée de la
variable dépendante mais seulement une mesure de l’utilité des variables
explicatives. Le R<sup>2</sup> ne s’utilise pas de la même manière que
dans la régression linéaire. Ce sont toutes des estimations \!
### Qualité globale du modèle : AIC, BIC…
Les critères d’information d’Akaike et de Bayes permettent aussi de
comparer au niveau global plusieurs modèles :

où k est le nombre de coefficient estimés du modèle et n est le nombre
d’observations. Pour la régression logistique, le *FIT* du modèle est
égale à la **déviance** (-2 fois la log vraisemblance du modèle). Plus
un coefficient est proche de zéro, meilleur il est.
### Test individuel de chaque variable
La significativité des coefficients détermine si la variable
correspondante est significative ou si elle peut au contraire être
supprimée du modèle.
- Variable **quantitative **: c’est l’effet de la variable elle-même
car il n’y a qu’un seul coefficient.
- Variable **catégorielle **: la significativité d’un coefficient
indique uniquement l’effet significatif de la variable muette
correspondante par rapport à la catégorie de référence.
### Variables explicatives à plus de 2 modalités
Lorsqu’une variable explicative catégorielle comporte plus de 2
modalités, elle est remplacée dans le modèle par plusieurs variables
muettes. Une *p*-valeur est fournie pour chacune de ces variables
muettes. Toutes ces variables muettes correspondent à la même variable
explicative. Il faut donc **soit toutes les laisser dans le modèle soit
toutes les supprimer**. Il est possible de tester globalement l’effet de
toutes les variables muettes correspondant à une même variable
explicative en utilisant la statistique du chi-2 pour comparer le modèle
avec et sans ces variables muettes.
Exemple : modèle avec une variable explicative catégorielles à 4
modalités (DOC\_4c)

Modèle sans cette variable explicative catégorielle (DOC\_4c)

Quel est le meilleur modèle ? On peut regarder la déviance résiduelle
(3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2
est très petit. En regardant la valeur du BIC, le 2<sup>ème</sup> modèle
serait meilleur. Par contre, par rapport au critère déviance résiduelle
(distance entre le modèle et l’observation), là, ça semble un peu se
contredire. En fait, ces deux modèles sont extrêmement proches l’un de
l’autre. On peut ainsi dire que par parcimonie, on préférerait le
modèle ayant le moins de variables. On prend les variables muettes du
premier modèle et on les retire toutes ensembles. Si on regarde les
p-valeur, il n’y a que pour une variable où ces significatives. Donc on
les retire toutes.
### Interprétation des coefficients
Un modèle de régression logistique peut s’interpréter soit en termes de
**valeur des coefficients de régression,** soit en termes **d’odds
ratios** (rapport de cotes). Les coefficients mesurent l’influence des
variables explicatives sur le logit de la variable dépendante. Un
coefficient \>0 implique une augmentation du logit et un coefficient \<0
implique une diminution du logit. Problème : le logit n’est qu’une
construction mathématique qui n’est pas facile à interpréter. On sait
seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et
que plus le logit augmente, plus la probabilité augmente.
Exemple : modélisation du fait d’avoir un travail

### Odds ratio
Soit la variable « avoir un travail ». Cette variable n’a que deux
modalités : oui et non. Soit p la probabilité d’avoir actuellement un
travail (oui) et 1-*p* la probabilité de ne pas en avoir (non). Pour un
échantillon de taille n, la cote (odds) associée à cette variable est
le rapport entre le nombre n<sub>oui</sub> de personnes ayant un travail
et le nombre n<sub>non</sub> de personnes n’ayant pas de travail avec
n = n<sub>oui</sub> + n<sub>non</sub>, ce qui revient à écrire :

L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de
la variable expliquée est multipliée lorsque le facteur explicatif
correspondant augmente d’une unité. C’est ce que l’on appelle un **odds
ratio**. Les odds ratios s’interprètent de la manière suivante :
- **Variable quantitative **: impact sur la cote de la variable
expliquée d’une augmentation de 1 unité de la variable.
- **Variable catégorielle **: impact sur la cote de la variable
expliquée du fait d’appartenir à la catégorie indiquée par la
variable muette par rapport au fait d’appartenir à la catégorie de
référence.
- **Les odds ratios ne prennent que des valeurs positives. La valeur 1
sert de référence et indique l’absence de changement**.
Exemple : modélisation du fait d’avoir un travail
Pour avoir les odds rations, on fait e à la
puissance des chiffres de la première colonne. La cote de base de la
variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt
qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 =
0.75. Cette valeur signifie que si on a comme caractéristique d’être une
femme par rapport à un homme, on a 25% de chance en moins d’avoir un
travail.
### Probabilité d’une situation donnée
Etant donné que le modèle est estimé pour la quantité suivante :

La probabilité *p* se calcule alors comme : 
Exemple :
La probabilité d’avoir
un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant
étudié durant 12 ans. Logit :
- Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait
un travail.
## Modèles dérivés
### Régression multinomiale
La régression multinomiale s’utilise lorsque la variable dépendante est
une variable nominale à c\>2 catégories. L’une des catégories joue alors
le rôle de référence et l’on calcule en parallèle c-1 régressions
« logistiques » pour chacune des autres catégories de la variable.
Attention : c-1 régressions ne sont pas indépendantes les unes des
autres et ce modèle n’est pas équivalent à calculer c-1 vraies
régressions logistiques.

**DOC\_4c (référence =0)**
On a pris 4 valeurs.
**Doc\_4C (référence = 0)**

### Régression ordinale
La régression ordinale s’utilise lorsque **la variable dépendante est
une variable ordinale à c\>2 catégories**. On calcule alors une
régression comparant des modalités adjacentes ou des groupes de
modalités cumulées. **Contrairement à la régression multinomiale, un
seul ensemble de coefficients est calculé, à l’exception des
constantes**. Pour utiliser ce modèle, il faut faire l’hypothèse de
**parallélisme des régressions**, ce qui signifie que les coefficients
des différentes régressions doivent être identiques, à l’exception des
constantes. En pratique, cette hypothèse est difficile à vérifier et
l’on préfère souvent en rester à une régression multinomiale.
### Exercice en cours
Sur la base de données disponibles sur moodle (excel), on va s’entraîner
à analyser des régressions linéaires :
1) <span class="underline">Résumer la variable
douleur (qualitative)</span> : variable qualitative dichotomique
ayant 2 modalités. Pour la résumer, il faut calculer le nombre de
fois qu’il y a 0 et le nombre de fois qu’il y a 1. 35 fois 0 et 25
fois 1. En pourcentage, 58% qui n’ont pas de reçu de douleur contre
41% qui ont eu de la douleur.
2) <span class="underline">Prenez un patient au hasard. A-t-il plus de
chance d’avoir une réduction de la douleur ou de ne pas avoir de
réduction de la douleur ?</span> Effectivement, si on prend une
personne au hasard, d’après les données on a 58.3% de chance que la
personne n’ait pas ressenti de la douleur contre 41% de personne qui
ont ressenti de la douleur. Notre meilleur pronostic si on prend une
personne au hasard, elle n’a pas de réduction de douleur ressenti
puisque le pourcentage est plus grand que pour celles qui ont
ressenti de la douleur.
- La seule chose qu’on peut dire c’est que par rapport à mes données,
je regarde la majorité et je parie là-dessus. Si je fais un modèle
basé uniquement sur la variable douleur qui est la variable
dépendante. Ainsi, on estime un coefficient qui est le coefficient
constant puisqu’on n’a aucune autre valeur.
3) <span class="underline">Quel est la cote de base de la variable
dépendante ?</span> On fait la formule de la cote :
(n<sub>oui</sub>/n) / (n<sub>non</sub>/ n) : (25/60) / (35/60) =
0.714.
4) <span class="underline">Qu’est-ce ça signifie d’avoir une cote de
0.714 ?</span> Le 1 est le seuil équivalent entre les 2 populations.
Si on est en dessous, cela signifie que la partie qui nous intéresse
est plus faible. Donc, les chances qu’un patient ait une réduction
de douleur avec une cote inférieure à 1, ses chances diminuent. Donc
cela signifie que le patient a environ 29% de chance en moins que le
patient ait une réduction de douleur.
- Ce qui est inférieur à 1, on a moins de chance d’obtenir l’évènement
en question. Si on a plus que 1, on a plus de chance d’obtenir
l’évènement en question.
Le modèle nul = un modèle dans lequel je ne mets aucune variable
explicative. Je n’ai pas d’autres informations que le fait d’avoir un
patient et la probabilité qu’il ait une réduction de la douleur. AIC =
plus il est petit, mieux c’est (c’est un critère d’information).
5) <span class="underline">Quelle est l’équation de ce modèle
nul </span>? Le pi est le logit. La différence par rapport à une
régression linéaire, on y explique une variable égale à bêta 0 +
bêta 1. Là, on n’explique pas directement la variable qui nous
intéresse. On passe ici par un logit parce qu’on a une variable
dichotomique, on a des soucis en utilisant une régression
logistique. Ici, on évalue un modèle de régression pour le logit.
Donc la réponse est que bêta 0 (pi) = -0.036.
6) <span class="underline">Quelle est la probabilité d’une réduction de
douleur ?</span> (régression logistique) p = 1/1 + e <sup>-
(-0.336)</sup> = 0.417. C’est la probabilité d’avoir une réduction
de douleur.
- On a fait un modèle qui nous permet de prédire la variation de la
variable.
**Modèle avec genre, résumé**
7) <span class="underline">Résumez les données comprenant les variables
Douleur et genre </span>: On a 22 femmes = 0 / 8 = 1 // 13 hommes =
0 / 17 = 1
8) <span class="underline">Quelle est l’équation de ce modèle</span> =
-1.012 + 1.280 x genre
9) <span class="underline">Que vaut le logit pour une femme ?</span>
(Femme = 0) donc -1.012 + 1.280 x 0 = -1.012.
10) <span class="underline">Que vaut le logit pour un homme</span> :
-1.012 + 1.280 x 1 = 0.268.
11) <span class="underline">Quelle est la probabilité d’une diminution
de douleur chez une femme ?</span> p = 1/1+e<sup>-(bêta 0 +bêta 1 x
Genre)</sup> : 0.267. Il y a 26.7% de chance qu’elle ressente une
diminution de douleur.
12) <span class="underline">Quelle est la probabilité d’aucune
diminution de douleur chez une femme ?</span> P(Douleur=0 I Genre =
F) = 1 - 0. 267 = 0.733.
13) <span class="underline">Quelle est la probabilité d’une diminution
de douleur chez un homme ?</span> 0.567.
14) <span class="underline">Quelle est la probabilité d’aucune
diminution de douleur chez un homme ?</span> 1 – 0.567 = 0.433.
15) Rapports de 2 probabilités : P (Douleur = 1 I Genre = F) = 0.267 / P
(Douleur = 0 I Genre = F) = 0.733 / P (Douleur = 1 I Genre = H) =
0.567/ P (Douleur =0 I Genre = H) = 0.433.
<span class="underline">Quel est le rapport de cote chez une
femme ?</span> 0.267/0.733 = 0.364 =\> 8/22
<span class="underline">Quel est le rapport de cote chez un
homme ?</span> 0.567 / 0.433 = 1.308 =\> 17/13
En reprenant notre résumé de donné, on a 8 femmes qui ressentent une
diminution de douleur et 22 qui n’en ressentent pas.
**Modèle avec genre, odds ratio**
Les rapports de cote chez la femme et chez l’homme sont
| | Femme | Homme |
| ---------- | ----- | ----- |
| Odds ratio | 0.364 | 1.308 |
Nous connaissons donc les cotes avant et après 1 unité de changement
dans la variable Genre (Genre = 0 pour la femme, Genre = 1 pour
l’homme).
16) <span class="underline">Quelle est la variation proportionnelle des
rapports de cotes ?</span>
Différence entre les cotes = cote après 1 unité d’accroissement de Genre
/ cotes originales
Nous avons calculé une variation proportionnelle des rapports de cote :
3.596
Les coefficients et odds rations sont :
| | Coefficient | OR |
| --------- | ----------- | ----- |
| Intercept | \-1-01 | 0.364 |
| Genre M | 1.28 | 3.596 |
**Le modèle final suivant est disponible**
La variable traitement contenait 3 valeurs. Puisqu’on a 3 valeurs, on a
besoins de 2 variables dichotomiques pour la représenter.
<span class="underline">Quelle est l’équation du modèle final ?</span>
**Modèle final, équation**
Que vaut le logit pour une femme de 60 ans, ayant reçu le traitement A,
et dont la durée des douleurs précédentes est de 5 jours ?
P= 0.007
Quelle est la probabilité d’une réduction de douleur pour une femme de
60, ayant reçu le traitement B, et dont la durée des douleurs précédente
est de 5 jours ?
P= 0.004.
# Analyses multivariées : leur utilité pour la recherche
## Rappel : types d’analyses : analyses unvariées. VS multivariées
- **Analyses univariées**
- Description de la distribution d’une seule variable
- Fréquences, tendance centrale (moyenne, médiane etc) et
dispersion (écart-type, écart interquartile etc.
- **Analyses multivariées**
C’est une mise en relation de plusieurs variables pour voir comment
elles sont associées. Les analyses bi-variée et tri-variée sont des cas
particuliers. L’usage voudrait qu’on parle d’analyse multivariée dès
lors qu’on analyse plusieurs variables.
- **Analyse bivariées**
Mise en relation de 2 variables. On utilise des corrélations, des
comparaisons de moyennes, des tableaux croisés et des régressions
simples dans ce cas d’analyse. Sauf qu’on n’est pas à l’abri d’une
relation fallacieuse, à savoir qu’on peut avoir une corrélation entre
deux variables mais il n’y a pas de sens en termes de causalité.
- **Analyses trivariées**
C’est une mise en relation de 2 variables sous contrôle d’une
3<sup>ème</sup>. On utilise les mêmes outils statistiques pour une
analyse bivariée et de plus, il y a la régression multiple. Néanmoins,
si le contrôle est limité, quelles sont les causes concurrentes ?
- **Autres analyses multivariées**
C’est une mise en relation de plus que 3 variables. On utilise des
régressions multiples et d’autres méthodes plus complexes dont on ne va
pas triater.
## Régression multiple
La logique, on cherche à expliquer/prédire un phénomène et c’est une
*variable expliquée/dépendante* notée *Y*. A côté de ça, on a une série
de variables <span class="underline">indépendantes ou explicatives
notées X</span>. On cherche à trouver leur effet sur la variable
dépendante.
Variable de contrôle VS indépendante : mathématiquement, il n’y a pas de
différence. C’est une distinction théorique, c’est le chercher qui
décide ce qui l’intéresse vraiment, les variables dont l’effet
l’intéresse et les variables de contrôle sont là pour contrôler.
### 2 usages de la régression multiple
- **Expliquer un phénomène social dans son ensemble**
- Objectif d’expliquer un maximum de la variance de ce phénomène
(variable dépendante) et c’est pour ça que l’examen du
R<sup>2</sup> nous donne l’indice de combien de variance on
explique de ce phénomène.
- Avantage par rapport aux autres types d’analyse : on peut tester
des choses plus complexes. On peut introduire plus de facteurs
explicatifs et par définition, on a plus de chance de cerner le
phénomène qu’on cherche à expliquer (notamment par le
R<sup>2</sup>).
- **Expliquer l’influence de certains facteurs en particulier**
- On est moins intéresser à expliquer un phénomène dans son
ensemble mais on a un intérêt en se demandant quel est
l’influence d’une variable en particulier.
- Avantage c’est ce fameux *toute chose égale par ailleurs –
ceteris paribus* qui nous permet de dire qu’en contrôlant tout
un paquet de facteurs, la variable qui nous intéresse a un
effet. Si on garde tout le reste constant, on peut dire qu’une
variable a un effet. En gros, l’avantage de la régression
multiple est qu’elle permet de contrôler l’effet des causes
concurrentes.
- Coefficients (standardisés et non-standardisés) sont plus
importants, R<sup>2</sup> est moins intéressant sauf si comparaison
de modèles « avec/sans » la variable clé. Le R<sup>2</sup> : de
combien de variance supplémentaire on peut expliquer en ajoutant
cette variable explicative.
## Différents types de régression multiple
Le type de régression utilisée dépend du niveau de mesure de la variable
dépendante (Y).

### Interprétation

B = coefficient de régression / e = terme d’erreur (estimation
statistique) / H<sub>0</sub> = hypothèse avec pas d’effet
### Interprétation

### Régression logistique binaire
Dans l’absolu, le R<sup>2</sup> ajusté est difficile à interpréter par
contre pour comparer des modèles, le R<sup>2</sup> ajusté peut être
utile en disant que celui qui a le R<sup>2</sup> ajusté le plus grand,
c’est le meilleur modèle.
Le logit, c’est une quantité mathématique qui est difficile à
interpréter. Raison pour laquelle on utilise le plus souvent les odd
ratios. Le coefficient, la valeur de référence est 0 pour voir la
relation est + ou -. Pour les odd rations, la valeur de référence est de
1. Si on est entre 0 et 1, on a une relation négative, si on est au-delà
de 1, la relation est positive.
Les cotes = on est à 1 contre 3 ; en gros, sur 4 situations, il y a 1
dans laquelle on gagne et 3 dans laquelle on perd. Dire la côte est de 1
contre 3, on a 1 chance sur 4 de gagner.
Vu que la valeur de référence pour 1 (OR), l’intervalle de confiance
comprend-elle le 1 ?
\(\mathrm{\Delta}\)R<sup>2</sup> : pourcentage de variance qu’on
explique en plus à chaque nouveau bloc
#### Régression multiple : exemple 1
« Social Media Use for News and Individuals’ Social Capital, Civic
Engagement and Political Participation » G. de Zuniga, Jung & Valenzuela
(2012)
Question de recherche : les nouveaux réseaux sociaux (SNS)
renforcent-ils la participation politique ou, au contraire,
l’inhibent-ils ?
Hypothèse : L’utilisation des SNS pour la recherche d’information est
positivement associée à la participation politique offline et online
(=plus les individus utilisent fréquemment les SNS pour s’informer, plus
ils participent politiquement).

**Interprétation**
- Type d’analyse :
- Variables dépendantes numériques (échelles de participation) -\>
régressions linéaires (OLS)
- Informations statistiques
- Coefficients standardisés (Betas)
- Significativité (p-valeurs\*)
- R<sup>2</sup> totaux et surtout \(\mathrm{\Delta}\)R<sup>2</sup>
intermédiaires
- Effet de l’usage des SNS sur participation online ?
- Beta = 0.153, p \< 0.01
- \(\mathrm{\Delta}\)R<sup>2</sup> = 3.6% (R<sup>2</sup> total =
39.3%)
- Effet significatif, positif et assez fort en comparaison avec
d’autres variables explicatives du modèle (e.g socio-démo.)
- Effet de l’usage des SNS sur participation offline ?
- Beta = 0.136, p \< 0.01
- \(\mathrm{\Delta}\)R<sup>2</sup> = 1.4% (R<sup>2</sup> total =
32.5%)
- Effet significatif et positif mais relativement moins important en
comparaison avec ceux des autres variables.
<span class="underline">CCL </span>: Toutes choses égales par ailleurs,
la fréquence d’utilisation des SNS pour la recherche d’information a un
impact positif sur la participation politique offline et online
(hypothèse confirmée) mais surtout en ce qui concerne cette dernière.
#### Régression multiple : exemple 2
Social Media and Decision to Participate in Political Protest :
Observations From Tharir Square » Tufekci & Wilson (2012)
Question de recherche : quel rôle ont joué les réseaux sociaux dans les
évènements de la place Tahrir en 2011 ?

**Interprétation**
- Type d’analyse
- Variables dépendantes dichotomiques (participation oui/non) -\>
régressions logistiques binaires (logit)
- Informations statistiques
- Odds ratio (OR)
- Significativité (p-valeurs\*)
- (Log-likelihood)
- Variables indépendantes dans 1<sup>er</sup> modèle (participation
1<sup>er</sup> jour place Tahrir)
- Blogs (OR =1.574), téléphone (OR=1.531), Twitter (OR =1.414),
Facebook (OR = 1.411), e-mail (OR = 1.313).
- Variables indépendantes dans 2<sup>ème</sup> modèle
(participation manifestations antérieures)
- SMS (OR = 1.180), presse écrite (OR = 1.353), face à face
(OR = 0.613)
- Différents modes de communication prédisent les 2 variables
dépendantes ; impact positif significatif des réseaux sociaux dans
le 1<sup>er</sup> modèle mais pas dans le 2<sup>ème</sup>.
<span class="underline">CCL </span>: A la différence des manifestations
précédentes, toutes choses égales par ailleurs, la chance d’avoir
participé au 1<sup>er</sup> tour de la manifestation place Tahrir est
plus élevée si l’individu a utilisé les réseaux sociaux pour communiquer
à ce propos.
# Analyse des données et interprétations des résultats : préparation à l’examen
## Caractéristiques méthodologiques – en amont des analyses
- Dessins de recherche : expérimental, quasi-expérimental,
corrélationnel
- Type de données : primaires ou secondaires ; échantillonnées ou
exhaustives, unité d’analyse
- Type de récolte des données : échantillonnage, autre
- Mesures : variables dépendantes et indépendantes
## Analyses
### Types d’analyses
- Univariées : Fréquences, moyennes, médianes
- Bivariées : Tableaux croisés, comparaison de moyenne (Anova),
corrélation
- Trivarieés : Tableaux croisés, comparaison de moyenne (Anova)
- Multivariées : régressions linéaires, régressions logistiques
### Statistiques mobilisées :
- Univariées : n / %,moyennes (écart-type), médianes (ei)
- Bi-tri-variées : n / &, moyennes / association (gamma, etc) / sig
(p-valeur)
- Multivariées : n / association (b/B) et sig (p-valeur) / Variance
exp (R<sub>2</sub>)
- Synthèse : distribution, association, significativité, variance
expliquée
## Les questions que l’on se pose ?

## Identifier, interpréter, discuter
1. Identifier : qu’est-ce que c’est ?
2. Interpréter : expliquer, pourquoi ?
3. Discuter : adéquation, est-ce que c’est adéquat ?
1. Points forts
2. Biais possibles et leurs impacts sur les résultats
3. Discussion réflexive




### Texte de référence – Andrews : The impact of social movements on the political process. The civil rights movements and black electoral politics in Mississipi
**Question de recherche **: quels sont les impacts des mobilisations
locales du Civil rights movement sur la politique électorale du
Mississipi ?
L’auteur distingue 4 impacts :
1. Participation des afros américains au processus électoral
2. Soutien aux candidats AA lors d’élections
3. Candidats AA qui se présentent aux élections locales
4. Candidats AA élus
- Type d’impact =\> spécifie les variables dépendantes
**Cadre théorique et hypothèses**
- Mobilisation des ressources : force de mobilisation du mouvement
- Opportunités politiques : alliances politiques
- Stratégie de résistance : contre-mobilisation de la population
blanche
- Cycle protestataire : processus temporel
- Relation entre facteurs changent dans le temps
- Influence des facteurs en fonction du type d’impact
**Caractéristiques méthodologiques**
<span class="underline">Corrélationnel :</span>
- Analyse de la relation entre variables dans un groupe
- Le groupe : Etat du Mississipi
<span class="underline">Quasi-expérimental</span> :
- Analyse temporelle : impacts dans le temps du mouvement
- Comparaison dans le temps : 1964 (FV) à 1984 (élections AA)
- Trois phases : processus
- Mobilisation du mouvement
- Développement de structures électorales
- Election de candidats
<span class="underline">Corrélationnel et quasi-expérimental :</span>
- Adapté à la question de recherche : variations et processus (temps)
- Force : 1964-1984
- Faiblesse : Cas du Mississipi
- Force : Cas important dans l’histoire de la protestation CRM
- Force : Variation dans la mobilisation (Variance)
- Faiblesse : cas exceptionnel de l’Etat du Mississipi (Sud et
USA)
- Limite la portée des résultats -\> Attention à la généralisation
Autre proposition de dessins de recherche ?
- Comparaison du Mississipi avec un autre Etat moins exceptionnel
- Limite : faisabilité
**Type de données et collecte**
<span class="underline">Type de données et unité d’analyse</span>
- Countries : n = 81
- Country de Jackson supprimé : cas exceptionnel (mobilisation et
population)
- Données agrégées par country
- Données exhaustives (pas de sondages, échantillon)
<span class="underline">Types de collecte de données</span>
- Sources documentaires (archives)
<span class="underline">Type de données et unité d’analyse :</span>
- Countries : adaptées au questionnement
- Variation du type d’impact au niveau collectif (par country)
- Exhaustives : pas d’autres solutions possibles
<span class="underline">Type de collecte de données :</span>
- Peu (pas) d’information pour évaluer problèmes, biais ?
- N = ensemble des countries (n=81) (Sauf Jackson)
- Force : exclusion du country de Jackson (cas exceptionnel)
<span class="underline">Variables dépendantes =\> 4 types d’impact et 9
mesures :</span>
1. Participation des AA
1. Nombre de voix au Freedom vote (1964)
2. Nombre de AA enregistrer pour voter (1967)
2. Soutien aux candidats AA
1. % de vote pour Whitley (1966)
2. % de vote pour Evers (1971)
3. Candidats AA participant au processus électoral
1. Nombre de candidats AA : 1967 – 1971
4. Candidats AA élus
1. Nombre de candidats AA élus : 1974, 1979, 1984
<span class="underline">Validité (opérationnalisation) :</span>
- Mobilisation des AA = soutien au FV et inscription électorale
- Soutien aux candidats AA = % de vote des candidats AA
- Candidats AA participants = nombre de candidats AA se présentant
- Candidats AA élus = nombre de candidats AA élus
- Pas de problème de validité
- Force : temporalité prise en compte (t1, t2 etc.) de 1964 à 1984
- Segmentation du processus pour cerner l’impact électoral
<span class="underline">Fiabilité </span>:
- Pas de problèmes apparents
- Pas d’information sur des comptages différents par country
<span class="underline">Variables indépendantes -\> 3 effets et 5
mesures</span>
1. Mobilisation du mouvement
1. Nombre de militants du Freedom Summer (1964)
2. Nombre de militants du NAACP (1966)
2. Opportunités politiques (alliances politiques)
1. Présence d’examinateurs fédéraux)
3. Contre-mobilisation (White Americains)
1. Résistance au Freedom Summer : attaques physiques (1964)
2. Résistance violente (indice) : attaques / assauts (1960-69)
**Caractéristiques méthodologiques – synthèse**
<span class="underline">Dessin de recherche </span>:
- Adapté : variation dans le groupe et dans le temps
- Attention à la généralisation (cas du Mississipi)
- Force : temporalité prise en compte par les mesures
<span class="underline">Type de données :</span>
- Adaptées : agrégées (countries) et exhaustives)
- Force : exclusion du county de Jackson (cas exceptionnel)
<span class="underline">Mesures :</span>
- Validité : pas de problème
- Faiblesse : opportunités politiques = protection de l’Etat
- Fiabilité : pas de problème apparents (pas d’info.)
**Analyses**
- <span class="underline">Type d’analyse </span>: laquelle, pourquoi,
adéquat ?
- <span class="underline">Utilité de l’analyse </span>: hypothèse
testée, analyse adéquate ?
- <span class="underline">Statistiques mobilisées </span>:
coefficients, tests etc., notre interprétation, interprétation de
l’auteur (adéquat) ?
- <span class="underline">Robustesse des résultats </span>: problèmes
d’indicateurs (influences) ?




# Analyse multivariée : comparaison de populations
### Problématique
Un problème classique en recherche consiste à déterminer si plusieurs
populations sont significativement différentes les unes des autres. Ce
problème a déjà été abordé précédemment dans ce cours pour le cas de
deux populations (test de Student). Nous allons maintenant passer au cas
général et aborder la notion **d’analyse de variance** ou **ANOVA**.
L’objectif est de déterminer si l’appartenance à une population plutôt
qu’une autre permet d’expliquer les valeurs d’une variable quantitative.
Comme pour le test Student, le principe de base de l’ANOVA consiste à
comparer la moyenne de la variable quantitative dans les différentes
populations étudiées.
### Logique de l’ANOVA
<span class="underline">Le chercheur contrôle 1 ou plusieurs
variables :</span>
- Appelées facteurs (parfois appelés traitements)
- Chaque facteur contient deux modalités ou plus (i.e parfois appelés
niveaux)
<span class="underline">Le chercheur observe l’effet sur la variable
dépendante :</span>
- Réponses observées pour chacune des modalités
<span class="underline">Plan d’expérience :</span>
- But : maximiser la précision en minimisant le nombre d’observations
- Considérer un ou plusieurs facteurs pendant la constitution du
dessin expérimental
- Equilibré si toutes les modalités avec la même taille d’échantillon
## ANOVA à 1 facteur
Evaluer la différence parmi les moyennes de 3 ou plus populations (1
population par modalité du facteur)
Suppositions :
1. Les populations sont normalement distribuées
2. Les populations ont des variances égales
3. Les échantillons sont indépendants, tirés aléatoirement
4. La variable expliquée est quantitative
### Hypothèses : ANOVA à 1 facteur
H<sub>0</sub> : \(\mu\)<sub>1</sub> = \(\mu\)<sub>2</sub> =
\(\mu\)<sub>3</sub> = …= \(\mu\)<sub>C</sub>
- Il y a *c* populations
- Toutes les moyennes des c populations ont égales
- i.e. pas d’effet de facteur (traitement)
**H<sub>1</sub> : pas toutes les moyennes sont identiques**
- Au moins 1 moyenne est différente
- i.e il existe un effet de facteur (traitement)
- Il faut donc *c* échantillons correspondants aux *c* populations.
Si rejet de l’hypothèse nulle
- Quelles populations ont des moyennes différentes ?
- On ne sait pas \!
Il faut donc effectuer d’autres tests pour le savoir : **tests Post
Hoc **qui viennent après. Il existe au moins une population qui diffère
des autres. On va aller plus loin en voyant quelle population est
distincte des autres.
**Exemple : clubs de golf**
Question : est-ce que les moyennes sont égales
entre les 3 clubs ? On a des moyennes par club et la moyenne globale.
1 : La variable quantitative qu’on aimerait expliquer ? Ici, ce sera la
distance.
2 : On a une variable dite facteur : le club de golf. Il comporte 3
modalités donc j’ai besoin de 3 échantillons pour dire des choses.
Si je veux savoir si les moyennes sont significativement différentes les
unes des autres ou au moins une, je procède par confirmer que les
moyennes sont différentes en fonction du club utilisé. On va aller vers
des notions proches de la variance.
##
## ANOVA à 1 facteur (simple)
### Décomposition de la variation
La variabilité totale est décomposée en deux parties :

### Somme des carrés totale

### Somme des carrés résiduelle

### Somme des carrés expliquées

### Test
Pour arriver à une bonne discrimination entre les populations, les deux
conditions suivantes doivent être remplies :
1. La variance doit être grande entre les moyennes de populations :

2. La variance doit être petite au sein de chaque population :

- En considérant le rapport de ces deux quantités, on peut tenir
compte simultanément des deux conditions.
Soit les carrés moyens :

La statistique de test s’écrit alors : 
- **L’hypothèse nulle est rejetée lorsque F est grand**. On a
suffisamment d’évidences pour penser que les moyennes sont
distinctes. Si on rejette l’hypothèse nulle, il y a au moins une
valeur qui est différente des autres.
## Table ANOVA
Les résultats d’une ANOVA sont généralement présentés sous une forme
standardisée appelée table ANOVA :

### Hypothèses sous-jacentes à l’ANOVA
1. Les populations sont normalement distribuées. La normalité peut être
testée par exemple à l’aide du test :
1. Test de Kolmogorov-Smirnov
2. Test de Shapiro-Wilk
2. Les populations ont des variances égales. L’égalité des variances
peut être testés, par exemple à l’aide :
1. Test de Levene
2. Test de Hartley
3. Les échantillons sont indépendants, tirés aléatoirement. Il est
préférable mai pas obligatoire que l’échantillon issu de chaque
population soit de même taille.
4. La variable expliquée est quantitative.
Gold : homoscédasticité (variance homogène)
Test sur l’égalité des variances
Les variables semblent être homogènes.
Golf : normalité
Les données ne semblent pas provenir de
distributions normales, pour chacune des 3 populations.

Golf : ANOVA
### Tests post hoc
Lorsque l’hypothèse nulle de l’ANOVA est rejetée, nous savons qu’au
moins deux moyennes sont significativement différentes l’une de l’autre
mais l’analyse ne nous dit pas desquelles il s’agit. Il est donc
nécessaire d’effectuer des comparaisons supplémentaires entre les
populations. Pour comparer globalement 2 à 2 toutes les populations sans
que le risque de se tromper sur l’une des comparaisons ne soit trop
grand, des procédures particulières, les **tests post hoc**, existent.
Ces procédures répartissent le risque d’erreur total \(\alpha\) entre
les différentes comparaisons à effectuer.
### Test de Tukey
Le test de Tukey s’emploie lorsque nous voulons comparer 2 à 2 toutes
les populations. Pour *c* populations, il faut donc effectuer :

**Golf : Tukey**
On conclut entre le club 2, le club 1 et club
3, les moyennes ne sont pas égales \!
###
###
### Test de Dunnett
Le test de **Dunnett** s’emploie lorsque l’une des populations sert de
témoin ou de contrôle et que nous voulons comparer toutes les autres
populations contre celle-ci. Pour c populations, il faut donc effectuer
*c*-1 tests de la forme :

**Golf : Dunnett**
Nous utilisons le groupe « club 1 » comme groupe témoin. La moyenne du
club 1 – moyenne club 2, la différence est significative. Si on avait 5
clubs de golf, on aurait 4 comparaisons.
## Développements
### Populations définis selon plusieurs critères
Exemple : Donnée GSOEP
Des populations peuvent être définies sur la base de plusieurs facteurs.
L’ANOVA permet alors de tester simultanément l’apport de chacun de ces
facteurs, ainsi que leur éventuelle interaction. Dans ce cas, la table
ANOVA regroupe plusieurs tests. Lorsqu’un facteur est significatif et
qu’il comporte plus de deux modalités, il est toujours possible de
faire ensuite des tests post hoc.
**Santé et service civil**
On peut voir que l’hypothèse nulle est rejetée
pour le genre, aussi pour le service civil. La dernière ligne, elle
signifie qu’entre les différents facteurs, il peut y avoir des
influences croisées appelées des interactions où les facteurs
interagissent entre eux. On en tient compte lorsqu’on crée le modèle. Si
on combine les deux facteurs, est-ce qu’il y a une influence ou pas ?
Ici elle n’existe pas. La p-valeur est supérieure à 0.05 et donc, on ne
rejette pas l’hypothèse nulle. Ainsi, cette p-valeur ne nous permet de
rejeter l’hypothèse nulle et genre et service civil ensemble n’ont pas
d’influence ensemble sur l’égalité des moyennes.
On voit qu’il n’y a pas d’influence dans ce
graphique. Il y a du parallélisme entre les deux droites.
**DOC.3M en fonction de GENRE, HANDI et C. BLANC**

Lorsqu’on a 3 facteurs, cela commence à devenir complexe parce qu’on a
le genre, le handicap et le col blanc. On voit l’interaction des
facteurs entre eux. Au fur et à mesure qu’on rajoute des facteurs, cela
devient compliqué à gérer. On <span class="underline">évite d’avoir trop
de facteurs</span> en même sauf que le principe reste le même puisqu’on
regarde la p-valeur ; les moyennes sont-elles distinctes ou pas ?
### Analyse de données appariées
Lorsque les mêmes sujets sont observés à plusieurs reprises au fil du
temps (données appariées), l’intérêt est de savoir si une évolution est
présente entre les différents moments d’observation. Une telle analyse
est dite **facteur** **répété**. Si les sujets n’ont été observés qu’à
deux reprises, une version du test du Student peut être utilisé. Sinon,
il s’agit d’une ANOVA.
Evolution de DOC.3M entre 1984, 1988 et 1991

On fait la même chose qu’avant, on regarde la différence dans la moyenne
en prenant la p-valeur. Sauf qu’ici, on regarde aussi la comparaison
dans le temps.
### Analyse de covariance (ANCOVA)
En plus de dépendre de facteurs catégoriels, la variable numérique
étudiée peut aussi être influencée par une ou plusieurs variables
numériques (souvent appelées **covariables**). Le principe consiste
alors à supprimer l’influence de ces covariables avant d’étudier
l’influence des facteurs. En pratique, on suppose qu’il existe un lien
linéaire entre les covariables et la variable dépendante et les
covariables apparaissent comme des variables explicatives dans le
modèle. Ce modèle est une analyse de covariance (ANCOVA).
**Covariable AGE par rapport à la SANTE**

### Analyse de variance multiple (MANOVA)
Certains phénomènes difficiles à définir sont souvent représentés par la
combinaison de plusieurs variables (notion de bien-être, citoyenneté…).
L’analyse de la variance multiple (MANOVA) permet d’analyser la
répartition de sujets des groupes par rapport à plusieurs variables
numériques simultanément.