Introduction aux méthodes quantitatives

De Baripedia
Révision datée du 29 avril 2020 à 07:21 par Blob (discussion | contributions) (first push full course)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

# Cours introductif

## Objectifs du cours


1.  Savoir interpréter les analyses quantitatives et statistiques

   

   1.  Les comprendre et les interpréter correctement

   

   2.  Déjouer leurs pièges et évaluer leurs apports

2.  Comprendre la production de ces analyses

   

   1.  Elaboration et collecte de données

   

   2.  Elaboration des analyses statistiques

3.  Connaître les outils statistiques

   

   1.  Présupposée, leur application possible et nos usages

4.  Réflexivité et vigilance épistémologique

   

   1.  Esprit critique et autonomie (≠aveuglement vs relativisme)

## Utilité d’une telle formation


1.  Citoyen.nes éclairées

   

   1.  Consommateur de médias

   

   2.  Citoyen.nes acteurs

2.  Futur professionnel

   

   1.  Rapports mobilisant ce type d’analyse

   

   2.  Formation en science sociales

3.  Comprendre la production intellectuelle en science sociale :

   comprendre diverses statistiques (but, points forts et faibles)

   

   1.  Comprendre les études et la production du savoir

   

   2.  Autonomie intellectuelle

## Importance des méthodes

Exemple avec P. Bourdieu : les sciences sociales ne peuvent exister sans

empirie. Une analyse empirique scrupuleuse du monde social qui permet de

mettre en exergue des dimensions essentielles de la réalité sociale.

L’analyse empirique du monde social est la clé de l’élaboration

théorique.

Exemple avec R. Merton : il souligne également l’importance des méthodes

quantitatives mais dans une vision opposée à celle de Bourdieu par

rapport à l’empirie et à la théorie. Pour lui, la théorie sert de

fondement logique et c’est à partir d’elle qu’on peut formuler des

hypothèses. Néanmoins, il en oublie pas moins l’empirie et il attribue

un rôle essentiel à la *serendipity*. C’est la découverte par chance ou

sagacité de résultats que l’on ne cherchait pas. Il y a donc un

va-et-vient entre la théorie et l’empirie.

  - Tous deux estiment l’importance de l’empirie pour le développement

   de travaux sociaux, et cela passe par les méthodes de recherche.

En science sociale, l’empirie est essentielle pour l’élaboration

théorique (Bourdieu), pour la créativité théorique (Merton) et pour la

théorie considérée comme le premier pilier de la production du savoir.

Les méthodes ont aussi accès au terrain et elles sont le second pilier

de la production du savoir. Ces méthodes rendent ainsi possibles l’accès

au terrain.

## A éviter

### Méthodes VS techniques : conception technicienne

Le terme de méthode vient du latin et signifie une direction qui mène au

but ou un chemin à suivre. Cette notion n’est pas forcément claire.

C’est au XIXème qu’il va obtenir une définition plus claire, à savoir

un procédé ou une technique que l’on met en œuvre. Cela illustre la

première tension qui se retrouve dans le métier du chercheur qui est

souvent de substituer la compréhension. Cette compréhension des méthodes

sous l’angles des méthodes est dangereux. Une compréhension technicienne

ne rend pas compte du travail de construction et d’élaboration qui sont

derrière tout travail de recherche. On a besoin de ce travail de

construction et d’élaboration pour construire un objet de recherche.

Cela va aussi influencer la manière dont on va regarder le monde social.

Néanmoins, c’est souvent restreint en raison d’un faible budget.

Derrière le choix d’une recherche, il y a un nombre élevé de

contraintes. Si on prend les méthodes comme techniques, on ne se rend

pas compte que les résultats découlent des choix du chercheur et donc,

ce sont des constructions et non pas des statistiques « naturelles ». De

plus, les méthodes nous écartent du chemin d’une vigilance critique à

laquelle doit se soumettre tout chercheur. D’ailleurs, des innovations

théoriques reposent sur des innovations méthodologiques.

  - Grâce aux méthodes quantitatives, on répond à un certain type de

   questions.

### Données chiffrées VS constructions

Il n’y a pas de donnée qui se donnent à voir naturellement mais c’est

toujours une construction du chercheur. Derrière les chiffres, c’est la

même chose. Le terme de « donnée » veut étymologiquement dire « faire

don », ce qui induit l’idée de données de recherche offerte aux

chercheurs sur un plateau d’argent. A partir du 18ème siècle, les

intellectuels rompent avec cette vision idéale pour conclure que ***les

données correspondent avant tout à une construction du chercheur,

construction sociale puisqu’elle est située dans le temps et dans

l’espace***. En effet, les débats sociaux, politiques, idéologiques...

sont influents si bien que les données sont tout sauf données mais bien

construites et mise en scène par le chercheur en fonction de l’époque et

du lieu où il se trouve.

  - C’est pourquoi on parle de processus, la construction de donnée

   n’étant jamais définitivement terminée.

### Statistiques et sciences sociales

Enfin, ***le passé commun des statistiques et des sciences sociales***

est à prendre en compte, bien qu’elles se soient progressivement

différenciées puis institutionnalisées séparément. C’est pourquoi les

statistiques ont dû ***importer des savoirs qu’il a fallu adapter*** au

mieux pour l’usage nouveau qu’il en était lors fait. Par exemple, les

chercheurs travaillent encore aujourd’hui sur le concept de base de

l’échantillonnage, bien qu’il ait été complexifié depuis. Les

statistiques se sont beaucoup développées si bien que maintenant, nous

sommes dans un travail d’importation de connaissances depuis une autre

discipline.

C’est pourquoi il est important de travailler sur les connaissances et

leur histoire afin de mieux comprendre l’appropriation qu’il en a été

fait. L’étude des méthodes est d’ailleurs possible uniquement sur la

base de recherches spécifiques, comme l’explique Auguste Comte :

« La méthode n’est pas susceptible d’être étudiée séparément des

recherches où elle est employée ; ou, du moins ce n’est là qu’une

**étude morte**, incapable de féconder l’esprit qui s’y livre ».

En effet, il postule que les méthodes doivent être réfléchies en

fonction du terrain d’enquête et que par conséquent, des méthodes

abstraites, dénuées de tout fondements empiriques sont inutiles. C’est

pourquoi ***les méthodes ne peuvent être développées que par le biais de

recherches spécifiques***. C’est également ce que plaide Pierre

Bourdieu :

« Ceux qui portent un souci méthodologique jusqu’à l’obsession font en

effet songer à ce malade dont parle Freud, et qui passait tout son temps

à essuyer ses lunettes sans jamais les chausser ».

### Unicité VS pluralité des chemins

Enfin, ***il ne faut pas penser que les méthodes qualitatives et les

méthodes quantitatives sont opposées***. Il existe une pluralité de

méthodes, les méthodes quantitatives et qualitatives comme approches

dominantes, mais également d’autres méthodes comme les méthodes

exploratoires ou confirmatoires. Toutefois, chacune se différencie des

autres au travers d’un aspect spécifique, comme les méthodes

quantitatives reposant sur la statistique de base.

# Histoire et développements des méthodes quantitatives en sciences sociales

On ne veut pas se laisser uniquement guider par les méthodes et les

données. On n’a pas l’idée que les chiffres parlent d’eux-mêmes et

qu’ils détiennent la vérité. D’autant plus, les observations ne sont

pas suffisantes pour comprendre la réalité sociologique. Par exemple,

les enfants de famille monoparentale aux USA réussissent moins bien leur

parcours scolaire. Cela s’explique par différentes interprétations. Si

on vise à trouver une hypothèse, il serait nécessaire de faire une

comparaison avec l’Europe pour tenter d’en savoir plus.

  - Les chiffres ne parlent pas d’eux-mêmes et il est difficile de ne

   pas tomber dans ce piège surtout lors de grandes enquêtes.

Un grand nombre d’outils sont élaborés à l’extérieur des sciences

sociales et cela pose problème. L’effet de cette externalisation est que

les outils ne sont pas toujours adaptés aux problèmes.

  - Mise en perspective est nécessaire quant aux méthodes puisqu’elles

   construisent la réalité.

## La relation entre les sciences sociales et les statistiques

On est face à un phénomène social complexe. La statistique donne des

formules et des chiffres pour pouvoir interpréter la réalité. Sauf que

les deux domaines sont intimement liés. Les sciences sociales et

statistiques sont nées des préoccupations communes. Les statistiques,

l’arithmétique politique et les mathématiques se sont développés puis,

on voit émerger leur institutionnalisation sauf qu’au lieu de devenir

une discipline spécifique des sciences sociales, elles se rapprochent

des sciences mathématiques. Cela a des implications, à savoir que

l’origine des statistiques ne peut être fixé à une date précise. Les

données chiffrées proviennent de la Chine, d’Egypte et des Incas. En

Europe, ces données deviennent centrales au XVI<sup>ème</sup> et c’est à

cette époque que les mathématiques commencent à dominer le monde. On

commence à systématiser le phénomène de la nature et on souhaite la

mesurer comme en astronomie. Quant aux statistiques, elles sont nées

dans le contexte du XVII<sup>ème</sup>. A l’origine du mot, il y a le

*Staat* et cela montre le lien entre la construction des Etats nations

et le développement des statistiques. Du coup, compter les hommes et les

ressources industrielles est central dans le processus de construction

et de consolidation de l’Etat. La statistique descriptive était

responsable de récolter des données économiques et démographiques de

manière systématique.

Le contexte politique n’est pas le seul qui contribue au développement

de la statistique. Le contexte scientifique est en explosion avec les

mathématiques qui deviennent une discipline majeure des sciences. De

plus, on est dans un contexte philosophique avec les Lumières qui

apportent l’idée du progrès avec les sciences. Le contexte social et

économique ; on est au début de l’industrialisation qui va apporter des

changements profonds de la société. En même temps, l’industrialisation

apporte des outils qui vont booster les statistiques comme l’imprimerie

qui va permettre de diffuser l’information.

### Empires, Etats et statistique

De plus, ces savoirs statistiques précoces sont différents de leurs

préoccupations et de leurs domaines en fonction des différents

Etats-nations où ils émergent. Ces savoirs sont d’origine et de formes

différents selon les États et la manière dont ceux-ci sont construits et

articulés dans la société. En Allemagne, la tâche principale est de

connaître ces Etats, ces ressources et ses difficultés. On assiste à une

tradition de description globale des Etats. En France, on souhaitait une

administration forte et un pouvoir royal fort. Dans ce contexte, on

souhaite avoir des statistiques descriptifs de l’Etat ; au service du

pouvoir royal. En GB, on a un autre fonctionnement, à savoir qu’il y a

une bourgeoise émergente qui est relativement autonome et du coup, la

statistique vise à mesurer la population et le bien-être de la

population (alcoolémie). Cela devient une statistique plus analytique

qui essaie de comprendre ce phénomène et c’est focalisé sur des groupes

spécifiques.

On est face à deux types de statistiques qui se développe :

  - Au service de *l’Etat *: aide à la décision politique avec une

   « comptabilité nationale » (ALL et FRA)

  - Au service de la *société *: montrer les inégalités et les

   difficultés sociales, exercer des pressions politiques (GB)

Dans les 2 cas, la statistique devient un instrument puissant qui sert

comme en ALL et en FRA en tant qu’outil de rationnaliser la décision

politique. Des décisions prouvées par les faits comme on pensait à

l’époque et on développe <span class="underline">la théorie des

erreurs</span> pour juger le degré de certitude d’un résultat trouvé. En

GB, grâce à la statistique qui est au service de la société,

l’arithmétique politique émerge. Elle est l’ancêtre des méthodes

quantitatives puisqu’on commence à mesurer des phénomènes sociaux. C’est

une constellation historique particulière qui favorise ce développement,

marqué par des changements politiques et sociaux majeurs. Ces derniers

sont combinés entre une bourgeoisie intellectuelle et plus autonome par

rapport à l’Etat. Ce contexte provoque une curiosité intellectuelle pour

comprendre la situation anglaise. Dans ce contexte, F. Bacon portait une

vision humaniste et souhaitait améliorer la vision sociale de la

société. Il avait une influence sur l’arithmétique politique car il

prenait une observation rigoureuse dans toutes les disciplines,

organisation systématique de recherche et une démarche inductive

(qualitative) et il pensait toujours dans l’idée d’observation qui

permettait selon lui de trouver la vérité. Encore, W. Petty est perçu

comme le fondateur de l’arithmétique politique. Le principe de base de

Petty était le suivant :

« La méthode que j’emploie n’est pas encore très commune car, au lieu de

me servir seulement des termes, comparatifs et superlatifs, et

d’arguments purement intellectuels, j’ai adopté la méthode qui

consiste à s’exprimer en termes de nombres, poids et mesures ; et

d’utiliser uniquement des arguments observables, et de considérer

uniquement de telles causes comme ayant un fondement visible dans la

nature ; laissant ceux qui dépendent d’idées variables, opinions,

appétits intellectuels, et passions à la considérations des autres ».

## Etude de la société et statistique

### Arithmétique politique : logique de la démarche

Idée de base est passer par des observations quantifiées, rigoureuses et

objectives. Donc on veut objectiver la réalité à partir de l’observation

pour entrer dans le monde de la science. Avec cette démarche, l’anatomie

sociale est utile pour cerner l’état de la population, la santé

publique, alcoolémie et la criminalité au moyen d’enquêtes sociales. Le

but de la recherche étant de découvrir des lois sociales par des

observations neutres et des enquêtes. Donc on veut se rapprocher des

sciences naturelles. On souhaite comptabiliser des phénomènes sociaux en

découvrant des régularités et ce, en procédant par une démarche

inductive dans une visée explicative.

Süssmilch était un pionner de la diffusion de l’arithmétique politique

sur le continent : « observation des grandes masses est la voie de la

connaissance des régularités de phénomènes paraissant aléatoires ».

### Arithmétique politique se développe

**Arithmétique **: comptabiliser les phénomènes sociaux mais aussi

tenter de les expliquer par l’inductif pour découvrir des régularités

sociales, c’est-à-dire des lois sociales.

Puis, ces idées deviennent encore plus centrales et se développent. On

assiste à une multiplication des descriptions sur toujours plus de

groupes et de problèmes sociaux différents. Volonté d’entrer dans le

domaine de la science par la production de vérité et d’information

objective. Au sein de l’Etat, on se rend compte de la nécessité des

statistiques dans tous domaines de l’activité des Etats : création

d’offices statistiques et formation statistique des fonctionnaires

pour répondre aux besoins de l’administration. Instauration de

recensements réguliers et réflexion plus poussé sur la méthodologie,

c’est-à-dire analyses et méthodes, innovations techniques pour

collecter et présenter des données. On développe des questionnaires et

des sondages ; la première utilisation du questionnaire date de la fin

du XVIII<sup>ème</sup> quand Davis a mené une enquête sur le budget des

travailleurs agricoles.

Sauf qu’il faut attendre encore 40 ans pour remarquer un début de

volonté d’institutionnalisation des sciences sociales et de la

statistique. Dans ce contexte se glisse l’idée de l’*homme moyen*

développé par Quételet. On souhaite désormais étendre l‘usage des

mathématiques à toute dimension de la société. Il note que pour

beaucoup de phénomènes sociaux, les proportions restent stables dans le

temps (suicide, alcool). Donc les phénomènes sociaux sont régis par des

lois analogues à la physique et les méthodes statistiques permettraient

de les découvrir en restant toujours dans une logique déterministe.

  - Idée centrale, c’est que l’homme moyen permet de caractériser et

   comprendre les lois régissant le système social. Donc les moyens

   deviennent des causes constantes tandis que les lois et les

   variations, des causes accidentelles. Quételet introduit les

   probabilités et les chances en sciences sociales.

  - Les sciences sociales et statistiques ont un destin commun, trouvé

   avec développement de l’arithmétique politique, se poursuit avec

   l’entrée toujours plus poussée de l’entrée des mathématiques.

## Sciences sociales et statistique

### Différenciation et institutionnalisation (fin 19<sup>ème</sup>)

Au terme de ce long processus, les statistiques s’institutionnalisent à

la fin 19<sup>ème</sup> siècle, passant aussi par une complexification

de l’outil, notamment les probabilités. C’est le début de ***la

statistique moderne***. C’est à ce moment-là que la *statistique

inférentielle*, la régression, l’échantillonnage et les méthodes

représentatives émergent, techniques toujours utilisées aujourd’hui. De

plus, les biais cherchent à être compris et pris en compte pour qu’ils

affectent au minimum les résultats obtenus. ***On assiste à la

progressive séparation des diverses branches des sciences sociales,

notamment avec Auguste de Comte, portant le projet de constituer la

sociologie comme discipline à part*** et ce, en se basant sur la

philosophie positiviste de Saint-Simon. 


###

### Divorce consommé

On assiste alors au rejet de la mathématique sociale du passé afin

d’adapter les mathématiques à la compréhension du social. En effet, la

loi sociale, soutenue par certains chercheurs, fut vivement combattue

par la majorité (Mill, Comte, Durkheim...). L’idée émerge alors que ce

n’est pas les mathématiques qui pourront transformer la science du

social en science dure. ***Pour Mill comme pour Comte, la sociologie est

une science déductive et non inductive comme l’induisait la méthode

chiffrée***. Il s’agit dès lors de développer des théories au travers

desquelles il est possible d’aller étudier le monde social. Max Weber,

grand sociologue, explique que la sociologie se doit aussi d’être

compréhensive, c’est à dire qu’elle est la science qui comprend par

interprétation le monde social. Ainsi, ***la sociologie et la

statistique se séparent. Malgré tout, les nombres restent utilisés dans

les recherches sociologiques pour démontrer les faits avérés. C’est

pourquoi on ne peut considérer ce divorce comme absolu***. Toutefois,

pendant des années, une véritable guerre a eu lieu entre les tenants des

approches quantitatives et ceux des approches qualitatives. Aujourd’hui,

cette opposition est révolue et les recherches sociologiques combinent

alternativement les deux méthodes, chacune permettant de saisir et de

comprendre des aspects différents de la réalité sociale.

***Les chiffres ont ancré les sciences sociales dans les sciences***. En

effet, les chiffres ont permis aux sciences sociales d’acquérir un degré

de scientificité, de positivisme leur permettant de prétendre à

l’appellation de « sciences ». C’est aussi le chiffre qui a permis

l’institutionnalisation de ces disciplines au sein des universités.

### Un passé commun aux conséquences importantes

**« Ancrage des sciences sociales dans les sciences »**

  - Sciences sociales à l’image des sciences physiques

  - Arithmétique/Mathématique sociale : « Physique du social »

  - Philosophie positiviste (A. Comte) : Connaissance de phénomènes et

   de faits (≠science morale)

  - Moyenne, régularités, lois, probabilités

**Logique de la démarche**

  - Observation systématique

  - Objectiver des faits et phénomènes sociaux

  - Observation sur le grand nombre

  - Méthodes quantitatives : rôle particulier pour ancrer les sciences

   sociales dans le bastion des sciences

## Développement des recherches empiriques

### Développement sur sol étasunien et Ecole de Chicago (1920-1940)

Ce qu’il considère comme « données » sont les données chiffrées que l’on

nomme « hard date » en opposition aux données issues des méthodes

qualitatives, nommées « soft data ». ***Alors que les premiers débats

sur les statistiques et ses premières avancées méthodologiques se

développent en Europe, la guerre, entrainant la migration de nombreux

penseurs, fera que la suite du développement des méthodes quantitatives

se déroulera sur le sol étasunien***. C’est le cas de Lazarsfeld, qui

sera le détenteur de la première chair universitaire en méthodes

quantitatives à l’université de Columbia. Premièrement, c’est l’Ecole de

Chicago qui développe de grandes enquêtes sociales basées sur l’usage

des méthodes qualitatives. Puis de nombreux chercheurs combinent les

méthodes qualitatives et quantitatives pour mieux appréhender les

phénomènes sociaux avant qu’une séparation nette n’intervienne. ***Paul

Lazarsfled*** importera les statistiques dans les sciences sociales. En

publiant son ouvrage majeur, « The people Choice », il illustrera

l’importance de l’usage de ces méthodes en sociologie. C’est aussi à

ce moment-là où le béhaviorisme se développe aux USA, théorie postulant

que seuls les faits observables peuvent expliquer le monde sensible.

### Demande forte de recherche en sciences sociales

Cet essor des méthodes quantitatives est dû à l’histoire. ***Après la

seconde guerre mondiale, la demande pour comprendre ce qui s’est passé

est énorme***. Comment expliquer que l’Allemagne, pays de la culture, de

la musique... est pu basculer dans cette horreur ? C’est également après

la guerre que la ***psychologie expérimentée*** émerge, avec notamment

Milgram et son expérience sur la soumission à l’autorité. En effet, les

méthodes en sciences sociales doivent beaucoup à la psychologie. C’est

aussi le moment où nait le sondage aux Etats-Unis, développant une

méthodologie de constitution d’échantillonnage très fine avec pour but

premier de prédire les résultats électoraux.

Enfin, ***le développement de l’informatique a joué un rôle

important***. Ce nouvel outil a fortement facilité le travail de

dépouillement des sondages, en travaillant notamment sur de grandes

bases de données. La démocratisation de l’informatique dans les années

1965, notamment avec des logiciels comme SPSS, a beaucoup aidé les

méthodes quantitatives à se développer. On trouve alors ***les premiers

ouvrages méthodologiques***, notamment celui de Lazarslfed ou encore de

Blacklock. Mais ***ce qui a le plus fait évoluer à la fois les méthodes

qualitatives que les méthodes quantitatives, c’est la séparation nette

qui avait été faites entre elles, devant perpétuellement surpasser sa

rivale pour gagner en légitimité***.

  - Toutefois, la colère gronde chez les sociologues pour qui l’usage

   exclusif des méthodes quantitatives dans les recherches était

   réducteur, voire catastrophique. Aujourd’hui, les méthodes

   quantitatives sont toujours prédominantes, surtout en politique et

   psychologie, bien que ***depuis les années 2000, la tendance est à

   une combinaison toujours plus équitable des deux approches***.

## Résumé

  - Les méthodes quantitatives ont été utilisées en sociologie dans le

   but d’en faire une science à l’image des sciences naturelles d’où

   les termes parfois utilisés (corps social). 


  - Pour se faire, les chercheurs ont tenté de dégager des lois sociales

   absolues, comme la loi de la gravité de Newton. 


  - Cette crédulité totale sur le chiffre est toujours présente bien

   qu’il faille s’en méfier. 


  - Alors que de nombreux chercheurs des années 1950 étaient formés à la

   fois en statistiques et en sciences sociales, cette double formation

   est aujourd’hui très rare. C’est pourquoi un important travail

   d’importation des savoirs doit être fait de manière rigoureuse

   pour les adaptées à la discipline d’accueil.

  - Les méthodes quantitatives sont omniprésentes dans notre société,

   d’où l’importance de connaître ces méthodes pour développer un

   regard critique et échapper à l’illusion du chiffre.

  - Les méthodes quantitatives et qualitatives ont un passé commun.

# Méthodes quantitatives et qualitatives : des épistémologies distinctes ?

**Résumé précédent**

1.  La statistique et les sciences sociales ont un passé commun avec

   l’idée d’une arithmétique politique qui a permis à l’Etat de

   connaître ses effectifs et ses ressources. C’était surtout

   descriptif en comptant les phénomènes et non les expliquer. Viser à

   un statut de science comme la physique ou l’astronomie.

2.  Différenciation de ces deux branches avec l’intrusion des

   mathématiques. On ne parle plus d’arithmétique politique mais on

   l’appelle la mathématique sociale. La différence est l’idée de la

   probabilité et l’incertitude tout comme pleins d’outils techniques

   qui se complexifient.

3.  Sciences sociales s’émancipent en établissant leur propre démarche,

   à savoir la déduction et puis appropriation des méthodes

   quantitatives au travers de la psychologie notamment.

## Les méthodes vont au-delà de la simple récolte de données

L’épistémologie, à savoir la théorie de la connaissance s’intéresse à

savoir de comment produire des connaissances scientifiques.

« Lorsque nous parlons de méthodologies « quantitatives » ou

« qualitatives », nous sommes en train de parler d’un ensemble de

postulats sur le monde social qui sont à la fois philosophiques,

idéologiques et épistémologiques. Elles vont donc au-delà des simples

techniques de récolte des donnée ». Cette citation de Rist explique que

les méthodes quantitatives sont plus qu’une simple production

d’informations qualitatives et qu’elles sont plus que des chiffres.

Certes, il y a une production de données chiffres mais ce n’est que la

pointe de l’iceberg. Avant tout, on construit des données et cela repose

sur une conception particulière des sciences sociales et du monde et qui

tente seulement de se rapprocher à la réalité. Avec n’importe quelle

approche, les données récoltées montrent qu’un extrait de la réalité. Le

plus souvent, les méthodes quantitatives prennent la démarche déductive

en validant les données. Cette approche a une manière distincte de

concevoir la réalité sociologique et de la reproduire.

## Les méthodes reposent sur des postulats philosophiques spécifiques

Pour illustrer que les postulats et que les méthodes influencent notre

regard, on prend comme exemple ces images. Les postulats des méthodes

influencent notre regard, nos résultats et notre compréhension du monde

social. Une description reste abstraite et on va l’illustrer par le

biais d’un exemple. Pour sa thèse, le professeur a récolté des données

de sondage et d’entretiens. Par la récolte de données quantitatives, les

militants avaient la même vision du monde tandis qu’avec l’analyse

qualitative des entretiens, chaque militant était singulier. Il y a donc

des résultats distincts voire contradictoires entre ces deux types de

données. Ainsi, les deux méthodes posent des questions distinctes et des

buts différents pour dépasser cette frustration initiale.

### Pilier structurant : quête des faits – positivisme

  - Quelles sont les jumelles particulières des types de méthode ?

Pour la démarche **quantitative**, le positivisme est un des piliers

structurant. Le positivisme repose sur l’idée que la science peut

atteindre des vérités et donc progresser dans la connaissance en

observant des choses observables et en qualifiant ces choses comme

réelles. Saint Simon ou Comte sont des représentants importants de

cette démarche. A cette époque, les sciences sociales essaient de se

rapprocher des sciences naturelles pour obtenir le statut de vraie

science. Le positivisme qualifie ce qui est fondé sur l’expérience et

sur l’observation comme des faits réels. Il s’oppose à la théologie et

ce sont l’objectivité et la visibilité qui priment ; on veut se

rapprocher d’une réalité objective et concrète. La théorie qui en

découle se base uniquement sur la connaissance des faits et de

l’expérience scientifique. A cette idée s’associe aussi que le

chercheur reste neutre par rapport à son objet.

### Le positivisme

Au 19<sup>ème</sup>, le positivisme est le standard de connaissance,

c’est-à-dire que c’est le seul chemin « juste » de la science. C’est

le cas pour les sciences naturelles sauf qu’à l’époque où Comte voulait

élever les sciences sociales au rang de sciences, c’était la seule voie

possible pour les sciences sociales. On voulait décrire les phénomènes

sociaux comme des phénomènes naturels avec une description objective des

faits (neutralité) et cet objectivisme est la voie unique des

connaissances en passant par la régularité de phénomènes aléatoires (par

exemple avec la criminalité pour voir si ce taux change dans le temps et

pour prendre des mesures politiques par la suite). Pour l’arithmétique

politique, on avait pour but de trouver des lois sociales au même titre

que les sciences naturelles.

Pour Comte, « maintenant que l’esprit humain a fondé la physique

céleste, la physique terrestre, soit mécanique, soit chimique ; la

physique organique, soit végétale ou animale, il lui rester à terminer

le système des sciences et d’observation en fondant la physique sociale.

Tel est aujourd’hui le plus pressent besoin de notre intelligence. » Il

a établi des caractéristiques dont les traces sont encore visibles. Les

sciences sociales adoptent le langage des sciences naturelles, on

commence à parler de variables, d’indices, de mesures, de

l’expérimentation ou encore de systèmes causaux et bien d’autres

concepts. Ce langage mais aussi la manière à conduire des recherches

imitent le modèle des sciences naturelles.

Avec une démarche hypothético-déductive, on est dans une approche où la

théorie prime, c’est-à-dire en construisant un modèle théorique puis en

allant par la suite le confronter à la réalité. Par ce biais, on

construit des outils de récolte de données qui sont informés par la

théorie appliquée et qui laisse peu de place pour poser d’autres

questions qui pourraient être importantes. Ce n’est qu’avec ce modèle

que des connaissances peuvent être fiables et robustes, selon cette

pensée.

  - A la base de cette démarche, on souhaite découvrir des vérités et

   atteindre l’objectivité. On voulait concurrencer le poids lourd des

   Eglises.

## Problèmes généraux

Fortement inspiré par les sciences naturelles et cela génère des

problèmes. Une des conséquences c’est que c’est un **monisme

méthodologique**. Une seule approche est permise pour servir le monde

social avec des méthodes et procédures de recherches des sciences

naturelles qui sont importées dans les sciences sociales. Cette approche

est problématique car l’objet d’études en sciences sociales n’est pas

seulement abordable par des observations objectives puisqu’on regarde

des individus et des groupes sociaux qui interagissent. Ceci est une

particularité des sciences sociales qui nécessitent une autre démarche

philosophique et méthodologique pour les appréhender. D’autres approches

existent comme la démarche interprétative qui sont plus fiables.

Problème de **l’empirisme** ou le **phénoménalisme **: Le béhaviourisme

veut analyser les comportements politiques des individus. Ceci est

difficile en ne se basant que sur des phénomènes observables. La

démarche positiviste exclut l’incorporation des notions métaphysiques

comme l’expérience subjective par exemple. La construction du sens ou de

structures invisibles sont exclues de la démarche scientifique. Mais

comment expliquer l’abstention politique sans s’intéresser à la

perception politique du citoyen ? De telles questions sont importantes

actuellement où on voit des structures supranationales de plus en plus

menacées comme l’UE.

Focus sur les **régularités** et la quête après les **lois sociales**.

Si on se concentre uniquement sur les régularités, on néglige les

variations. Si on dédit des lois sociales à partir de l’homme moyen

comme Quételet, on écarte toutes connaissances sur des individus qui ne

sont pas des hommes moyens. Par exemple, les salaires entre hommes et

femmes ne sont souvent pas les mêmes. Donc on arrive à des conclusions

qui ne sont pas vraies pour les uns et les autres. Si on ne prend en

compte les variations, les lois sociales qui en découlent sont forcément

erronées.

**Déductivisme **: Cette quête suite aux régularités et lois sociales

est inscrite dans une démarche déductive pour trouver des relations

causales. On développe des hypothèses en amont à partir de cadres

généraux et théoriques qui sont ensuite testés empiriquement.

L’approche déductive est la seule démarche scientifique à cette

époque. C’était le chemin unique pour construire la connaissance et ça

ressemble beaucoup à la démarche de Popper qui disait que les sciences

ne pouvaient avancer que par validation/invalidation des paradigmes

(*Falsification des théories*). Le problème de la démarche déductive,

c’est que la recherche ne procède pas d’une manière linéaire mais

plutôt circulaire. Ainsi, il y a des dimensions difficilement

incluables dans la recherche. Dans la réalité, les théories s’élaborent

aussi à l’aide de la démarche déductive.

**Posture du chercheur **: penser que la recherche et le chercheur sont

neutres et objectives. Weber ou Popper pensaient que la recherche doit

se distancier des valeurs et avoir une position neutre. Ils pensaient

que la démarche scientifique est une démarche objective pouvant se

distancier des jugements et de valeurs et que la recherche ne doit pas

être contaminée par le profil personnel du chercheur. Sauf qu’une

observation n’est jamais neutre car les chercheurs sont historiquement

et socialement situés d’autant plus qu’ils appliquent des lunettes

conceptuelles.

  - Le positivisme nous amène à une idée particulière de la science qui

   est fortement critiquée dès les années 1960.

### Résumé des critiques

  - Idée qu’il y a une seule et vraie méthode (monisme)

  - Idée qu’on observe uniquement des choses visibles

  - Phénomènes sociaux se comportement selon des régularités et que les

   lois sont identifiables

  - La démarche déductive est la seule voie scientifique

## Déductivisme

A partir du modèle type du déductivisme, on récolte des données pouvant

tester les hypothèses. Puis, l’analyse de ces données génère des

résultats de recherche qui permettent de valider ou de réfuter des

théories. Cependant, la réalité est nettement plus complexe et c’est le

cas pour les processus de recherche qui sont moins linéaires que ce

modèle. On est donc plutôt face à une circularité entre toutes ces

cases.

### Problèmes spécifiques

Dans une questionnaire ou entretien, on ne peut pas demander la classe

sociale des citoyens. Ce qu’on demande c’est la profession, le fait

d’avoir des responsabilités dans le travail ou sa propre perception de

son appartenance de classe ou encore d’autres indicateurs. Par ce

travail **d’opérationnalisation**, on peut avoir des résultats

différents.

Autre problème de cette démarche est la volonté de mettre les concepts

en relation, ceci avec l’idée des sciences naturelles. Or, hormis

l’expérimentation, il est difficile d’évaluer empiriquement des

relations causales pour des raisons évidentes : **l’expérimentation** en

science sociale n’est souvent **pas possible**. En sciences sociales, on

est souvent forcé d’argumenter théoriquement la direction de la

causalité. Par exemple, est-ce que c’est l’intérêt pour la politique

qui augmente la votation ? On ne sait pas exactement quel facteur

influence l’autre. Heureusement, il existe des techniques pour arriver

empiriquement à s’approcher d’une relation causale comme les panels

d’une part ou les expérimentations d’une autre. Sauf que ces choses

sont difficiles à mettre en place en raison de coûts ou de questions

éthiques. Avec certains, on peut faire des corrélations.

***La causalité est centrale dans la démarche quantitative***, puisqu’il

s’agit d’illustrer et d’expliquer un phénomène social. Cette volonté

découle de la vision durkheimienne du monde social, selon laquelle les

phénomènes sociaux doivent être traités comme des choses. Toutefois, il

est impossible d’atteindre une causalité véritable, corrélation n’étant

pas égal à causalité. Si on postule un lien de causalité entre X et Y,

ce qui est réellement important, c’est la flèche \! Et donc ***le lien

social*** qui relie deux éléments.

Un des points forts des méthodes quantitatives est la **généralisation**

et donc l’idée qu’à partir des échantillons représentatifs, on peut

tirer des informations sur l’ensemble de la population. Cette idée est

importée des sciences naturelles sauf que cette force est surestimée.

Dans la réalité, on est face à des échantillons spécifiques qui ont des

biais influencés par le tirage d’échantillon mais surtout la manière

dont les répondants participent. En science sociale, on utilise souvent

l’étude de cas à la base de laquelle il est difficile de généraliser

même avec une démarche quantitative. Une solution pour diminuer ce

problème est de multiplier les ancrages empiriques et comparer les

résultats similaires mais distants dans le temps et l’espace.

Multiplier les ancrages empiriques veut dire **réplication**. C’est un

autre concept importer des sciences naturelles où la même expérience

peut être facilement appliquée dans les laboratoires. Dans la

perspective de la recherche quantitative, cette dimension est impliquée.

La réplication permet d’être plus proche de la réalité sauf qu’une

réplication parfaite n’est pas possible puisqu’on n’est pas dans des

laboratoires en sciences sociales. La réplication est utile pour l’étude

des variations et de regarder si on retrouve les mêmes processus sociaux

dans des contextes étant différents.

Enfin, un dernier problème à prendre en compte lors de l’usage des

méthodes quantitatives, c’est le fait que ***l’individu représente le

point focal, l’unité d’analyse par excellence***. Les faits sociaux sont

donc déduits par le biais de l’agrégation de tous les individus. Mais

selon Durkheim, cette approche est problématique puisque ***le tout est

distinct de la somme de ses parties***. En négligeant le contexte, les

normes sociales en vigueur mais aussi les interactions, les résultats

peuvent en être gravement affectés. Pour résoudre ce dernier problème,

les chercheurs tentent actuellement de trouver un modèle

d’opérationnalisation pertinent.

### Que conclure ?

Les méthodes sont basées sur des présupposés qui orientent notre regard

social et la manière dont la démarche est faite aujourd’hui est toujours

influencée par cette approche. Cela permet d’avoir un regard réflexif.

Tous ces points critiques touchent de loin tous ces chercheurs. La

recherche quantitative connaît ses difficultés. Les problèmes de la

généralisation, de la réplication et de l’individualisme sont

aujourd’hui acceptés et fortement discutés. Il existe des réflexions

et des mesures sur les processus de recherche.

**En résumé :**

  - Il représente toutefois le pilier des méthodes quantitatives, ayant

   permis leur émergence.

  - Le positivisme a grandement influencé la pratique des méthodes

   quantitatives en sciences sociales, bien que cette influence diminue

   avec le temps. On essaie actuellement de prendre en compte les

   interactions, les relations, les normes... pour complexifier les

   modèles et s’approcher toujours plus près de la réalité sociale. 


  - Bien que l’ambition première du positivisme fut la neutralité dans

   les méthodes, cela n’existe pas empiriquement. C’est pourquoi le

   chercheur doit prendre conscience de ses présupposés pour ne pas

   tomber dans une analyse de type « loi sociale ».

  - Le positivisme appliqué à la pratique de la recherche en sciences

   sociales entraine de nombreux problèmes à résoudre.

  - L’opérationnalisation est au centre de méthodes quantitatives. Il

   s’agit de créer des catégories au sein du monde social, de mesurer

   les phénomènes sociaux et d’y apposer des chiffres ...

  - La démarche hypothéticodéductive, bien qu’aujourd'hui dépassée, a

   jouer un rôle prépondérant dans l’émergence de ces méthodes.


  - ***Il faut donc prendre en compte les forces et les limites de cette

   approche***.

## Méthodes qualitatives

Observation participant développée par Malinowski, les interviews

non-structurées, les récits de vie ou des focus group ont introduit une

plus forte variété dans le type de collectes de données que la démarche

quantitative qui est plus uniforme (positivisme). Les méthodes

qualitatives reposent sur deux piliers ; la **quête du sens** et

**l’analyse de structures invisibles**. Le développement de cette

approche se nourrit de réflexions critiques pré-existantes chez Comte,

Sorokin etc. mais c’est dans les années 1960 qu’on retrouve une

dimension plus critique des méthodes quantitatives. Les méthodes

qualitatives reposent sur une autre conception de la réalité sociales

grâce à des épistémologues qui ont décortiqué la démarche de recherche.

On est face à un virage intellectuel important en défrichant les

structures invisibles du monde social en prenant le point de vue du

sujet. Il n’y a plus d’idée de la neutralité.

## Traditions sociologiques

### Interprétation des acteurs

Pour interpréter les acteurs, d’autres démarches que la démarche

positiviste et quantitative sont nécessaires. Pour Weber, la sociologie

est la science qui se propose de comprendre par l’interprétation

l’activité sociale et par là, d’expliquer causalement ses causes et

ses effets. Il voulait saisir le sens et la subjectivité de l’acteur et

il se demande comment l’acteur comprend la situation sociale. C’est dans

cette démarche que s’inscrivent d’autres auteurs comme Foucault ou

Derrida.

### Structures invisibles du monde social

La tradition wébérienne met l’accent sur l’interprétation tandis que la

**tradition phénoménologique** a ses sources en Allemagne avec Hegel ou

Husserl. Ce dernier propose un programme qui souhaite analyser les bases

du monde social. La phénoménologie signifie de saisir par description

l’expérience subjective du monde et des acteurs sociaux. L’étude des

structures de sens et de construction que les individus ou groupes

sociaux utilisent pur rendre le monde social intelligible est chargé de

sens. Ce sont ces constructions qui permettent de comprendre le monde

social, de se situer en tant qu’individus ou groupes puis d’agir en

fonction de cette interprétation. C’est le contraire du béhaviorisme qui

cherche des stimuli externes aux groupes et aux individus ainsi qu’aux

observations visibles pour comprendre l’observation.

### Interactionnisme symbolique

C’est une approche d’origine des sciences sociales et elle est fortement

associées à George Herbert Mead. C’est une approche proche de la

démarche wébérienne et de la phénoménologie. Pour Mead, il faut saisir

la définition de la situation avant l’acte et ainsi comprendre

l’interprétation que les individus s’en font. Il faut également

saisir la définition comme acteur social en comprenant la définition et

l’interaction. Ces interprétations changent en fonction des interactions

sociales et en fonction des interactions entre les individus eux-mêmes.

Goffman montre comment la présentation de soi peut varier selon le

cadre. Cela change en fonction des situations d’interactions. Les

interactions transforment le sens.

### Opposés au positivisme

Beaucoup de chose oppose les méthodes qualitatives des méthodes

quantitatives. Les méthodes qualitatives...

  - Postule que ***l’individu est pensant, et c’est cette subjectivité

   mais aussi l’intersubjectivité qui en découle qu’il faut saisir***.

  - En effet, l’individu est en interaction constante avec lui-même et

   les autres, et ***c’est de l’intersubjectivité produite que découle

   l’action***. Le but de la démarche est de comprendre les structures

   mentales subjectives des individus.

  - ***Le contexte joue un rôle important puisqu’il façonne

   l’interaction***.

Ainsi, les méthodes qualitatives travaillent principalement sur ***le

monde subjectif*** vécu par les acteurs sociaux. C’est pourquoi on

adopte davantage une ***démarche compréhensive et interprétative***.

Toutefois, les méthodes qualitatives se sont distancées des postulats de

Weber, selon qui il fallait réussir à appréhender le monde au travers

des yeux des individus étudiés. La neutralité axiologique n’existante

pas, la ***description des faits sociaux*** (à la Geertz) joue alors un

rôle fondamental, tout comme les efforts de ***contextualisation***,

permettant de comprendre les acteurs sociaux dans leur milieu. Alors que

les méthodes quantitatives sont à la traine sur ce point, les méthodes

qualitatives permettent d’élaborer des concepts au fur et à mesure et

donc permettent une meilleure compréhension des phénomènes dans le

temps. En effet, la flexibilité théorique est au cœur des méthodes

qualitatives (exemple : La Grounded Theory).

##

## Logique de la démarche qualitative

Examiner les structures de sens, examiner ce qu’il y a derrière la

réalité sociale. L’idée est également à l’opposition du regard neutre

de **regarder avec les yeux de celui qui est étudié**, c’est-à-dire

étudier les actions et les normes en partant de la perspective des gens

qu’on étudie. Il n’y a pas de processus de distanciation entre le

chercheur et son objet d’étude mais il doit s’immerger dans la réalité

de son objet de recherche. Pour faire émerger les **structures de

sens**, il nous faut une **description détaillée du phénomène social**

qu’on veut étudier. On veut déterminer les structures de sens. On

définit les **contextes** pour des systèmes d’interprétations et

d’actions. C’est une **démarche holistique** qui veut expliquer la

situation en la situant dans son contexte social, culturel et

historique.

Elle est moins guidée par la théorie. Au contraire, on refuse d’élaborer

un cadre théorique strict mais on le voit comme un guide se structurant

tout au long de la recherche. On ne veut pas guider une vision du monde

au départ mais on la laisse émerger. C’est une structure théorique

plutôt ouverte et visible. Cela permet une certaine liberté dans la

façon d’observer les phénomènes sociaux. Ceci est également le cas pour

les concepts qui ne sont que rarement définis au début de la recherche

mais sont établis dans le cours de la recherche.

### Problèmes et limites

**Analyse et l’interprétation** montent le cadre donc des théories

pouvant nous amener vers un but précis. Il y a un risque d’éparpillement

et on risque de refaire la même chose et de se noyer dans un vague

terrain d’information. Idée de décrire de manière détaille la complexité

sociale, cela nous amène à exagérer et à se perdre dans un

descriptivisme social où on oublie le but de chercheur, à savoir

d’expliquer et de comprendre. De plus, le fait que le chercheur n’est

pas guidé par des théories est un mythe. Tout chercheur est guidée par

des théories. L’idée d’absence théorique est ainsi un mythe.

**Reproduction de la complexité **: descriptivisme / excès d’empirisme

on peut mieux décrire les choses. En analysant les attitudes d’une

personne, on pose des indicateurs. Ou lorsqu’on fait des entretiens, on

a plus d’informations. Donc c’est plus détaillé. Sauf qu’on a trop

d’informations et on reste dans le descriptif.

**Explication :** on peut mieux expliquer le processus sauf qu’on se

perd dans l’explication.

**Mythe du « chercheur enfant » :** le chercheur est aveugle, sans

théorie préalable. Il y a l’idée qu’on peut venir libéré de quelconque

théorie préalable sauf que cela n’est pas possible en tant que tel parce

qu’on est toujours guidé d’une manière ou d’une autre.

**Généralisation : *La généralisation représente la préoccupation

centrale des méthodes quantitatives, bien qu’elle soit limitée***. En

effet, il serait abusif de généraliser des conclusions à une population

entière sur la base d’un échantillon régional par exemple. Pour éviter

ce type d’abus, les chercheurs ***multiplient les ancrages

empiriques***, permettant d’identifier de possibles variations entre les

différentes mesures sur des territoires différents, permettant dès lors

de mieux appréhender les phénomènes sociaux.

## Que conclure ?

Les méthodes qualitatives et quantitatives reposent chacune sur des

piliers différents. Etant très différentes et permettant d’appréhender

le monde social au travers de lunettes épistémologiques différentes, le

terrain n’est pas du tout appréhendé de la même manière par ces

approches. Toutefois, on ne peut conclure à une réelle opposition entre

elles. Pour de nombreux chercheurs, ***ces deux méthodes doivent se

compléter*** pour offrir à voir une réalité plus complexe en se posant

des questions différentes, caractéristiques de chacune de ces approches.

![](./media/image1.png)

# Pratiques de la recherche et causalité : théorie et empirie sous tension

## Pratiques de la recherche

Ces pôles nous aident à prendre une distance critique avec notre objet.

Ces pôles ne sont pas forcément dans la tête de tout chercheur ou tout

étudiant. Ces pôles sont des espaces de recherche posant des questions

spécifiques pour avoir un projet de recherche cohérent. Il demande au

chercheur à se questionner différemment. Les mêmes pôles existent pour

la méthode quantitative ou qualtive puisque les deux sont soumises aux

mêmes types de questions sauf que les pôles sont plus au moins

importants dans l’une ou l’autre démarche.

## Quatre pôles structurent la recherche

1.  Pôle **épistémologique** -\> pertinence de l’objet et de la question

   de recherche. On se pose des questions comme « pourquoi faut-il

   répondre à cette question ? Qu’est-ce que ça nous apporte comme

   pertinence ? Pourquoi c’est un problème social ?

2.  Pôle **théorique** -\> Explication/compréhension. Permet de

   conceptualiser les concepts et les mettre en relation. Il permet de

   délimiter l’objet de l’étude lui-même et les causes explicatives en

   plus de mettre en amont un ensemble de facteurs pour expliquer le

   phénomène à expliquer. Ceci se fait par la formulation de

   l’hypothèse.

3.  Pôle **méthodologique** -\> Cohérence : définir le dessin de

   recherche et le cadre d’analyse. Il assure cohérence entre le pôle

   théorique et technique. Il peut être enrichi par notre propre

   lecture. Il permet par la suite de tester nos relations causales.

4.  Pôle **technique** -\> Faisabilité : Il demande comment on va faire

   notre collecte de données ?


  - Chaque pôle se réfère à une étape distincte de la recherche et ce

   sont des moments analytiquement séparés mais en réalité inséparable.

   Il y a un va-et-vient constant entre eux puisque leur existence et

   conditionnée par celles des autres.

### Implication de l’interdépendance des pôles

Les choix méthodologiques découlent du problème posé antérieurement et

notamment du cadre théorique élaboré. De plus, les choix techniques

découlent du cadre méthodologique élaboré ainsi que du problème et du

cadre théorique. Ainsi, les choix méthodologiques sont sous contraintes

des pôles antérieures et des connaissances préalables du chercheur.

## Pensée causale : au cœur de la démarche quantitative

La causalité se pose d’une manière transversale pendant tout le

processus de recherche. On a déjà vu apparaître cette question à

plusieurs endroits dans les pôles de la recherche. La causalité est au

centre des recherches quantitatives. On essaie donc de développer un

outil statistique qui nous permet de mettre en évidence des structures

sociales. On est dans une logique positiviste importé des sciences

naturelles voulant expliquer des phénomènes visibles comme la

criminalité. On veut donc mettre en évidence des causes sociales.

Tandis que dans les méthodes qualitatives, on veut générer un ensemble

d’explications probables ou potentielles. On délimite des causes dans

le pôle théorique. En d’autres termes, on a la recherche d’un effet

d’une variable indépendante sur la variable dépendante (du X au Y). A

cette logique se pose plusieurs problèmes étant liés à cette logique. Il

y a des problèmes philosophiques qui questionnent la possibilité de

pouvoir trouver des causes universelles par exemple. Un modèle causal

exige de contrôler la causalité et de mettre en évidence la structure

sociale. Ceci n’est pas toujours facile et parfois même, ce n’est pas

faisable. Finalement, il y a des problèmes techniques parce qu’on ne

peut pas contrôler toutes les causes concurrentes possibles.

### Où est le problème ? Tension entre théorie et empirie

On est face à une tension entre le langage théorique et celui de la

recherche. Ceci est bien résumé par la citation de Blalock : « Si X est

la cause de Y, nous avons en tête que X produit un changement de Y et

non simplement qu’un changement de X est suivi, ou associé, à un

changement de Y ». La logique de la pensée causale veut qu’on évalue

l’effet de X d’une variable ou de plusieurs variables indépendantes

sur Y, à savoir une variable dépendante. Par exemple l’effet du niveau

d’éducation sur la participation politique. Dans le langage de la

théorie, on va utiliser des termes comme causes, poids ou rôle d’une

variable sur l’autre. Dans la recherche empirique, si on veut tester ces

relations, on parle de **co-variation** ou de **corrélation**. Si on

parle de co-variation, on parle d’une variation d’un changement en même

temps ou si corrélation, on parle d’une association d’une variable à une

autre mais on ne parle pas de sens. Du coup, ni la corrélation ni la

co-variation sont des causes. On pourrait admettre que la pensée causale

se situe uniquement au niveau théorique et qu’on ne peut pas le tester

au niveau de la recherche empirique. Sauf qu’Einstein n’est pas d’accord

avec cette affirmation puisque « correlations does not prove

causality ». Pourquoi est-il difficile d’identifier les causes ? Il y

a 2 raisons majeures à cela :

  - **Asymétrie temporelle entre la cause et l’effet**. Forcément, la

   cause doit venir avant les faits. Si on veut évaluer la présence des

   immigrés sur la xénophobie, il faut trouver un endroit où il y a une

   présence immigrée antérieure à un renforcement d’attitude xénophobe

   sinon on ne peut pas dire qu’il y a causalité. Pour résoudre ce

   problème de temporalité au niveau empirique, le dessin de recherche

   doit incorporer cette notion du temps. Idéalement en mesure de 2

   temps minimum sauf que cela est difficilement atteint. Par exemple

   les sondages se font souvent en un seul moment et les s sont

   relativement rares car très couteux. On peut encore se rapprocher à

   cette idée du temps avec certaines astuces telle que le fait de

   poser des questions sur le passé. L’autre astuce est de se sauver

   avec la réflexion théorique, en expliquant théoriquement ce qui

   vient avant ou après.

  - **Contrôle de toutes les causes concurrentes **: pour prouver qu’une

   cause génère un effet, il faut contrôler toutes les autres causes

   possibles en éliminant celles qui peuvent établir une relation entre

   une variable indépendante et une variable dépendante. Il faut en

   plus maîtriser totalement l’environnement et travailler avec système

   clos qui est libéré de toutes les causes concurrentes.

Exemples : Si on veut examiner l’effet des campagnes sur la

participation électorale, on est face à un postulat causal au niveau

théorique sauf qu’on ne va jamais trouver toutes les causes

structurelles.

Par conséquent, on peut prouver une causalité seulement dans un système

fermé selon Russel ou Heisenberg. Un système isolé nous permet de

contrôler toute autre cause concurrente et de varier seulement la cause

qui nous intéresse. Sauf que c’est très difficile en sciences sociales.

  - L’asymétrie temporelle est un problème soluble soit par

   l’introduction de la notion du temps comme dans les études de

   panel ou par le choix de dessin expérimental. Sauf que ce type

   d’étude n’est pas toujours faisable puisque c’est très cher. Il

   reste alors l’appui théorique en argumentant logiquement la

   causalité.

### Solution : reconceptualisation de la cause

Le contrôle de toutes les causes concurrentes et l’aspect le plus

difficile à réaliser parce qu’on ne peut pas isoler complètement un

système et de déterminer toutes les causes concurrentielles. Donc la

causalité au sens strict du terme ne s’applique pas à la recherche. Sauf

qu’on est face à un problème insoluble. Comme on ne peut pas cerner la

causalité au sens philosophique du terme et donc on ne peut pas tester

empiriquement des lois sociales on est censé reconceptualiser la

causalité au sens étroit du terme et on parle d’une causalité limitée.

Selon Simon, on doit conserver le modèle de cause en modèle simplifié.

La meilleure solution est de partir avec un nombre fini de causes qui

sont en opposition avec la philosophie. Sauf que ce modèle ne peut

jamais être complètement faux au sens philosophique du terme. Cette

causalité limitée peut être visible à différents endroits de la

recherche ; sur le niveau théorique avec les hypothèses, en

statistiques, avec les termes d’erreur et en méthodologique, avec

l’expérimentation.

Comme au niveau théorique, une relation entre deux variables ne peut pas

être analysée empiriquement et on doit donc émettre des hypothèses

simplifiées sur la relation entre deux variables. Donc l’énoncé causal

est purement hypothétique. Les phrases sont formulées : « si toutes les

causes connues sont égales, alors il y a un effet de campagne sur la

participation électorale ». C’est la solution

<span class="underline">théorique</span>. Au niveau

<span class="underline">empirique</span>, on peut construire une

causalité limitée avec l’introduction des termes d’erreur. Cela se fait

avec les analyses multiples comme la régression : « Quand un facteur X

prédit Y, il peut toujours y avoir d’autres causes qui prédit … ». Cela

prend en compte la variation de la variable dépendante qui n’est pas

causée par la /les variables indépendantes.

Finalement, la logique d’expérimentation nous permet d’établir une

causalité limitée. L’idée derrière est la création d’un système isolé ce

qui n’est pas forcément possible en sciences sociales parce qu’on est

tout simplement rarement dans un laboratoire. Toutefois, on peut voir

dans la recherche qu’il y a des expérimentations qui essaient de se

rapprocher de cet idéal. Par exemple, si on veut évaluer l’effet de la

lecture d’un journal dans la formation des opinions pendant une campagne

électorale, on peut s’approcher d’une situation d’expérimentation en

créant un groupe A et un groupe de contrôle B. Sauf que les personnes

peuvent être impactés par d’autres causes externes. Ainsi,

l’expérimentation reste difficilement applicable et on doit rester

dans un modèle hypothétique.

  - Un modèle (causal) restera toujours une représentation simplifiée de

   la réalité.

## Difficulté dans l’élaboration de modèles causaux

Il faut sélectionner les causes qu’on intègre dans notre modèle en

choisissant celles qui sont les plus déterminantes. Ainsi, on parle des

causes principales qui sont celles qui sont les plus fondamentales.

Puis, il faut identifier les causes concurrentes qui pourraient être

concurrentes à notre explication. On parle aussi de variable de contrôle

qui signifient la même chose. Ces causes, on les trouve souvent dans la

littérature. Avec toutes ces causes concurrentes, il faut faire un choix

qui va influencer notre résultat. Ce choix consiste à éliminer certaines

causes pour avoir un modèle théorique faisable. Le plus grand danger

dans ce processus de sélection, c’est la création de fausses relations.

Par exemple, on fait un modèle théorique où on prend le sexe et la

participation politique. On trouve que les hommes participent plus que

les femmes sauf qu’on a oublié de prendre en compte une variable

explicative. Elle va éliminer notre thèse principale ; la participation

politique est surtout influencée par le niveau d’éducation et la classe

sociale. Si on intègre ces deux variables dans une régression, on ne

trouve plus de relation entre sexe et participation politique.

## Difficulté de l’élaboration de modèles causaux

On peut expliquer un problème social en trouvant toutes les variables.

C’est le cas dans les méthodes qualitatives. La seconde approche est

d’essayer d’expliquer l’effet d’une cause sur un effet. La différence

entre les deux approches est que dans le deuxième exemple, on est dans

une logique de sélection de causes au sein d’un modèle théorique. On

prend un nombre limité de causes.

Il existe différents types de causes :

  - ***La cause principale*** : C’est la cause que l’on postule

   influencer le plus un phénomène donné.


  - ***La cause concurrente*** : C’est la cause qui peut influencer

   également le phénomène étudié mais dont on postule qu’elle est

   moins prégnante que la cause principale.


  - ***La cause fallacieuse*** : Alors que l’on pensant que X

   influençait fortement Y, ayant identifié une co-variation, il

   s’avère que c’est une variable cachée, Z, qui influence en

   réalité Y. Il s’agit donc d’une cause fallacieuse.
Par exemple, on

   a longtemps pensé que ce qui faisait que les femmes votaient moins

   que les hommes, c’était leur genre. Toutefois, on a compris plus

   tard qu’en vérité, ce qui influençait le plus, c’était le niveau

   d’éducation, qui variait également selon le genre \!

### Cause et théorie

On dit que X a une influence sur Y sauf qu’il ne faut pas oublier de

comprendre et d’expliquer ce lien social. Il faut toujours essayer de

comprendre la flèche sinon on pourrait créer des artefacts ou de fausses

relations. Quand on parle du niveau d’éducation qui affecte la

participation des individus, parle-t-on des ressources intellectuelles ?

d’un sentiment de légitimité ? que cela peut-il dire ? Pour ne pas

tomber dans le positivisme sauvage (ce que je vois est parce que je le

vois), ***la théorie est cruciale pour comprendre ce lien et non pas

simplement le constater***.

## Conclusions et implications

Le monde réel est hors de notre portée. On ne peut pas tester des

relations causales au sens strict du terme. Ainsi, le chercheur doit

construire son objet de recherche. Il passe d’un objet perçu à un objet

de connaissance. On construit notre objet de recherche avec des lunettes

méthodologiques et théoriques. D’ailleurs, on travaille avec des objets

interactifs puisqu’ils peuvent se transformer. On doit prendre en compte

l’asymétrie temporelle, on doit contrôler les causes concurrentes.

Finalement, on a vu qu’on est plutôt dans des systèmes de co-variations

et non dans des systèmes de causes.

# Dessins de recherche ou comment maîtriser la causalité ?

Pour saisir l’idée des dessins de recherche, il faut comprendre deux

notions clés sur laquelle la démarche causale est basée ; l’idée de la

variation et celle de la comparaison. L’étude de la variation veut

saisir la question suivante : comment la variation de X est associée à

la variation Y ?

  - Exemple : xénophobie : effet de la présence immigrée a un effet sur

   la xénophobie. Donc l’idée c’est que la présence d’immigré fait

   varier des facteurs de misanthropie. Sauf qu’il faut prendre

   différents cas où il y a une variation du degré de présences

   d’immigrés pour voir si la xénophobie change en fonction de ces

   variations.

Selon Durkheim, la variation ne peut être faite sans comparaison. C’est

le cas pour la démarche quantitative et qualitative. Ce n’est qu’en

comparant des Etats-nations qu’on peut évaluer un modèle de citoyenneté

par rapport à la pression migratoire.

Le dessin de recherche est important pour maîtrise la causalité. Ce

n’est pas toujours évident de parler de dessins de recherche de

manière théorique. Comme pour chaque concept, il existe plusieurs

définitions. On peut distinguer entre une définition plus large et une

définition plus étroite :

  - *Large *: elle englobe tous les enjeux impliqués dans la

   planification et l’exécution de la recherche. Ça part de la

   construction de la problématique (pôle épistémologique) jusqu’à la

   présentation des résultats de recherche (englobe tous les pôles de

   recherche).

  - *Etroite *: manière dont le chercheur va écarter ou maîtriser les

   hypothèses concurrentes. C’est le cœur du pôle méthodologique. Il

   s’agit d’établir un plan d’exécution de la recherche pour exécuter

   le plan de recherche. Le dessin de recherche doit répondre à la

   manière dont on va contrôler.

Les dessins de recherche sont cruciaux car ils permettent de situer le

chercheur dans le volet empirique de sa recherche. Il permet une

articulation entre la théorie et l’empirie ainsi qu’une articulation

entre le pôle épistémologique et théorique. Les dessins d’une recherche

sont centraux du pôle méthodologiques : comment on procède pour tester

nos hypothèses ? Comment maîtriser notre système causal ? La notion de

contrôle signifie comment on va maintenir constantes les autres causes

afin de déterminer le poids de la cause déterminée.

## Exigences des dessins de recherche

Pour que les résultats obtenus soient le plus fiables possible, le

chercheur doit :

  - Contrôler la causalité en s’assurant d’une asymétrie temporelle et

   d’une clôture maximale du système. Il est nécessaire de maintenir

   constantes les causes concurrentes et ce, en élaborant par la

   connaissance un certain nombre de variables de contrôle.

  - Choisir un dessin approprié en maîtrisant au mieux la causalité. De

   plus, le dessin de recherche sert également à mettre à l’épreuve les

   modèles théoriques construits par le chercheur et à assurer la

   faisabilité de la démonstration empirique.

### Analyse de la co-variation

  - Présuppose une logique de comparaison (Durkheim)

  - Comparer entre groupes

  - Comparer à l’intérieur des groupes

Deux logiques de contrôle : deux chemins possibles

  - Contrôle externe : dessins **expérimentaux** avec une comparaison

   entre groupes

  - Contrôle interne : dessin **corrélationnel** avec une comparaison

   dans un groupe

## Contrôle externe

Il applique un contrôle externe, c’est-à-dire qu’on veut maintenir

constantes les autres variables ou les causes concurrentes. On est dans

logique de comparaison entre groupes et cela nécessite que le groupe

soit identifiable en amont. Ici, c’est une logique de l’éprouvette comme

dans un laboratoire où il faut dessiner un groupe expérimental qui a ce

traitement et un groupe de contrôle qui n’a pas ce contrôle.

L’attribution d’un groupe reste toutefois aléatoire. L’idée ici est de

maîtriser la causalité ex-ante, c’est-à-dire avant l’analyse de données.

Les analyses vont être centrées sur les cas ou les groupes. Pour mener

une expérience, il faut que le groupe soit clairement identifiable en

amont. Par exemple avec l’immigration et les abus xénophobes, dans une

logique d’un dessin expérimental, on devrait comparer des cantons avec

une forte/faible population migrante.

Exemple

  - Connaissance des religions et des philosophies conduit-elle à une

   plus grande tolérance à l’égard de l’altérité ?

On peut prendre deux groupes distincts identifiables (groupe de contrôle

et groupe expérimental). Donc on peut comparer les groupes entre eux

dans la logique du dessin de recherche. On identifie deux groupes

distincts sauf qu’on peut en même temps maintenir constants d’autres

facteurs (la même école, la même classe, le même âge…). Au contraire, si

on veut saisir les influences de l’usage du vote par internet ou par

correspondance, sur la pratique du vote, on ne peut pas identifier en

amont les utilisateurs d’un ou de l’autre usage donc on doit appliquer

une autre logique.

## Contrôle interne

Cette autre logique est appliquée par le dessin corrélationnel. Au lieu

de comparer entre groupe, on fait un contrôle **dans** le groupe,

c’est-à-dire le contrôle interne en faisant varier aléatoirement les

variables. Dans le dessin expérimental, on essaie de contrôler un

maximum de paramètres tandis que dans le dessin corrélationnel, on veut

libérer les paramètres. Les groupes ne sont pas identifiables en amont

donc pour construire notre échantillon, on tire au sort des

observations. On garde l’aspect aléatoire pour garder l’effet spécifique

de chaque variable indépendante. Au lieu de comparer des groupes, on

prend dans l’analyse toute la population et on introduit toutes les

variables indépendantes. Donc on ne regarde pas seulement l’effet d’une

variable indépendante sur une variable dépendante mais on introduit

toutes les variables.

Dans la logique du dessin corrélationnel, on maîtrise la causalité

ex-post, c’est-à-dire au niveau des analyses. Les analyses ne sont pas

centrées sur les cas mais sur les variables.

Exemple :

  - Est-ce que le soutien électoral au parti d’extrême droite, est-il

   lié au statut économique de la personne, à son rejet des élites

   politiques ou à ses attitudes à l’égard des autorités ?

Ce qu’on va faire, c’est qu’on va prendre toute la population (ensemble

des votants) et faire varier cette variable dans l’ensemble de la

population. Cela va nous permettre ensuite de voir si le statut

économique est lié par exemple. On va appliquer une logique de

comparaison à l’intérieur du groupe en évaluation la relation entre les

variables.

## Deux chemins : contrôle vs aléatoire

Il y a donc deux chemins pour maîtriser les variations et maîtriser les

systèmes de causalité. On peut soi maîtriser la causalité avant les

analyses et la comparaison dans le groupe. Ou bien, on ne peut pas

identifier les groupes en amont donc on mise sur des relations entre

variables en s’approchant des causalités au niveau des variables. Ce

sont des chemins opposés :

« L’aléatoire est dans un sens le processus opposé du contrôle. Tandis

que contrôler veut dire maintenir la valeur de certaines variables

constantes, l’aléatoire veut dire libérer la valeur » (Spector)

Sauf que cette distinction n’est pas toujours décisive. Dans la réalité

de la recherche, on peut retrouver ces deux chemins dans un dessin de

recherche.

### Contrôle externe

Ces groupes peuvent comprendre différentes choses telles que des

individus, des Etats etc. Le dessin expérimental est le contrôle de base

de la causalité. C’est rare que ce soit possible d’avoir un tel dessin

en science sociale. Néanmoins, on voit de plus en plus l‘utilisation de

dessins expérimentaux. Le chercheur va manipuler artificiellement

une/plusieurs variables dans un groupe. Puis, il évalue l’effet de cette

variable entre les deux groupes. La différence que le chercheur peut

trouver entre ces deux groupes, lui permet de tirer une conclusion sur

l’effet de la variable indépendante sur la variable dépendante et donc

il ne doit pas contrôler les variables concurrentes. C’est l’idée qu’on

a deux éprouvettes contenant la même solution liquide, puis on les

compare et on étudie leurs effets. Les principes ou les conditions de

base d’un dessin expérimental sont :

  - Les groupes soient composés de la même manière. Le groupe

   expérimental et le groupe de contrôle doivent avoir la même

   composition. Il ne doit pas y avoir de variations entre eux. Pour

   évaluer une variation sur une variable, il faut obtenir les autres

   variables constantes sinon on ne peut pas évaluer les effets de la

   manipulation et donc de la causalité. Ainsi, l’effet qu’on observe

   pourrait être dû par d’autres variables.

  - Pour avoir des groupes identiques, il faut procéder à un tirage

   aléatoire. L’idée derrière est qu’une allocation aléatoire est le

   seul moyen d’avoir un groupe identique parce qu’on ne connaît par

   les caractéristiques de chaque cas.

  - Puis, on peut procéder à la manipulation d’une/plusieurs variables

   indépendantes. Cela permet d’asseoir cette variable sur le groupe

   expérimental. C’est pour cela que l’expérimentation est privilégiée

   par rapport à d’autres dessins de recherches. Ainsi, on a une base

   solide.

### La logique

Exemple : Si un chercheur souhaite évaluer l’influence de l’information

quant à l’écologie sur le vote vert des individus, il sépare des

individus en deux groupes, auxquels il a préalablement demandé

quelles
étaient leurs inclinaisons à voter écologiste.

Ensuite, le chercheur donne des informations à l’un des groupes, alors

que l’autre reste neutre. Le chercheur finit l’expérience en demandant,

suite à cette manipulation, quelle est l’inclinaison des individus de

chaque groupe à voter écologiste. Sur le tableau (fictif), on voit que

le lien est vérifié puisque les individus ayant obtenu de l’information

se déclare prêts à voter écologiste bien davantage que le groupe n’ayant

pas reçu d’information. Toutefois, on ne sait pas si cette inclinaison

durera dans le temps. Il est aussi possible de tester l’influence de

plusieurs variables, comme l’information « papier » et l’information

directe (des individus nous expliquent, parlent...).

Un autre exemple de ce qu’est un dessin de recherche expérimental

(contrôle externe) est l’expérience de Milgram portant sur la

soumission à l’autorité.

### Dessin expérimental : ses forces

On arrive presque à fermer un système et c’est le dessin de recherche

privilégié en termes de causalité. Il a une très forte validité interne

au sein de la recherche parce qu’on a un contrôle sur l’intervention et

ils ne sont pas coûteux parce qu’on a besoin d’un petit échantillon.

### Ses problèmes

Il a des faiblesses :

  - La faisabilité : pas toujours facile de manipuler une variable

   indépendante.

  - La même composition du groupe n’est pas évidente.

  - Possibilité de généralisation : beaucoup de recherche expérimentale

   ont une faible validité interne. Si on veut l’appliquer à la

   validité externe, c’est plus difficile. Souvent, les échantillons

   utilisés ne sont pas représentatifs. Les individus réagissent

   différemment dans un contexte de laboratoire que dans un cadre

   naturel.

  - On doit faire face aux problèmes éthiques : les règles de base sont

   que la participation doit être volontaire, les participants doivent

   être informés, on ne doit pas faire du tort aux participations et

   on doit respecter les participants. Sauf que souvent les

   expérimentés ne connaissent pas le but de la recherche ou ils ne

   sont que vaguement informés pour ne pas biaiser leurs comportements.

## Dessin quasi-expérimental

Le principe de comparaison entre groupes est maintenu sauf que ce dessin

se déroule en dehors du laboratoire. Le rôle du chercheur est aussi

différent car il n’y a pas de manipulation du chercheur puisque le

changement intervient naturellement. Il doit avoir la caractéristique de

séparer clairement deux groupes d’individus. On retrouve la logique du

groupe expérimental et la logique du groupe de contrôle.

On ne peut pas manipuler des variables sont leurs modalités dans la

nature. La notion de la temporalité est centrale ici. Ce type de dessin

est particulièrement adapté pour les changements tel que des changements

de valeur entre les générations ou les changements liés au parcours de

vie (un enfant, changement d’études etc). Ce dessin peut également

prévoir un changement dans l’espace tel que l’étude d’Ingelhart qui a

montré qu’on a trouvé des fonctions distinctes en fonction de la santé

de l’Etat.

### Expériences naturelles

On doit prendre la situation existante. Ici, le contrôle est moindre que

dans la situation expérimentale précédente. Ces écoles peuvent être

situées dans des quartiers ayant des niveaux économiques différents ou

les enseignements peuvent varier donc on n’a pas l’entièreté du

contrôle.

En prenant un exemple réel d’une expérience naturelle, on voulait

vérifier l’accès à la citoyenneté sur la mobilisation de l’extrême

droite. Ils ont fait une comparaison entre pays (comparaison dans

l’espace), ils ont catégorisé les différentes conceptions de la

citoyenneté et ils ont étudié les pays en Europe pouvant être classés

dans ces différentes cases. Puis, ils ont tiré des exemples sélectionnés

pour l’analyse et donc ils les ont comparés. C’est un exemple de

comparaison dans l’espace. Ils ont récolté des données pendant 10 ans et

ils voulaient être sûrs que cette classification soit sûre sauf que ce

n’était pas en lien avec la question de recherche. Il faut toujours

refaire le lien avec la question de recherche. La logique ici est

simplement la comparaison dans l’espace.

Nécessité d’avoir des données temporales et spatiales :

Temps longs : un siècle

Espace : pays européens

Unité d’analyse : vote des individus

### Dessin comparatif

Quais comme un dessin expérimental. La comparaison est ici centrale dans

sa logique ; elle peut se faire dans l’espace ou dans le temps. Sa place

parmi les autres stratégies de recherche, dans une recherche

qualitative, on a beaucoup de variables avec peu de cas et avec la

méthode quantitative, c’est l’inverse. Tandis que la recherche

comparative est située théoriquement au milieu.

### Dessins longitudinaux

Un cas spécifique de la comparaison dans le temps. On est toujours dans

des dessins quasi-expérimentaux. Ils sont de plus en plus en vogue dans

les sciences sociales. Il y a 3 types dessins longitudinaux :

  - **Panel **: la spécificité est la comparaison du même groupe dans le

   temps. On compare le même groupe à des moments différents. Les

   principes de base sont qu’on utilise les mêmes échantillons

   d’individus. L’intervention entre la première et la deuxième fois

   est naturelle et il n’y a pas d’intervention du chercheur. Un

   exemple classique est le panel suisse des Ménages donc toutes les

   personnes qui vivent dans un ménage. Ce sont des études d’opinions,

   de comportements ou de valeurs et ces personnes sont sondées chaque

   année. Son avantage : très bonne traçabilité de la cause ; on peut

   tracer les changements dans les comportements politiques parce qu’on

   a toujours les mêmes individus. Sauf qu’il y a des problèmes : comme

   c’est toujours le même groupe, il faut lutter contre « la mortalité

   d’un panel », c’est-à-dire que les gens arrêtent de participer. La

   moralité d’un panel, c’est que la durée de vie d’un échantillon est

   limitée. Très vite, on peut se retrouver avec un problème important

   de représentativité. La solution pour y remédier est de réintroduire

   de nouvelles personnes ou de nouveaux échantillons complets. Un

   autre problème se situe au niveau que le chercheur doit attendre

   longtemps pour pouvoir analyser ces données. Finalement, c’est un

   dessin coûteux en ressources parce qu’on utilise des incitations

   importantes, le mode de récolte des données est coûteux et de grands

   groupes travaillent.

  - **Semi-panel** : il applique la même démarche que dans le panel

   classique. La différence principale est que le groupe change à

   chaque fois. On utilise cette technique quand les chercheurs ont la

   difficulté de reprendre le même échantillon que dans la première

   vague donc on a des difficultés à suivre les personnes dans le

   temps. L’avantage clé par rapport au panel est que ce dessin

   augmente clairement la faisabilité de cette recherche. On garde en

   plus la comparaison dans le temps et l’évaluation de la causalité

   reste assez fiable. Il permet de regarder des individus au niveau

   agrégé.

  - **Panel rétrospectif** qui essaie de combler une autre faiblesse de

   l’étude panel classique. Un panel commence toujours dans une année

   spécifique et il n’est pas possible de remonter dans le temps. Pour

   ce faire, on peut soit utiliser des données secondaires récoltées

   par d’autres ou utiliser des données rétrospectives. L’avantage de

   ce dessin est la faisabilité de l’étude. Par exemple, pour

   l’engagement dans des organisations sociales, il est difficile

   d’identifier des personnes quand elles ne sont pas encore

   engagées. Donc on peut tracer la causalité dans une certaine

   mesure. Sa première difficulté est inscrite dans son nom puisque la

   rétrospective des problèmes est problématique car la mémoire est

   sélective. La sélectivité de la mémoire ne se fait pas au hasard et

   on est face à des biais sélectifs. De plus, on est face à une

   réinterprétation ou une reconstruction de la part des individus. Il

   y a aussi un problème de différence entre individus. Une solution

   pour y remédier est d’utiliser des moments épiphaniques (moments

   centraux) et on a tendance à mieux s’en souvenir. Sauf qu’il n’est

   plus vraiment un dessin quasi-expérimental car on ne peut plus

   identifier des groupes en amont. On bascule sur des dessins

   corrélationnels ayant une logique différente.

## Contrôle externe de la causalité : synthèse

Dessins **expérimentaux **: avec intervention du chercheur

Dessins **quasi** **expérimentaux **: sans intervention du chercheur /

expérimentation naturelle / dessin comparatif (coût faible) / panel,

semi-panel dessin rétrospectif.

### Contrôle interne : Dessin corrélationnel

On choisit ce dessin quand une comparaison entre deux groupes en amont

est impossible. On étudie la société telle qu’elle est. Le dessin

corrélationnel ou *cross-sectional* est une étude des variations à

l’intérieur d’un groupe et non entre les groupes. Il y a toujours une

logique de comparaison et de variation. Pour choisir un échantillon de

la population, on utilise une logique aléatoire en procédant à un tirage

au sort au sein d’une population. Avec ce procédé, toutes les

caractéristiques sont censées être représentées permettant une analyse

entre les variables.

### Contrôle de la causalité : synthèse

Les dessins **expérimentaux** et **quasi-expérimentaux **: logique de

contrôle externe, maîtriser sources de variation et groupes

identifiables en amont, procède à un contrôle ex-ante de la causalité,

logique du contrôle avec des paramètres constants.

Dessins **corrélationnels **: logique de contrôle interne (à l’intérieur

de groupe), maîtrise la causalité au moment de l’analyse avec

régressions, logique derrière est de défricher la causalité en

contrôlant la relation entre les variables (variable indépendantes et

variables dépendantes).

### Bilan

Dessins expérimentaux peuvent contrôler la causalité en amont de la

collecte des données car on maîtrise les effets des autres facteurs. On

peut contrôler les variables concurrentes.

Contrôle faible dans les dessins corrélationnels ; logique du tirage au

sort et on veut libérer au maximum les paramètres et assurer une

distribution aléatoire de ces paramètres au sein de la population

étudiée. Le contrôle se fait après par le biais de l’analyse qui prend

plein de causes concurrentes. La maîtrise des variables se fait soit

avant entre les groupes soit après entre les variables. Il s’agit de la

maîtrise de la variable indépendante sur la variable à expliquer. Il

s’agit d’un continuum de contrôle par le chercheur. La force du

contrôle peut se faire sur deux choses :

  - Manipulation : chercheur intervient et amène un changement ; il a un

   contrôle sur la variable dépendante. C’est le cas dans

   l’expérimentation et grâce à une telle constellation, le

   chercheur peut comparer le groupe expérimental et le groupe de

   contrôle.

  - Corrélationnel : chercheur ne contrôle pas ces paramètres donc

   libère au maximum la variation, on est face à une situation

   similaire pour la variable dépendante. Dans l’expérimentation, on a

   faible contrôle.

**Comment choisir son dessin de recherche ?**

Toujours en lien avec le pôle théorique de la recherche ; quelle cause à

contrôler ? Plusieurs dessins de recherche peuvent être pertinents et il

faut penser aux apports et aux limites de chaque dessin. Souvent, il est

conseiller de combiner des dessins de recherche (SELECTS).

Les dessins de recherche doivent être guidés par des théories sauf qu’on

est soumis à des contraintes temporelles, soumis à des contraintes

financières, soumis à nos propres compétences.

# Construction d’une recherche quantitative : des concepts aux mesures, un travail d’opérationnalisation

## Opérationnalisation : qu’est-ce que c’est ?

***L’opérationnalisation consiste à rendre les concepts mesurables***.

Il s’agit de passer d’un très haut niveau d’abstraction conceptuelle à

des indicateurs concrets adaptés à la recherche empirique. Par exemple,

comment mesurer la participation protestataire ? Ce concept abstrait

doit être, en plus ***de toutes les variables*** indépendantes

permettant de mesurer notre variable dépendante, opérationnalisés.

***Cette étape est très importante car elle constitue le point de relais

entre la théorie et l’empirie***.

A la base de chaque recherche sont des questions théoriques. Mais le but

de la recherche est de tester les hypothèses formulées ainsi que le

modèle théorique plébiscité. Pour se faire, le chercheur agit sur deux

axes distincts :

  - Il construit un ***dessin de recherche*** adapté et pertinent pour

   sa recherche.

  - Il ***opérationnalise*** tous les concepts afin de pouvoir les

   mesurer.


  - ***Ces deux composantes centrales de toutes recherche font donc le

   pont entre la partie théorique et pratique***.

Dans toutes méthodes quantitatives, il faut toujours ***faire passer des

concepts au statut d’indicateur***, les mots au statut de chiffres.

Durant cette phase cruciale, il s’agit de concrétiser les concepts

théoriques imaginés en amont puisque ***les concepts théoriques

n’existent pas dans la réalité sociale \!*** Pour mesurer un concept

abstrait comme le racisme, le chercheur pose des questions préalablement

élaborées avec soin à des individus. En effet, demander directement aux

individus s’ils sont racistes ne produira, premièrement, pas de résultat

fiable à cause du biais de désirabilité sociale, mais surtout cette

question ne mesure pas le racisme, mais la possibilité d’exprimer le

racisme pour les individus. Ce travail de réflexion se fait en amont de

la recherche empirique afin qu’aucune maladresse ne puisse mettre en

péril la validité de la recherche.

## L’enjeux de l’opérationnalisation

L’opérationnalisation doit pouvoir permettre de tester ses hypothèses en

descendant dans l’échelle de l’abstraction. Les ***divers choix

effectués par le chercheur*** tout au long de sa recherche ont pour but

de conférer à la recherche un validité interne. Toutefois, aucun

résultat n’est accepté unanimement, justement à cause de ces choix

potentiellement discutables. De plus, il faut faire attention aux

erreurs de mesure pouvant remettre en question la validité de toute la

recherche. En effet, le chercheur doit réussir à ***combler de manière

adéquate le fossé existant entre théorie et empirie*** tout en prenant

en compte les ***différents niveaux d’abstraction*** de ses concepts.

Enfin, les données secondaires doivent être utilisées avec précaution,

l’indicateur devant parfaitement convenir à l’item étudié. En tant que

lecteurs, il faut toujours faire attention à la manière dont les

indicateurs sont sélectionnés.

« Les sociologues utilisent souvent des concepts qui sont formulés à un

niveau plutôt haut d’abstraction. Ils sont assez différents des

variables élaborées au niveau empirique. Le problème lié au fossé entre

la théorie et la recherche est celui de l’erreur de mesure ». (Blalock)

## Deux erreurs de mesure

Il existe ***deux types d’erreurs de mesure***, elle intervient soit au

***niveau théorique***, soit au ***niveau empirique***. Pour ce qui est

de la partie théorique, le chercheur doit faire attention à la validité

de sa mesure. Par exemple, conclure à une différence entre le pays X et

le pays Y sans prendre en compte les diverses techniques de contact

serait une erreur de mesure. De plus, le chercheur doit opérationnaliser

avec soin pour ne pas induire d’erreur au moment des mesures. Au niveau

empirique, la formulation des questions, la fiabilité des mesures ainsi

que la reproductibilité de la mesure doivent être considérés avec

attention pour ne pas induire d’erreur.

## Validité d’une mesure

***Pour qu’une mesure soit valide, elle doit utiliser des indicateurs

fiables permettant de mesure le concept étudié***.

  - Exemple d’une mesure valide : Utiliser la fréquence de participation

   aux votations et aux élections pour mesurer la participation

   conventionnelle.

  - Exemple d’une mesure non valide : Utiliser comme indicateur du

   bien-être individuel le salaire de l’individu \!

Mais comment faire en sorte de ne produire des mesures valides ? Cela

tient grandement à la rigueur de la démarche mais aussi à la créativité

du chercheur. ***Lazarsfeld a standardisé un processus de déconstruction

conceptuelle en quatre temps*** à cet effet :

1.  La première étape est conceptuelle : le chercheur part de concept

   abstrait, non directement mesurables. Souvent polysémique, ***le

   concept doit être défini précisément et de manière univoque***.

   Cette étape est cruciale car pour obtenir des mesures fiables, il

   faut être au clair avec le concept que l’on cherche à mesurer. Pour

   se faire, le chercheur doit s’aider de la littérature pour combler

   ses potentielles lacunes théoriques, mais aussi pour ne pas refaire

   un travail qui aurait déjà été préalablement effectué. Par exemple,

   le concept de compétence politique est défini de manière très variée

   selon les chercheurs \! Pour Dahl, il s’agit de l’autonomie du

   citoyen se structurant autour de la connaissance du champ politique

   et de la verbalisation de préférences claires, pour Kriesi, il

   s’agit de l’intérêt subjectif et objectif porté à la politique,

   pour Gaxie, la capacité à se situer dans l’univers politique...

   Ainsi, on voit que la définition du concept de base est cruciale. 


2.  La deuxième étape implique de ***spécifier les dimensions et les

   sous-dimensions du concept étudié***. En effet, un concept est

   toujours multidimensionnel. Ainsi, il s’agit d’identifier chaque

   facette du concept étudié et d’en extraire le sens de chacune. Pour

   les concepts simples, le chercheur décomposera son objet en

   dimensions telles que l’âge, le sexe, le lieu de

   résidence...
Toutefois, les concepts complexes seront eux

   décomposés en dimensions mais aussi en sous-dimensions pour rendre

   compte
de l’entier du phénomène. Mais
attention, tout comme pour le

   concept, chaque composante doit
être définie précisément et

   de
manière univoque. Cette étape est
très importante

   puisqu’elle
permet de ***descendre sur l’échelle de

   l’abstraction***. Sur ce schéma, on voit comment Gaxie a décomposé

   le concept de la participation politique, préalablement défini comme

   la capacité de se situer dans l’univers politique. 


3.  La troisième et ultime étape de la partie de l’opérationnalisation

   est celle de la ***sélection des indicateurs pertinents*** pour la

   recherche. Chaque dimension du concept peut être représentée par un

   ou plusieurs indicateurs. Un indicateur est une variable qui

   elle-même correspond à une mesure qui provient elle-même d’une

   question (Indicateur à Variable à Mesure à Question). Mais encore

   une fois, pour ce faire, le chercheur doit préalablement avoir

   parfaitement défini la (sous-)dimension en question. ***Un

   indicateur est créé par le chercheur afin de lui permettre de

   mesurer directement une dimension ou sous-dimension issue d’un

   concept abstrait***. C’est pourquoi il est toujours bien de mesurer

   un concept à l’aide de plusieurs indicateurs pour minimiser les

   risques d’erreur. Mais ***l’agencement des différents indicateurs

   sélectionnés par le chercheur doivent ensemble reconstituer le

   concept \! Ainsi, le nombre d’indicateurs ne doit pas être trop

   petit pour éviter tout effet discriminant***. Le chercheur doit donc

   sélectionner les bons indicateurs conférant à sa recherche une

   validité et une cohérence interne. Les deux questions ci-jointes

   sont issues d’un sondage ayant pour but de mesurer l’islamophobie.

   Toutefois, on remarque qu’elles consistent en de très mauvais

   indicateurs \! Premièrement car le concept très complexe de

   l’islamophobie est ici saisi au travers de seulement deux

   indicateurs, mais aussi parce que la seconde question a grandement

   influencé la réponse des femmes, voulant défendre leurs droits.

Ainsi, ***cette étape pose la question du nombre d’indicateurs

nécessaires pour rendre compte au mieux de la réalité mais aussi de la

manière de poser les questions pour que celles-ci suscitent les réponses

attendues***.

Ces trois étapes représentent l’opérationnalisation, pouvant être

définie comme une toujours plus grande descente dans l’échelle de

l’abstraction. Alors qu’elles interviennent en amont de la recherche,

avant la partie empirique, la quatrième étape du processus mis en place

par Lazarsfeld s’effectue en aval de la recherche, après la récolte des

données.

4.  Enfin, c’est lors de la quatrième étape que le chercheur ***forme

   ses indices***. Il s’agit pour le chercheur de reconstruire les

   dimensions de ses concepts après la récolte des données. C’est

   lors
de cette étape que le chercheur crée des échelles d’indices,

   lui permettant d’effectuer une analyse factorielle. Cette étape fait

   le chemin inverse des trois précédentes puisqu’il s’agit de remonter

   l’échelle de l’abstraction et ce, pour s’assurer que les indicateurs

   pris rendent bien compte du concept premier.

## Sélection des indicateurs

### Ultime étape de l’opérationnalisation

Il faut se demander si on prend un ou plusieurs indicateurs pour une

dimension. Il faut identifier des indicateurs pour chacune de nos

dimensions puisque chaque dimension est mesurée par des indicateurs

précis. Pour faire un bon travail, on dépend du travail en amont (étape

1 et 2). Il faut être bien au clair sur le sens de la dimension et si le

sens reste ambigu, cela veut dire qu’il y a encore d’autres dimensions

qui se cachent derrière donc il faut revenir à l’étape 2. Ce n’est pas

un processus linéaire mais bien circulaire qui englobe des

allers-retours \!

Si la dimension est clair, il faut 2 clés :

  - Notre inventivité et la tester

  - Reprendre des mesures élaborées par d’autres chercheurs

Pour arriver à une validité interne, il faut plusieurs indicateurs. Il

faut des concepts latents. Toutefois, la relation entre indicateurs et

concepts reste probabiliste, c’est-à-dire qu’il ne couvre jamais

entièrement le concept. Un indicateur indique et ce n’est pas une

reproduction parfaite. Chaque indicateur doit avoir la même relation à

la dimension. Dans l’idéal, ils pourraient devenir interchangeables. En

théorie c’est facile mais pas en réalité. Un indicateur indique toujours

un aspect d’une dimension c’est pour cela qu’il en faut plusieurs. Si on

met ensemble tous les items d’une dimension, on peut reconstruire

empiriquement un concept.

La règle de base pour le choix des indicateurs : plus d’indicateurs

mieux c’est mais pas trop. Moins il y a d’indicateurs, plus on a d’effet

discriminant.

Exemple avec l’islamophobie : les chercheurs ont pris deux indicateurs

pour indiquer l’islamophobie ; autoriser les pratiques religieuses en

Suisse et le port du voile. Le problème avec le second indicateur est

que les femmes soient plus islamophobes. Mais au final, le sont-elles

vraiment ou est-ce un effet de mesure ? Dans ce cas, la multiplication

des indicateurs aurait été souhaitable surtout qu’ici, on est face à un

concept complexe.

Un 2<sup>ème</sup> effet discriminant est quand 2 indicateurs produisent

deux résultats différents. On est face à une discrimination voulue parce

qu’on veut créer de la variation entre individus.

**Comment éviter ou produire ces effets discriminants ?**

Avec des données primaires, on peut faire des pré-test tandis que pour

les données secondaires, il faut passer impérativement par l’analyse

descriptive avant de les mettre en relation. On va voir ainsi comment

notre variable est distribuée selon les réponses et cela va juger la

qualité de notre indicateur.

**En résumé**

Pour les concepts simples ou périphériques, un indicateur suffit. Par

exemple : l’âge, si ce n’est pas un concept clé dans notre recherche, un

indicateur suffit.

Pour les concepts complexes et centraux, il faut plusieurs indicateurs

comme la compétence politique. Attention à la variable dépendante \! Il

faut faire attention à l’opérationnalisation et on prend rarement le

risque d’avoir qu’un indicateur pour la variable dépendante. Pour les

causes principales, on prend rarement qu’un seul indicateur.

  - Ainsi, l’opérationnalisation, c’est une descente dans l’échelle

   d’abstraction \!

## Formation des indices

Elle se fait après la récolte des données au moment de l’analyse. La

formation d’indices et la reconstruction du concept à partir des

indicateurs. On va faire la synthèse des indicateurs pour chaque concept

et c’est une étape qui se déroule après la récolte des données au moment

de l’analyse. Concrètement, on construit une mesure unique à partir de

ces informations numériques car au moment de l’analyse, on veut

travailler avec nos concepts et tester nos relations causales. On

construit nos concepts à la base de plusieurs indicateurs et on peut

apprendre différentes techniques (additionner). Attention \! cette étape

de la formation des indices n’est pas toujours nécessaire. Si nos

indicateurs mesurent la même chose, on peut en prendre qu’un seul \!

Pour la formation des indices, on prend les résultats et on monte en

abstraction pour mettre nos concepts en relation.

Opérationnalisation a un intérêt vital pour la théorie car elle permet

d’avoir une implication de la théorie et de l’empirie en spécifiant

les cadres théoriques. Cela permet d’éviter les deux mesures majeures ;

la **fiabilité** et la **validité**. La validité de la fiabilité permet

de juger de la qualité de nos mesures. La validité est la manière dont

on juge l’opérationnalisation d’un point de vue théorique. Une mesure

non-valide est celle qui ne mesure pas le concept qu’on a voulu mesure.

L’idée de la validité est simple mais difficile à réaliser ; elle dépend

directement du travail d’opérationnalisation. S’il n’est pas fait de

manière rigoureuse, on a de fortes chances d’avoir des mesures

non-valides.

Exemple : mesurer la participation politique en suisse avec un

indicateur de participation, il manque le pan de votation ou le pan de

la participation protestataire.

## Deux erreurs de mesure

La fiabilité est liée à la formulation et l’élaboration des questions.

Double stimuli (inputs)

Imprécision (jamais de question avec un « ou »)

Jamais bien de supposer les pratiques mais directement les demandées

parce que si on le suppose, les gens pensent qu’ils sont censés le faire

et ne répondent pas comment c’est effectivement.

On voit que la validité se situe au niveau de l’opérationnalisation même

donc au processus qui lie les concepts aux indicateurs pendant que la

fiabilité regarde le lien entre les indicateurs et la question.

Conséquence de ces erreurs : introduisent des biais qui peuvent être

systématiques (confronté à un problème de validité), les biais

systématiques sont des erreurs qui ont une structure et ne sont pas

distribuées au hasard. Elles ne sont pas intégrées dans les analyses en

termes d’erreur. Le biais systématique implique souvent un problème de

validité même s’il y a des problèmes de fiabilité qui sont de cette

nature mais ils sont plus rares.

Lien entre fiabilité et visibilité : pour avoir une mesure valide, elle

doit être fiable mais le contraire n’est pas forcément le cas. La

fiabilité est une condition nécessaire mais pas suffisante pour juger de

la robustesse de la mesure.

Pour faire un bon travail d’opérationnalisation et maximiser la

validité, il faut des concepts clairs, une déconstruction maximale des

concepts on multiple les indicateurs pour éviter les effets

discriminants. Ce travail d’opérationnalisation est très important car

il nous permet de nous approche de la réalité.

# Méthode statistique : introduction

L’analyse de données est souvent décrite comme étant formée de deux

pôles :

  - Statistiques *descriptives *: résumer ensemble de données, trouver

   des astuces pour montrer des éléments importants sans regarder les

   données unes à unes (résumé, graphique). Lorsqu’on va aller plus

   loin, on s’appuie sur la partie descriptive, souvent visuel, pour

   pouvoir émettre des questions. Puis, on pourrait peut-être faire des

   liens entre les données et si tel est le cas, on va généraliser et

   on va parler *d’ingérence statistique.*

## La statistique exploratoire (descriptive)

  - Simples à comprendre

  - S’appliquent à beaucoup de données (flexibles)

  - Se basent sur des représentations graphiques

Elle étudie la « structure » de groupe de données, détecte les

tendances, les formes, les observations atypiques… Elle suggère des

*hypothèses de travail* et des modèles qui peuvent être formalisées et

vérifiées dans le deuxième pôle.

## L’inférence statistique

Elle conduit à des conclusions statistiques à partir de données en

utilisant des notions de la théorie des probabilités. Cette partie

s’occupe des méthodes de test et d’estimation.

Nous en tant qu’étudions, on est un échantillon de la population qui est

l’ensemble de la population de l’université de Lausanne. La statistique

référentiel part de l’échantillon puis on se demande si on peut

l’extrapoler à tous les étudiants mais dans une certaine mesure. Il

faut faire attention en indiquant la marge d’erreur (fiabilité de passer

à un sous-ensemble (échantillon) à une population complète). L’inférence

statistique, on va donner des notions de fiabilités, une mesure de

confiance, quelle est la confiance qu’on apporte dans l’extrapolation.

## Vocabulaire

| **Unité statistique**    | Le plus petit sur lequel on porte l’analyse statistique                                                                                                                                                                                                                                   |

| ------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |

| **Variable statistique** | Caractéristique d’une unité statistique                                                                                                                                                                                                                                                   |

| **Modalités**            | Valeurs distinctes que prend une variable statistique ; différentes valeurs possibles prises par une variable statistiques. Par exemple la variable statistique cheveu et unité étudiant, on peut avoir plusieurs couleurs pas en fonction de la couleur de cheveux de notre échantillon. |

| **Population**           | Ensemble sur lequel on porte une étude statistique ; ce sur quoi porte l’étude                                                                                                                                                                                                            |

| **Echantillon**          | Sous-ensemble de la population                                                                                                                                                                                                                                                            |

| **Paramètre**            | Une mesure calculée sur la population entière                                                                                                                                                                                                                                             |

| **Statistique**          | Une mesure calculée sur un échantillon (tiré d’une population)                                                                                                                                                                                                                            |

# Niveaux d’analyse et graphiques : Analyse des données et interprétation

## Informations

L’analyse quantitative offre une multitude d’outils mais il faut

sélectionner les outils en fonction de notre recherche. D’autant plus,

on peut avoir beaucoup de données à disposition donc il faut à nouveau

les sélectionner. Le sujet de recherche qui nous intéresse peut être

relativement complexe et par conséquent, il faut passer par différents

schémas et trouver un résumé à cela. Ainsi, il y a beaucoup

d’informations, d’outils et d’hypothèses. On s’en sort en travaillant

méthodiquement et en allant du plus simple au plus complexe.

Exemple : les données EMS / Article ADL

Il s’agit d’une étude sur des personnes âgées dans les EMS et on

s’intéressait à connaître leur activité journalière (question

genrée). Question : qu’est-ce qui impacte les activités journalières de

ces personnes âgées ? Est-ce que c’est l’âge, une forte corrélation avec

le genre ? Comment l’analyser ?

##

## Niveaux d’analyse

Une analyse de données doit toujours aller du plus simple au plus

compliqué :

  - Analyse **univariée **: on ne regarde qu’une variable et on

   l’explique

  - Analyse **bivariée **: on regarde deux variables (qui peuvent être

   en relation) ; est-ce que le genre est associé au niveau d’activité

   des personnes ?

  - Analyse **multivariée** **(modèle final) **: On teste les relations

   entre plusieurs variables pour obtenir un modèle qui va essayer

   d’intégrer les autres variables nous paraissant pertinent. Le

   modèle final ne signifie pas qu’on prend toutes les variables mais

   on va sélectionner les meilleurs apports pour expliquer.


  - Chaque étape est liée dans le sens où elle apporte des informations

   pour continuer à l’étape suivante.

Exemple : article ADL

  - Analyse univariée : table 1, colonné « Overall % »

  - Analyse bivariée : Table 1, colonne « Male % », « Females % » et

   « p » : mise en relation de chaque variable avec le genre afin de

   déterminer si la distribution de la variable est associée au genre

   ou non.

  - Analyse multivariée : Table 6.

## Variables et modalités

Une *variable* est une caractéristique d’une unité statistique. Elle est

créée par la réponse donnée à une question. La variable « nationalité »

est créée en réponse à la question « quelle est votre nationalité ? ».

Les différentes « valeurs » possibles d’une variable, qu’elles soient

numériques ou non, constituent ses *modalités*.

### Types de variables

Il existe différents types de variables. Une classification habituelle

utilise les 4 catégories suivantes :

1.  **Variables qualitatives – catégorielles** :

   

   1.  <span class="underline">Nominales </span>: couleur des cheveux

       (pas un nombre \!)

   

   2.  <span class="underline">Ordinales </span>: il n’y a pas d’ordre

       parce que la couleur brune ne peut être supérieur à la couleur

       blonde. Lorsque je peux introduire un ordre (mauvais, moyen,

       bon, très bon), je vais les appeler les variables catégorielles

       ordinales.

2.  **Variables quantitatives – numériques **:

   

   1.  <span class="underline">Discrètes </span>: on peut les compter

       (décimal)

   

   2.  <span class="underline">Continues </span>: on peut avoir toutes

       les valeurs possibles sur un certain intervalle. Ce sont des

       variables comme le poids, la taille, la distance (toutes valeurs

       possibles mêmes avec virgule).


  - Outils à disposition dépend du type de variable \! Certains outils

   sont polyvalents mais la plupart du temps, on fait attention.

Exemple : article ADL

  - Genre : variable qualitative nominale (dichotomique) ; il n’y a pas

   une notion d’ordre

  - Vision (taux de vision) : valeur ordinale parce que ce sont des

   modalités entre mauvais, moyen, bien, très bien.

  - Années d’entrées en EMS : variables discrète (peu d’années d’entrée)

  - MSD- ADL, long term scale : peut être considérée comme une variable

   continue

### Echelles d’intervalle et de rapport

Les variables numériques sont parfois aussi catégorisées comme échelles

d’intervalle et échelles de rapport. Comme dans la définition

précédente, les écarts séparant les valeurs successives d’une échelle

sont tous égaux. La différence entre intervalle et rapport réside dans

le rôle du zéro :

  - **Echelle intervalle **: Il n’y a pas de zéro absolu : son choix est

   une convention arbitraire.

Exemple : température en degré Celsius.

  - **Echelle de rapport **: Il y a un zéro absolu, non-arbitraire.

Exemple : Température en degrés Kelvin. Evaluation d’un trait

psychologique sur une échelle de 0 à 10. Temps de réaction.

### Distributions et fréquence

  - La **distribution d’une variable** est la liste de toutes les

   modalités (ou catégories de modalités) d’une variable avec leurs

   fréquences respectives.

  - La **fréquence d’une modalité** (ou effectif) est le nombre de

   personnes prenant cette modalité dans l’échantillon ou dans la

   population.

  - La **fréquence relative d’une modalité** est la proportion des

   données prenant cette modalité. Elle est exprimée soit sur une base

   de 100 (pourcentage) soit sur une base de 1.

### Analyse univariée

L’analyse univariée cherche avant tout à déterminer deux

caractéristiques de la distribution d’une variable :

  - Le centre (tendance centrale)

  - La dispersion (variabilité)

Pour cela, deux catégories d’outils sont mobilisées :

  - Les graphiques

  - Les résumés numériques

## Graphiques

### Généralités

Un graphique statistique doit représenter le plus fidèlement possible la

distribution d’une variable. **Principe de proportionnalité** : chaque

modalité est représentée par une surface proportionnelle à la fréquence

(relative) de cette modalité (si on augmente la taille, il faut prendre

garde à mettre en rapport la proportionnalité). Pour qu’un graphique

soit de bonne qualité, les points suivants doivent être considérées :

  - Clarté

  - Précision

  - Bien documenté (titre, légende)

  - Respect du principe de proportionnalité

## Principaux types de graphiques

Graphiques pour données catégorielles :

  - Graphique en barres

  - Graphique circulaire

Graphiques pour données numériques :

  - Histogramme

  - Diagramme en ligne (pour série temporelle)

  - Box-plot (basé sur des résumés numérisés)

Graphiques pour la relation entre deux variables :

  - Carré unitaire (variables catégorielles)

  - Diagramme de dispersion (variables numériques)

### Graphique en barres

Chaque modalité est représentée par une barre dont la hauteur est

proportionnelle à la fréquence (relative) de la modalité. Chaque barre a

la même largeur et est souvent séparée des autres barres par un espace.

Dans le cas d’une variable ordinale, les modalités doivent être placés

dans l’ordre sur le graphique. C’est le graphique à tout faire de la

statistique. Il peut s’adapter pratiquement à n’importe quelle variable

(salaire médian, taux de chômage, violence domestique…)

### Graphique circulaire

Un cercle ou un demi-cercle est découpé en autant de secteurs qu’il y a

de modalités à représenter. La surface de chaque secteur est

proportionnelle à la fréquence (relative) de la modalité qu’il

représente. Ce type de graphique est particulièrement adapté à la

représentation de distributions de pourcentages (répartition des

travailleurs étrangers en Suisse…).

### Histogramme

L’histogramme est le graphique type pour les variables numériques. Les

modalités de la variable sont au préalable réparties en nombre fini de

classes. Il n’y pas d’écart entre les classes : la valeur finale d’une

classe est la même que la valeur initiale de la classe suivant. La

classe à laquelle appartiennent réellement ces valeurs limites est

choisie arbitrairement. Les différentes classes sont placés sur l’axe

horizontal du graphique et un rectangle dont la surface est

proportionnelle à la fréquence (relative) de la classe est construit

au-dessus de chaque classe.

### Classes de l’histogramme

De manière générale, le nombre de classe ne devrait pas être plus grand

que \(\sqrt{n}\) où *n* est le nombre d’observations. Il y a 2 grandes

principes pour déterminer les classes :

1.  Toutes les classes ont la même amplitude (largeur).


  - On divise l’étendue des données par le nombre de classe désiré.


2.  Toutes les classes ont la même fréquence.


  - On ajuste les limites des classes pour que le nombre d’observations

   soit assez similaire d’une classe à l’autre.

  - **Un histogramme s’interprète en termes de surfaces et non de

   hauteurs \!**

### ![](./media/image2.png)Diagramme en ligne

Le diagramme en ligne permet de représenter l’évolution au fil du temps

d’une variable numérique. La référence temporelle est placée sur un axe

(généralement l’axe horizontal) et les valeurs observées sont placées

sur l’autre axe. Les points représentants chaque observation sont reliés

de manière à mettre en évidence l’évolution dans le temps.

# Analyse univariée : Analyse des données et interprétation

## Introduction

### Caractéristiques d’une distribution

  - Les deux caractéristiques essentielles d’une distribution univariée

   sont :

   

     - La tendance centrale

   

     - La dispersion

D’autres caractéristiques peuvent se révéler importantes :

  - La symétrie

  - L’aplatissement

Les résumés numériques sont l’outil le plus utilisé pour analyser ces

caractéristiques (minimum, maximum, milieu). Comment jouer là-dessus

pour mieux décrire la distribution ?

### Relation entre centre et dispersion

Les notions de tendance centrale et de dispersion sont indissociables,

car la connaissance de l’une sans l’autre peut amener à des confusions

et des erreurs d’interprétation.

### Résumés numériques

Un résumé numérique (ou chiffre clé) est une statistique résumant par

une seule valeur une notion complexe. Un bon résumé numérique devrait

avoir les caractéristiques suivantes (conditions de Yule) :

  - Etre objectif

  - Tenir compte de toutes les observations

  - Avoir une signification concrète, être simple à interpréter.

  - Etre simple à calculer

  - Etre peu sensible aux fluctuations de l’échantillonnage : si on

   prend deux échantillons différents, on aura des valeurs différentes.

   Comment faire pour qu’elles soient moins différentes ?

  - Se prêter à des calculs algébriques ultérieures : on aime bien

   travailler avec la variance mais en termes d’interprétation, on

   préfère travailler avec l’écart-type.

## Tendance centrale

### Mode d’une distribution

Le mode d’une distribution est la modalité la plus fréquente de

celle-ci. Le mode peut se calculer sur n’importe quel type de variable.

Il n’est pas intéressant pour des variables prenant un grand nombre de

modalités différentes.

**Le mode n’est pas forcément unique et il ne représente pas forcément

le centre \!**

Exemple : échantillon de 30 personnes (4, 4, 8, 12, 15, 32, 40 etc). Le

mode de la distribution est la valeur de 40 heures, c’est-à-dire la plus

grande valeur observée \!

### Médiane

Dans le cas des salaires, une moyenne a l’habitude d’être sensible aux

données extrêmes et donc elle aurait la tendance d’aller vers les

salaires élevés.

La médiane d’une distribution est la valeur telle que 50% des données

sont plus petites qu’elle et 50% des données sont plus grande qu’elle.

Elle ne se calcule que sur des variables dont les modalités ont un ordre

(ordinales ou numérique).

Trois étapes pour le calcul :

1.  Classer les observations par ordre croissant

2.  Calculer le rang (position) de la médiane :

> rang (med(x)) = **<span class="underline">n + 1</span>**

>

> **2**

3.  Trouver la médiane

**Si le rang n’est pas entier, la médiane est la moyenne de deux

observations entourant le rang de la médiane \!**

Exemple : nombre d’heures hebdomadaires de travail

**Rang de la médiane **: ![](./media/image3.emf)

La médiane est la moyenne entre les 15<sup>ème</sup> et 16<sup>ème</sup>

observations par ordre croissant : ![](./media/image4.emf)

### Moyenne arithmétique

La moyenne arithmétique se calcule comme :

![](./media/image5.emf)

  - La moyenne ne se calcule que sur de vraies variables numériques. Une

   variable catégorielle recodée sous forme numérique n’est une vraie

   variable numérique \!

Exemple : nombre d’heures hebdomadaires de travail

### Médiane VS moyenne

![](./media/image6.emf)

La médiane est une notion de centre par rapport au nombre de données,

alors que la moyenne est une notion d’équilibre.

Par ailleurs, la médiane est robuste (insensible aux données extrêmes =

ne change pas), alors que la moyenne est non-robuste (facilement

influencée par les données extrêmes).

Exemple : salaire mensuel en France

Données du 4<sup>ème</sup> trimestre 2013 en France dans le secteur

privée. Typiquement, il y a quelques salaires qui sont excessivement

élevés faisant en sorte d’élever la moyenne des salaires tandis que la

médiane n’est pas influencée par des éléments externes.

## Dispersion

### Qu’est-ce que la dispersion ?

La dispersion est une notion de répartition des observations les unes

par rapport aux autres. Plus la dispersion est grande, plus observations

différentes les unes des autres. Telle que vue dans ce cours, la

dispersion s’applique avant tout aux variables numériques, mais il

existe une mesure de dispersion adaptée aux données catégorielles :

l’entropie. C’est un terme venant de la théorie de l’information.

### L’étendue d’une dispersion

Le minimum et le maximum représentent les valeurs limites d’une

variable. Ils n’existent pas lorsqu’une variable peut prendre des

valeurs allant jusqu’à plus au moins l’infini. On peut distinguer entre

le minimum et le maximum théoriques d’une variable et les valeurs

minimales et maximales réellement observées.

Exemple : nombre d’heures hebdomadaires de travail

Sur l’échantillon considéré, le minimum vaut 4 heures et le maximum 40

heures. Sur un plan théorique, le minimum possible pour cette variable

est de 0 heure et le maximum est de 168 (nombres d’heures possibles par

semaine), même si cette dernière valeur ne sera que difficilement

atteinte. Dans cet exemple, la valeur maximale théorique peut aussi

dépendre des lois en vigueur dans le pays considéré.

### Quartiles

Les quartiles complètent la médiane en divisant le nombre de données en

4 groupes plutôt que 2. Le premier quartile noté q1 et tel que 25% des

données sont plus petites que lui. Le troisième quartile noté q3 est tel

que 75% des données sont plus petites que lui. Le calcul des quartiles

se fait comme celui de la médiane, mais les rangs (positions) se

calculent comme suit :

![](./media/image7.emf)

Si les rangs ne sont pas des nombres entiers, on approxime la valeur des

quartiles par interpolation linéaire.

### Définitions

Pour l’interpolation linéaire, il faut introduire de nouvelles

définitions :

Considérons une seule variable mesurée sur *n* observations

![](./media/image8.emf)

**Définition **: La statistique d’ordre d’un échantillon est donnée par

les valeurs de l’échantillon ordonnées de la plus petite à la plus

grande. Elle est notée : ![](./media/image9.emf)

**Définition **: Le quantile d’ordre ![](./media/image10.emf)est une

valeur telle que ![](./media/image10.emf)% des données sont inférieures

et (100 - ![](./media/image10.emf))% des données sont supérieures.

**Les quartiles sont donc les quantiles d’ordre 25 (1<sup>er</sup>

quartile), 50 (médiane) et 75 (3<sup>ème</sup> quartile)**

###

**Calcul d’un quantile**

1)  Ranger les données par ordre croissant (=statistiques d’ordre)

2)  Calculer le rang *r* = ![](./media/image11.emf)

3)  Trouver la valeur correspondante au rang :

   

   1.  Si *r* est entier, il s’agit de la r-ième valeur (des

       statistiques d’ordre)

   

   2.  Si *r* n’est pas entier, la valeur est :

       ![](./media/image12.emf)

Notation : Si \[r\] et \[r\] désignent respectivement la partie entière

inférieure et supérieure de *r*.

###

### Boxplot

Le boxplot, ou résumé à 5 valeurs, est un graphique simplifié de la

distribution d’une variable.

![](./media/image13.emf)

Entendue : différence entre maximum et minimum (sur quelle plage nos

données sont distribuées)

Ecart interquartile : différence entre le 1<sup>er</sup> et le

3<sup>ème</sup> quartile : lorsque j’ai éliminé de mes données les 25%

des plus petites et grandes, j’ai toutes les données comprises entre le

1<sup>er</sup> et le 3<sup>ème</sup> quartile.

### Schematic plot

C’est une variante du boxplot dans laquelle les données extrêmes

(petites et grandes) ne sont pas intégrées dans le graphique, mais sont

représentées séparément. Dans certains cas, les données extrêmes sont

même totalement absentes du graphique.

### Variance

La variance est la moyenne de la somme des carrées des écarts à la

moyenne.

La variance est calculée comme :

| **Population**           | **Echantillon**          |

| ------------------------ | ------------------------ |

| ![](./media/image14.emf) | ![](./media/image15.emf) |

La variance prend des valeurs allant de 0 à l’infini. La valeur 0

indique une totale absence de variation : toutes les valeurs observées

sont identiques. Plus la variance est grande, plus les valeurs sont

dispersées, c’est-à-dire différentes les unes des autres. La variance ne

s’exprime pas dans la même unité que les données observées.

  - Elle est difficilement à interpréter / trouver mathématiquement mais

   difficile à interpréter empiriquement.

### Ecart-type

L’écart type est défini comme la racine carrée de la variance :

| **Population**           | **Echantillon**          |

| ------------------------ | ------------------------ |

| ![](./media/image16.emf) | ![](./media/image17.emf) |

Il s’interprète de manière similaire à la variance mais avec l’avantage

de s’exprimer dans la même unité que les données observées. L’écart-type

représente la distance typique que l’on s’attend à observer entre

n’importe quelle donné de l’échantillon et la moyenne de celui-ci.

### Coefficient de variation

Le coefficient de variation est une mesure de dispersion relative,

utilisée pour décrire la précision d’une valeur estimative.

  - La valeur et l’écart-type ont le désavantage d’être influencés par

   l’ordre de grandeur des données observées.

  - Le coefficient de variation est une mesure de **dispersion

   relative**, indépendant de l’unité de mesure :

![](./media/image18.emf)

  - Il permet de comparer la dispersion de variables mesurées dans des

   unités totalement différents les unes des autres.

Exemple : nombre d’heures hebdomadaires de travail

<table>

<thead>

<tr class="header">

<th>Vu comme</th>

<th>Une <strong>population</strong></th>

<th>Un <strong>échantillon</strong></th>

</tr>

</thead>

<tbody>

<tr class="odd">

<td><strong>Moyenne</strong></td>

<td><img src="./media/image19.emf" style="width:0.69068in;height:0.26111in" /></td>

<td><img src="./media/image20.emf" style="width:0.66597in;height:0.24447in" /></td>

</tr>

<tr class="even">

<td><strong>Variance</strong></td>

<td><p><img src="./media/image21.emf" style="width:2.75625in;height:0.27022in" /><img src="./media/image22.emf" style="width:0.86042in;height:0.24583in" /></p>

<p><img src="./media/image23.emf" style="width:0.94375in;height:0.16154in" /></p></td>

<td><img src="./media/image24.emf" style="width:0.86736in;height:0.17347in" /></td>

</tr>

<tr class="odd">

<td><strong>Ecart-type</strong></td>

<td><img src="./media/image25.emf" style="width:1.9125in;height:0.27945in" /></td>

<td><img src="./media/image26.emf" style="width:0.74236in;height:0.19987in" /></td>

</tr>

<tr class="even">

<td><strong>Coefficient variation</strong></td>

<td></td>

<td><img src="./media/image27.emf" style="width:0.88958in;height:0.35583in" /></td>

</tr>

</tbody>

</table>

# Collecte des données : Introduction Enjeux de la collecte et types de données

On laisse derrière nous le pôle méthodologique où on a établi un dessin

de recherche adéquat et on a opérationnalisé nos concepts afin de le

rendre réalisable. On va porter notre attention sur la récolte de

données individuelless en passant par le sondage qui sera l’outil

principal.

![](./media/image28.emf)

L’enjeu principal dans la récolte de données est d’arriver à être

systématique. Les données sont des éléments d’information qui sont

récoltés de façon systématique que ce soit sous forme quantitative ou

qualitative. Ceci est également exprimé dans la citation de King et

all. :

« Data are systematically collected elements of information about the

world ». (1994)

## Enjeux de la collecte de données

### Récolte systématisée

Il est nécessaire de trouver des supports qui permettent une telle

systématicité et d’éviter des biais potentiels. Par exemple, si on veut

connaître le volume de participants aux manifestations de rue, on se

rend compte que les chiffres varient selon la source (police,

organisateurs de la manifestation, médias). Il existe toujours

différentes stratégies possibles pour en rendre compte sauf qu’il est

important de justifier notre choix de source de données.

Une stratégie pour faire une collecte systématique est de prendre

systématiquement la même source d’information. Une autre serait de

faire une moyenne des sources disponibles. Le point essentiel est

d’avoir toujours le même indicateur dans l’espace et dans le temps

sinon la collecte n’est pas systématique. Ceci est facile en théorie

mais en pratique, ce n’est pas toujours possible. Dans la pratique, il

faut essayer de minimiser deux types de biais :

  - Biais aléatoires ou structurels

  - Biais systématiques : variations structurelles

Exemple : nombres de participants dans une manifestation

Si on prend comme source les chiffres de la police, on est confronté à

un biais systématique, c’est-à-dire une tendance à sous-estimer le

nombre de participants. Si on prend comme source les chiffres des

organisateurs d’une manifestation, on est aussi confronté à un **biais

systématique** et il y a une surestimation du nombre de participants.

Par contre, si on prend comme source les chiffres des médias, on risque

d’avoir un **biais aléatoire**, c’est-à-dire une fois une sous et

l’autre fois une surestimation. On est confronté à des variations

aléatoires qui ne sont pas systématiques et qui sont dues à un problème

de fiabilité de la mesure. Ainsi, il faut changer l’indicateur pour

éviter des résultats non fiables.

### Objectifs

Pour avoir des données de bonnes qualités, on doit se fixer comme

objectifs de récolter des données de manière systématique. Il faut

**éviter les biais aléatoires** puis **identifier les biais

systématiques** et les prendre en compte dans l’analyse des résultats.

Dans la recherche comparative, pour éviter les biais aléatoires, il faut

garder le même support ou le même indicateur. On parle notamment de

*critères* et *indicateurs* *invariants*, c’est-à-dire des indicateurs

qui ne changent pas dans le temps et l’espace.

Pour évaluer la classe sociale dans laquelle un ménage se trouve, on

peut utiliser plusieurs indicateurs. Certains indicateurs (possession

d’une télévision en couleur) ont été créés vers 1980 sauf est-ce qu’il

faut le garder, le supprimer ou le modifier ? Dans un panel, on veut

toujours garder les mêmes indicateurs pour éviter des biais aléatoires

mais ceci n’empêche pas l’introduction d’autres problèmes de mesure

comme dans cet exemple. Les biais aléatoires et systématiques sont un

enjeu dans le temps, comme dans le panel, mais d’autres exemples peuvent

être trouvés dans la comparaison entre pays comme le taux de chômage qui

peut être mesuré selon des critères différents dans l’espace.

Particulièrement dans la recherche comparative, on est dans le besoin

de combiner différentes bases de données pour comparer la population.

Exemple : la controverse autour du votant américain

Cette controverse se jouait par beaucoup de publications (1960-2000)

mais notamment autour de deux ouvrages, à savoir *The American Voter* et

*The Changing American Voter*. Le modèle de Michigan a été critiqué 16

ans après par le second ouvrage sauf que ce sont des différents

indicateurs qui ont été pris pour formuler la critique. Donc le second

ouvrage a lui-même été critiqué.

### Qualité des données

Pour obtenir une qualité des données, il faut trouver les biais. Il est

notamment nécessaire de **cerner les biais potentiels**. Il faut

toujours être l’affût de ce problème sinon on pourrait être confronté à

un *artefact statistique* qui est un faux résultat puisqu’on n’a pas

utilisé les bons indicateurs ou on a oublié de regarder les relations

avec des variables concurrentes.

La règle d’or est de **maximiser la validité** **des mesures** et de

**maximiser** **la** **fiabilité des mesures**. Au moment de

l’opérationnalisation, on peut maximiser la validité des mesures. Il

est impératif d’être scrupuleux dans l’opérationnalisation de nos

concepts et de prendre plusieurs indicateurs pour les concepts clés.

Par exemple : une mesure du chômage pour évaluer l’état de l’économie

Il faut être conscient et transparent sur les limites potentielles de

nos mesures. Le taux de chômage peut être corrélé à l’état de l’économie

sauf qu’ils ne sont pas synonymes.

Une fois que la validité est assurée, il faut également s’assurer que

nos mesures sont fiables. Ce contrôle se fait au moment de la sélection

des indicateurs et on évalue si la mesure produit le même résultat dans

l’espace et dans le temps. Une technique pour s’en assurer est de

reprendre des mesures existantes qui ont déjà été testées. On va

également essayer de collecter un maximum de données, notamment pour

les variables dépendantes et indépendantes centrales. Dans la réalité,

ceci se fait toujours sous contrainte de temps et il faut trouver un

équilibre dans l’idée de maximiser des informations sur les choses qui

nous intéressent.

Dans une recherche sur l’opinion publique, 4 indicateurs sur

l’environnement ont été choisis. Dans cet exemple, on peut s’imaginer

que chaque indicateur mesure quelque chose de légèrement différent et

cela pourrait générer des résultats différents. Pour augmenter la

robustesse des analyses, il faut analyser chaque indicateur avant de

développer des résultats. Généralement, plusieurs indicateurs nous

permettent de renforcer la consistance de la recherche car plus

d’indicateurs vont dans la même sens, plus notre résultat est robuste

et le teste de notre analyse n’est pas due au hasard.

### Anticiper les problèmes

Si on est systématique et qu’on veille à une bonne qualité de données,

on devrait être capable d’anticiper les problèmes avant la collecte des

données et donc **de les déjoués en amont**. Ces problèmes sont propres

à chaque recherche.

Par exemple : il faut être conscient qu’on aurait pour chaque recherche

des populations sous-représentées tel que les jeunes.

Un autre problème dont il faut être conscient est la

<span class="underline">fiabilité des codeurs</span>, c’est-à-dire que

si on analyse les articles dans la presse, on utilise plusieurs codeurs

pour déterminer la chose dont ils parlent. Il faut s’assurer et mettre

des stratégies en place pour que chaque personne identifiée les sujets

de la même manière.

Il faut toujours voir s’il y a des <span class="underline">différences

linguistiques</span> dans une variable (confidence – trust / pas de

distinction en français).

Si on regarde dans la temporalité, on pourrait avoir des

<span class="underline">données manquantes</span> comme c’est le cas

lors de la 2<sup>ème</sup> guerre mondiale. Faut-il écarter ce temps de

notre analyse ou en d’autres termes, comment le gérer ?

  - Si on anticipe les problèmes avant la collecte, on peut trouver les

   problèmes en amont.

### Réplicabilité

Répliquer des études quantitatives est difficile mais en répliquant le

processus de données, on diminue cette difficulté. C’est le cas avec

*The American Voter* où on reprend les données actuellement mais on ne

le réplique pas entièrement. Il est nécessaire de tenir un journal de

bord sur le processus de récolte de données puisqu’on aura une

transparence sur le processus de récolte. Cela va nous permettre

d’expliquer comment on a procédé dans les détails et les problèmes

qu’on a rencontré au fil de notre recherche. Cela nous permet aussi

d’identifier les biais qui se sont introduits. Si on prend compte de

ces biais au moment de l’analyse et de l’interprétation des résultats,

on peut augmenter la qualité de nos résultats. Un journal de bord est

aussi utile pour éviter les artefacts statistiques. Les métadonnées sont

des données sur nos données comme par exemple expliquer comment s’est

passé notre entretien. Le journal de bord et les métadonnées permettent

d’expliciter le processus de récolte de données.

  - Pour avoir une bonne qualité de données, il faut :


1.  Etre systématique et éviter les biais

2.  S’assurer de la validité et de la fiabilité de nos données

3.  Essayer d’anticiper des problèmes

4.  Permettre la réplicabilité le plus possible

## Différents types de supports

Beaucoup d’informations peuvent être trouvées sur des supports textuels

comme des interventions parlementaires. Un **support textuel** majeur

est la presse ou les médias plus généralement pour saisir les débats

publics comme la migration pour évaluer la structure des débats avant

des élections par exemple. Ces exemples devraient montrer qu’il existe

pleins de données textuelles qui peuvent être converties en données

chiffrées.

Ceci est également le cas pour des **données orales** pouvant venir de

la TV, de la radio, d’internet etc.

En plus des supports textuels et oraux, il y a la technique **d’enquêtes

par questionnaire** qui implique de récolter des données directement

auprès des acteurs. C’est une technique fortement standardisée

puisqu’elle est très utilisée en science sociale. Néanmoins, ce n’est

pas la seule technique pour collecter des données.

### Créativité et imagination

Il n’est pas facile de récolter des données en raison de la

non-disponibilité ou de la difficulté d’accès à des supports de

collecte. On nous apprend des outils de base dans ce cours mais il faut

compter sur notre créativité et notre imagination. La recherche de

Zuccato a proposé d’analyser les eaux usées pour déterminer le taux de

cocaïne que les gens prennent.

Il existe différents processus de récolte de donnée et donc différents

types de données qui ont par conséquent différentes types d’application.

## Différents types de données

### Primaires vs secondaires

Il faut toujours réfléchir si on veut récolter des données primaires ou

utiliser des données secondaires. Les **données** **primaires** sont les

données que le chercheur récolte lui-même et elles sont spécifiques à

une recherche. Ses <span class="underline">avantages</span> sont

nombreux et substantiels :

  - Elles sont le fruit d’un dessin de recherche qui correspond à la

   problématique de la recherche.

  - Ce sont des données dont la chercheuse a besoin et elles sont

   adaptées pour répondre à la question de recherche et pour tester

   les hypothèses.

  - On peut partir du postulat que la validité est bonne et que les

   indicateurs sont adéquats.

La raison pour laquelle les chercheurs n’utilisent pas ce type de

données est qu’il y a des **désavantages** considérables. Ce type de

données est coûteux en temps en argent. De plus, on peut ne pas avoir la

formation requise pour bien récolter les données primaires.

A cause de ces désavantages, les chercheurs utilisent des **données

secondaires**, à savoir des données récoltées par d’autres chercheurs.

Leurs **avantages** sont qu’elles :

  - Soient disponibles et il n’y a pas de coût ni en temps, ni en argent

   ni en formation.

  - Elles permettent de faire des comparaisons plus facilement.

Sauf que leur **désavantage** est que ce sont des données qui :

  - Ne sont pas toujours adaptées à notre recherche.

  - On n’a pas toujours les bons indicateurs

  - On est plus confronté à des problèmes de validité.

  - La récolte de données peut comporter des biais qu’on ne connaît pas

   forcément.

  - Question : Comment choisir entre ces deux types de données ?

Avant de se lancer dans une collecte de données, il faut s’assurer qu’il

n’existe pas des données secondaires utilisables. Et si c’est le cas, on

peut essayer d’améliorer certains indicateurs en combinant les indices.

On privilégie les données secondaires dans la mesure où elles sont

adaptées. Sauf qu’il faut être attentif aux problèmes de validité des

mesures. Il faut également bien regarder les métadonnées parce qu’elles

nous donnent beaucoup d’informations.

### Exhaustives vs échantillonnées

Les **données exhaustives** sont les données collectées par l’Etat. Ce

sont des données sur l’ensemble de la population qui suppose une

énumération complète comme pour les recensements de la population ou

pour saisir le flux de migrants. L’avantage principale de ces données

apparaît dans son nom puisque l’exhaustivité implique qu’il n’y a pas de

bais en termes de représentativité donc il n’y aurait pas d’erreur

d’échantillonnage. Toutefois, elles ne sont **pas forcément de bonne

qualité** :

  - Par exemple, si c’est la police qui collecte des données sur la

   violence, ce sont eux qui déterminent les indicateurs et ce n’est

   pas forcément en cohérence par rapport à notre recherche. Donc

   l’exhaustivité n’est pas assurée \!

  - De plus, ces données contiennent très peu de variables différentes.

  - Elles coûtent au niveau de l’argent et au niveau de la lourdeur de

   la collecte

  - Recensements sont en voie de disparition

Dans la plupart des cas, on travaille avec des **données

échantillonnées** qui sont des données tirées d’une portion de la

population appelée la « population mère ». Ce peut être la population

suisse, des éditions de journaux etc. L’idée d’utilisée un échantillon à

la place d’une population est une idée révolutionnaire. Cela consiste à

prendre un échantillon représentatif de l’ensemble de la population. A

partir de cet échantillon, on fait des inférences statistiques sur la

population qu’elle représente. C’est Kiaer qui a eu cette idée au

19<sup>ème.</sup> Ce type de données ont des **avantages**

puisqu’elles :

  - Augmentent les possibilités de collecte de données dans plusieurs

   domaines.

  - Augmentent la faisabilité des recherches

  - Rendent le travail de recherche plus facile.

  - En plus de cette flexibilité, elles nous donnent une plus grande

   importance en tant que chercheur puisqu’on dépend moins de l’Etat.

   Ceci ne veut pas dire qu’on est complètement indépendant puisque les

   recherches coûtent cher.

  - La majorité des outils techniques a été élaborés pour ce type de

   données. Finalement, ce type de données permet une gestion plus

   facile des données car on a un plus petit fichier de données.

Les **désavantages** sont que :

  - Les chercheurs nécessitent une expertise puisque la sélection de

   l’échantillon est un vrai enjeu car il faut assurer la qualité et

   la représentativité des inférences.

  - De plus, chaque échantillon est confronté à la question de la

   représentativité. Cela signifie qu’il y a généralement une

   structure dans les non-réponses qui rend l’échantillon non

   représentatif.

  - Question : comment choisir entre ces deux types de données ?

On privilégie les données échantillonnées à cause de leur flexibilité.

On opte pour l’exhaustivité pour de petites populations. Dans les deux

cas, il faut être attentif. Pour les données exhaustives, même si elles

sont appelées comme ça, il faut toujours faire attention au biais de

sélection. Ceci se fait par exemple sur les groupes qui sont sondées ;

les migrants, oui mais lesquels ? Pour les données échantillonnées, il

faut toujours analyser la qualité et le taux de non-réponse pour avoir

une bonne représentativité.

### Individuelles vs agrégées

La différence majeure est l’unité d’analyse sur laquelle on collecte des

informations. Les **données individuelles** collectent des données sur

les individus comme pour la participation politique, les valeurs ou les

aptitudes. L’unité d’analyse sont les individus avec leurs

caractéristiques. Cela permet d’analyser la variation, c’est-à-dire la

différence entre les individus.

Les **données agrégées** sont des données sur des agrégats tels que des

Etats, des villes, des quartiers, des organisations. Ces données sont

utilisées au niveau macro comme pour l’analyse spatiale du politique. Ce

sont les caractéristiques des régions par exemple et pas des individus

qui y habitent. Par contre, la logique analytique des données agrégées

est partagée avec celles des données individuelles ; la logique d’étude

des variations sauf que c’est entre les agrégats et pas les individus :

Est-ce que la taille des communes a une influence sur la participation

électorale ?

### Erreur écologique

Il est important de distinguer ces deux niveaux pour ne pas faire des

erreurs écologiques.

Au niveau individuel, on peut trouver empiriquement que les individus

avec des difficultés financières tendent à voter à gaucher mais cela ne

signifie pas qu’en période de crise, les partis de gauche ont les scores

les plus élevés. Si on confond le niveau macro et micro, on fait une

erreur écologique.

On peut distinguer entre hypothèses et données. Les deux peuvent être de

niveau <span class="underline">individuel</span> ou

<span class="underline">agrégé</span>. Tant qu’on teste les hypothèses

avec les données récoltés au même niveau, il n’y a pas de problème.

L’erreur écologique consiste à analyser les hypothèses avec les

données récoltes qui ne sont pas du même niveau (agrégé avec

individuel). En d’autres termes, c’est le fait de tester des hypothèses

au niveau individuel avec des données agrégées. Ou encore, le fait

d’analyser des propriétés individuelles inférées sur la base

d’observations faites au niveau agrégé.

Exemple : l’étude de Pisa a trouvé que la Suisse est forte en

mathématique mais cela ne signifie pas que tout écolier est fort en

mathématique. Il y a ainsi une forte variance et donc pas

d’homogénéité \!

A l’origine de cette erreur, il y a l’étude de W. Robinson qui

s’intéresse au lien entre le taux d’analphabétisme et le taux

d’immigré dans un Etat américain.

### Conclusion

Il faut faire attention à l’unité d’analyse de la recherche \! On peut

agréger des données individuelles mais l’inverse n’est pas possible \!

Une manière pour combiner les deux niveaux sont les analyses

multiniveaux qui est une analyse poussée mais même ici, on conserve

chaque niveau séparément. On analyse la relation à un niveau en étant

sous le contrôle de l’autre. Néanmoins, on analyse toujours les

interactions entre les différents niveaux.

# Elaboration d’un questionnaire standardisé : Principes généraux

## Construction d’un questionnaire

***L’enjeu principal autour de la construction d’un questionnaire est la

fiabilité des mesures***. En effet, Kalton et Moser explique bien «

qu’aucun sondage ne peut être meilleur que son questionnaire ».

***Chaque question correspond à une mesure devant être utilisable pour

répondre à nos hypothèses premières***. Pour la recherche, on dit

souvent que la qualité du questionnaire est primordiale. Ainsi, une

mauvaise question entrainera la récolte de mauvaises mesures.

## Deux types d’erreur

1.  Il peut y avoir une erreur au niveau théorique

   

   1.  Problème de la validité de la mesure : évaluation de la mesure

       au niveau théorique

   

   2.  Opérationnalisation

2.  Erreur au niveau empirique

   

   1.  Problème de fiabilité de la mesure : évaluation de la mesure au

       niveau empirique (idée de la consistance de la mesure)

   

   2.  Fidélité, robustesse, reproductibilité

   

   3.  Formulation des questions

### Fiabilité des mesures

L’idée de la fiabilité est simple en théorie mais difficile à mettre en

œuvre. Il y a des questions qui peuvent être comprises de manière

différente que ce qu’on le croit. La reproductibilité correspond au

fait ***qu’un même output sera produit si un même input est appliqué***.

C’est en lien avec la reproductibilité qu’il n’est pas toujours possible

de comparer entre elles des données, devant pour ce faire avoir été

produites de la même manière. C’est pourquoi les questionnaires doivent

être construits de sorte à ce que les ***réponses données proviennent

toutes d’un même input***. C’est pourquoi les questions doivent être

précises, simples... Afin que tous les répondants les comprennent de la

même manière et se positionnent par rapport à des inputs précis. Cet

exercice est d’autant plus difficile si le questionnaire doit être passé

auprès d’une population hétérogène (langue, culture, religion...)

différentes, les mots pouvant être socialement situés. ***En plus des

questions devant être intelligemment conçues pour être comprises de

manière uniforme au sein de la population cible, le questionnaire doit

également être uniformément transmis \!*** En effet, les intervieweurs

ne doivent pas inclure dans la question posée leur interprétation

propre.

Il existe plusieurs sources de non-fiabilité des mesures. Comme nous

l’avons dit, les ***questions peuvent être comprises différemment***

selon l’enquêté. Il faut encore noter que les mots peuvent changer de

sens au fil du temps mais aussi dans l’espace. Cette dimension est

importante à prendre en compte notamment lorsqu’il s’agit de répliquer

une étude ancienne. Il faudra alors se demander si les questions doivent

être traduites dans un vocabulaire plus actuel pour obtenir le même type

de réponses que jadis ou ces mots avaient des connotations différentes.

De plus, si ***la question contient deux inputs***, c’est à dire si la

question demande aux répondant de se positionner sur deux éléments de

question à la fois, le chercheur ne pourra savoir à quel stimuli

l’enquêté a répondu. Il faut également être vigilant au fait que

***la désirabilité sociale joue un rôle important lors de la passation

de questionnaire***. La désirabilité sociale est une sorte d’autocensure

lorsque l’enquêté craint d’être jugé négativement s’il donne une réponse

particulière à une question. Elle évolue dans le temps si bien qu’il est

aujourd’hui tout à fait commun de dire être divorcer, contrairement à

avant. Par contre, dire aujourd’hui que l’on est raciste est très

difficile, terme fortement déprécié. Enfin, il faut s’assurer que

***tous les enquêteurs posent les questions de la même manière*** lors

de la passation du questionnaire et ce, pour n’induire aucun biais de

compréhension.

### Source de non-fiabilité des mesures

Ce n’est pas seulement les questions en soi qui peuvent poser problèmes

mais également les répondants. En plus, ce sont souvent des groupes

différents qui répondent à nos questions. Ils ont des ancrages sociaux

différents et des différenciations générationnelles ce qui fait qu’ils

peuvent comprendre les questions différemment. De plus, il est

nécessaire de prendre les contextes en compte ; cela change en fonction

du temps et de l’espace. Par rapport, ce ne sont pas seulement les

personnes âgées qui posent des problèmes mais tout répondant confondu

lorsqu’il s’agit de questions délicates. Cela rend compte à la

désirabilité sociale où les gens répondent en fonction de ce qui est

perçu comme « bien » socialement ; personne n’est raciste et tout le

monde participe politiquement. Finalement, les enquêteurs peuvent poser

des questions différentes jusqu’au point où la compréhension de la

question varie.

  - Toutes ces sources nous montrent que la fiabilité se travaille au

   moment de l’élaboration du questionnaire. Cela ne signifie pas

   seulement au moment d’écrire et de penser des questions mais qu’il

   faut également faire des pré-tests pour identifier des biais

   potentiels.

## Questionnaire standardisé : de quoi s’agit-il ?

On récolte des informations de manière systématique. L’idée est de

passer le même questionnaire à tout l’échantillon. L’approche de cette

démarche quantitative est de fermer au maximum l’espace d’expression

pour l’individu. Pour la grande majorité, le questionnaire utilise des

questions fermées, c’est-à-dire des questions avec des réponses déjà

pré-codées. On va donc maximiser la standardisation entre le répondant

avec un input et un même output. Le résultat de cette démarche est de

recevoir peu d’informations sur un grand nombre de personnes pour

pouvoir les analyser de manière systématique les statistiques et les

covariances. L’entretien qualitatif quant à lui veut ouvrir au maximum

l’espace d’expression de l’individu et on laisse simplement parler

l’interviewé. Avec une approche qualitative, la logique est

différente. Pour le questionnaire, il y a peu d’informations pour

beaucoup de personnes tandis qu’avec une approche qualitative, on reçoit

beaucoup d’informations sur peu de personnes. Puis on va analyser ces

informations par une démarche interprétative.

Les deux techniques sont complémentaires et il est possible de les

utiliser mais **<span class="underline">pas</span>** de les mélanger \!

Il faut d’abord en réaliser une puis l’autre en suivant

chronologiquement les procédures.

### Difficultés

Le fait que les personnes ne comprennent pas toujours de la même manière

les questions sauf qu’on peut minimiser ce problème. Un autre problème,

moins évitable, est qu’on force des réponses sur des enjeux sur lesquels

les personnes n’ont que peu de connaissance. La conséquence est que les

gens vont répondre « on the top of the head » ; ils ne vont pas

réfléchir de par eux-mêmes. Les politologues sont les experts pour

poser des questions trop difficiles. Cela peut être frustrant et c’est

pour cela que les sondages peuvent avoir mauvaise presse.

Il faut prendre pour ce faire les questions pour ce qu’elles sont,

c’est-à-dire des approximations. Cela permet d’éviter les plus gros

biais. Ce problème d’ailleurs n’est pas seulement valable pour les

questionnaires mais pour toute enquête de terrain. En dépit de ces

problèmes, le questionnaire reste un instrument intéressant pour les

connaissances sociologiques.

Une fois les questionnaires remplis, il y a une irréversibilité de la

mesure parce qu’in ne peut pas retourner auprès des répondants. Ces

réponses vont nous permettre de mettre en discussion nos hypothèses et

notre théorique. Avec une démarche qualitative, on peut toujours

compléter nos informations.

### Que mesure-t-on au moyen d’un QS ?

1.  Ce que les individus pensent avec leurs attitudes, leurs croyances

   et leurs valeurs

2.  Ce que les individus font : leurs comportements et leurs expériences

   passées

3.  Ce que les individus sont : leurs attributs personnels

Cette distinction est impérative car ces 3 catégories ne posent pas les

mêmes difficultés dans l’élaboration des questions :

![](./media/image29.emf)

Il est important de distinguer ces trois catégories puisqu’elles sont

toutes des sources potentielles de non fiabilité mais pour des raisons

différentes. En effet, tout ce qui provient directement de l’esprit des

individus n’est pas facile à saisir et source de non fiabilité. En

effet, le contexte de passation du questionnaire, la formulation des

questions... aura un grand impact sur les réponses données, bien plus

que lorsque les personnes parlent de faits plus objectifs comme leur

agissements (font) ou leur statut social (sont). De plus, il faut

prendre en compte les efforts de cohérence individuelle dont les

individus font preuve pour conter leur vie, mais aussi de problèmes de

mémoire pouvant biaiser les réponses. Pour ce qui est des questions

liées à « l’être» des individus, il est très fréquent de les placer en

fin de questionnaire puisque ces questions, potentiellement intrusives,

peuvent rebuter des répondants en début d’étude. 


Voici maintenant un exemple montrant à quel point la formulation des

questions est important et influence les réponses données :

![](./media/image30.png)

Exemple de Rugg et Cantril 1944 :

Q1 : Des gens disent que depuis que l’Allemagne est en train de battre

la Russie et bientôt l’Angleterre, il est nécessaire que les USA

viennent en aide à l’Angleterre, qu’en pensez-vous ?

Q2 : Des gens disent que depuis que l’Allemagne va probablement vaincre

la Russie dans quelques semaines et bientôt diriger toute sa force armée

contre l’Angleterre, il est plus important que jamais que les USA

viennent en aide à l’Angleterre, qu’en pensez-vous ?

La différence peut être dû au fait de l’influence de la question mais

aussi à l’hétérogénéité des groupes.

Exemple de Zaller 1992 :

Questions rétrospectives : Continuer à penser à la question à laquelle

vous de répondre, j’aimerais que vous me dites quelles sont les idées

qui vous viennent à l’esprit lorsque vous répondiez à cette question.

Questions Stop-and-think : Avant de répondre à la question, j’aimerai

que vous me dites ce que vous ressentez, ce qui vous viens à l’esprit

lorsque vous pensez à cette question.

![](./media/image31.emf)

  - Il se trouve que lorsque les gens réfléchissent après avoir donné la

   réponse, on trouve moins d’ambivalence dans la réflexion que s’ils

   formulent la question avant.

## Elaboration d’un questionnaire

Trois axes :

1.  **Formulation des questions **: parfois un travail artisanal surtout

   pour la construction de questions nouvelles. Dans ce processus,

   l’inventivité et l’ingéniosité du chercheur est importante car on

   n’a pas mal de liberté dans ce processus. Sauf qu’elle est limitée

   dans un certain nombre de pièges à éviter. Puis, il faut acquérir

   l’expérience qui nous permet d’éviter les mesures pour avoir une

   bonne fiabilité et validité des mesures.

   

     - <span class="underline">Peut-on y répondre</span> (à ma

       question) ? Pour chaque question, on doit se demander si mes

       répondants ont les connaissances nécessaires pour répondre aux

       questions. Sauf que les gens ne vont souvent pas admettre leur

       ignorance. De plus, ils ne vont pas utiliser la coche « ne sait

       pas ». Ainsi, toutes les personnes ne peuvent pas répondre aux

       questions.

   

     - <span class="underline">Veut-on y répondre ?</span> Il faut être

       sensible au fait que les gens ne veulent pas répondre à nos

       questions. Cela a deux incidences ; au niveau de non-réponses ou

       au niveau de qualité des réponses livrées. Il faut informer les

       répondants de notre recherche et les assurer de leur anonymat.

   

     - <span class="underline">Accroître la fiabilité :</span> Pour

       accroitre la fiabilité et la validité des questions présentées

       dans un questionnaire, il est important de ***proscrire les

       leading questions***, c’est à dire une question amenant un

       élément extérieur pouvant influencer la réponse de l’enquêté.

       Il s’agit, par exemple, de demander simplement : Etes-vous pour

       une augmentation des impôts ? Et non pas : Etes-vous pour une

       augmentation des impôts pour améliorer la protection sociale des

       citoyen-e-s ?

> ![](./media/image32.emf)Un autre moyen d’accroitre la fiabilité d’une

> question est ***d’éviter les questions aprioristiques***. En effet, il

> s’agit de remettre dans le ***contexte*** la question pour éviter les

> biais ou encore d’appliquer un ***filtre***. Un exemple de questions

> aprioristiques serait : Qu’avez-vous voté lors des dernières élections

> ? Ainsi, pour éviter tout biais, il faudrait plutôt construire la

> question en utilisant un filtre comme suit :

###

### Désirabilité sociale

Ainsi, cette deuxième question associée permet de vérifier que la

première réponse est correcte. Enfin, ***la désirabilité sociale peut

introduire de nombreux biais dans une recherche***. Il faut donc être

attentif que l’acceptabilité sociale de la réponse potentiellement

donnée à la question posée soit suffisamment grande pour que les

individus puissent se permettre de le dire. Ainsi, les questions de type

: Etes-vous raciste ? Sont évidemment à proscrire. Comme le montre cet

exemple, la désirabilité sociale affecte considérablement les résultats.

Pour rétablir cela, il est intéressant d’appliquer un filtre afin de

trier les personnes répondant sous la pression de la désirabilité

sociale.

![](./media/image33.emf)

Ainsi, on voit que sur les questions sensibles pour lesquelles les

répondants ont peur d’être jugés ou mal vus par l’enquêteur, les

réponses données peuvent être différentes de ce qu’il en est en

réalité. Pour ***contrer ce biais de désirabilité sociale***,

plusieurs options s’offre au chercheur. Premièrement, il peut s’agir de

***déculpabiliser le répondant***, notamment en incluant dans la

question un stimuli déculpabilisant. Par exemple, pour une question

portant sur le taux de participation, il s’agirait de demander non pas «

avez-vous voté » mais plutôt «lors des votations, environ la moitié des

personnes se rendent aux urnes. En ce qui vous concerne, avez-vous voté

? ». Une autre solution réside dans le fait de ***libérer la parole***,

ce que l’on appelle communément l’effet pommade. Il s’agit par exemple

d’utiliser la sympathie pour que le répondant se sente plus à l’aise

de s’exprimer sincèrement. Voici un exemple tiré d’une enquête effectuée

par Mayer en 2002 qui illustre cette méthode de prévention du biais de

désirabilité sociale :

![](./media/image34.emf)

### Désirabilité sociale – solutions

Bradburn propose ***trois solutions différentes pour annihiler le plus

possible les biais de désirabilité sociale***, en opposition à

l’approche habituelle qui consisterait à poser directement et sans

détour une question. En effet, l’approche usuelle consisterait à

demander au répondant : Avez-vous tué votre femme ? Mais cette question,

très sensible, risque de ne produire des résultats que peu concluants.

C’est pourquoi il propose trois approches plus fines, destinées à

libérer la parole de l’enquêté :

  - ***L’approche des cartes*** : Plusieurs cartes sont présentées au

   répondant qui doit rendre à l’enquêteur celle correspondant à sa

   réponse. Ce procédé a pour particularité de ne pas demander au

   sujet de verbaliser sa réponse, ce qui peut avoir être plus facile

   lorsque des sujets difficiles sont abordés. 


  - ***L’approche « tout le monde »*** : Cette approche consiste à

   déculpabiliser le répondant en lui faisant sentir qu’il n’est pas

   le seul à penser/agir/être... ainsi. Cela permet au répondant de se

   sentir moins seul et isolé dans sa situation et donc de libérer sa

   parole. 


  - ***L’approche « les autres »*** : Cette approche consiste à

   demander, en préambule, au répondant s’il connaît quelqu’un dans une

   situation peut avouable avant de lui demander si lui-même s’y

   trouve. Cela permet encore une fois de déculpabiliser le répondant

   en lui montrant qu’il n’est pas le seul dans cette situation.

C’est toujours avec le même souci d’accroitre la fiabilité des mesures

que ***les questions rétrospectives doivent être considérées avec

attention***. En effet, il faut tenir compte que les individus peuvent

avoir oublié ou réinterprété des évènements passés si bien que la

fiabilité peut être mise à mal. De plus, la validité s’en voit aussi

menacé puisque le risque est de ne pas mesurer ce que le chercheur

souhaite. Voici un exemple de question rétrospective : 


![](./media/image35.emf)

Comme on le voit sur cet exemple, un bon moyen de contrôler les biais

que peut induire ce type de questions est de ***poser des repères

temporels*** (cette année, durant le mois de...).

### Formulation des questions synthèse

En résumé, lorsque l’on construit les questions d’un sondage, il faut

penser :

  - ***Si les répondants sont en mesure de répondre aux questions

   posées***. C’est pourquoi il faut ***bannir les pratiques

   aprioristes*** et ne jamais postuler que les répondants savent, la

   connaissance n’étant pas socialement répartie de manière homogène. 


  - ***Si les répondants vont être d’accord de répondre aux questions

   posées***. Pour 
ce faire, il faut respecter les enquêtés et établir

   un lien de coopération avec l’enquêteur. C’est pourquoi les

   questions intrusives doivent être placées en toute fin du

   questionnaire. 


  - A la ***fiabilité du questionnaire***, c’est à dire si le stimuli

   présent dans chaque question produira le même type d’output, c’est

   à dire ***si tous les enquêtés comprendront la question de la même

   manière et répondront en fonction de cette compréhension commune***.

   C’est pourquoi il faut poser des questions précises, claires,

   accessibles et courtes, ne postulant jamais que les individus

   savent. 


  - A la ***validité du questionnaire***, c’est à dire si le

   questionnaire permet au chercheur de mesurer ce qu’il souhaite.

   C’est pourquoi il faut faire très attention aux « leading

   questions » qui peuvent influencer les réponses données.

  - A prendre en compte ***les potentiels biais que peuvent induire

   chaque question.*** Ainsi, il faut être attentif aux biais que ***la

   désirabilité sociale*** peut induire dans chaque enquête en

   formulant finement les questions, mais aussi ***se méfier des

   questions rétrospectives*** faisant appel à la mémoire

   potentiellement approximative des répondants. 


## Format des questions

Comme nous l’avons préalablement expliqué, il est très rare que des

questionnaires de type quantitatifs n’intègrent de questions ouvertes.

C’est pourquoi il faut également ***réfléchir attentivement à la

formulation et au format de réponse proposés aux enquêtés***. Ainsi,

trois enjeux principaux sont à considérer lors de cette étape. 


5.  Il faut se demander ***si les réponses proposées permettent aux

   enquêtés de répondre à la question posée***.

6.  Il faut se questionner quant à ***la qualité statistique désirée par

   le chercheur***. En effet, selon les formats de réponses, le

   chercheur ne pourra pas effectuer les mêmes procédés statistiques

   sur ces données ni même recueillir le même type d’informations.

7.  Il faut se demander si ***les réponses proposées sont

   statistiquement discriminantes***. En effet, ce que l’on cherche

   dans une recherche, ce ne sont pas des constantes mais bien des

   variations permettant une réelle analyse statistique \! 


### Peut-on y répondre ?

![](./media/image36.emf)La formulation des réponses standardisées sont

primordiales puisqu’elles vont permettre au répondant de répondre à la

question posée d’une manière particulière. C’est un véritable enjeu pour

la fiabilité du questionnaire \! En effet, ***se pose alors la question

de proposer, ou non, aux répondants de ne pas se positionner***. Il faut

se demander que faire des ***sans-opinions ou des positions centrales***

qui sont des catégories particulières et problématiques. Certains

chercheurs décident de ne pas proposer de telles catégories de réponse

lors de leurs questionnaires, ce qui correspond à forcer les individus à

répondre \! Cette considération est directement reliée au fait qu’un

sondage impose une problématique aux répondants qui peuvent ne jamais

avoir préalablement pensé à cette thématique. Ainsi, ***les

sans-opinions (ou les positions centrales) sont parfois de vraies

réponses pleines de sens, signifiant que la personne n’a réellement pas

de préférences nettes quant au sujet traité \!*** Mais il faut aussi

considérer la tendance humaine à choisir la position centrale lui

permettant de s’économiser une réflexion couteuse en temps et en énergie

(rationnel). ***C’est pourquoi les sans-opinions et les positions

centrales posent problème lors de l’interprétation des réponses, ces

catégories étant constituées de personnes n’ayant réellement pas

d’opinion et d’autres ayant choisi cette modalité de réponse pour

s’économiser les couts d’une réflexion approfondie***. Certains

chercheurs choisissent donc de considérer ces catégories de réponses

comme des données manquantes, alors que d’autres attachent une grande

importance à l’analyse de ces modalités. Ce graphique montre que la

catégorie centrale est bien plus souvent choisie par les individus que

les autres modalités de réponse. Reste à savoir si les individus ont

répondu ainsi car ils se considèrent réellement au centre de

l’échiquier politique ou simplement car ils ne savaient pas ou se

positionner et ont choisi de s’économiser les couts de la réflexion.

![](./media/image37.emf)

Cet exemple permet d’atténuer l’effet de la catégorie centrale. En

effet, cette catégorie moyenne existe mais du fait qu’on lui ait

attribué un sens, elle devient plus évidente à interpréter.

![](./media/image38.emf)De plus, ***la construction des modalités de

réponses implique de se questionner quant à la formulation des réponses

mais aussi quant à leur nombre***. En effet, le chercheur peut décider

d’offrir à ses répondants une modalité de réponse dichotomique (oui /

non, d’accord / pas d’accord...) ou plusieurs catégories de réponses.

Plus les catégories de réponses sont nombreuses, plus les informations

collectées seront riches. Toutefois, elles deviennent également plus

difficilement interprétables. Dans de très rare cas, le chercheur

choisit d’offrir aux répondants de s’exprimer librement quant à la

question posée (qualitatif). Cette modalité de réponse est choisie

lorsque le chercheur ne parvient pas à constituer lui-même des

catégories de réponse pertinentes
relatives à la question posée (si

le
sujet est mal connu par exemple).
***Généralement, aucune

question
ouverte n’est présente dans les
enquêtes

quantitatives.
***Toutefois, ce tableau montre que
ces deux types de

réponse
(ouverte ou fermée) ont chacune
des avantages et

des
désavantages. ***Il est toutefois
possible de mobiliser les deux

types de réponses*** (ouverte et fermée) en les combinant entre elles.

Il s’agit de demandé à l’enquêté de répondre librement à la question

posée et l’enquêteur rapporte ensuite lui-même la réponse à des

catégories standardisées en fonction de ce qu’aura exprimé l’enquêté.

Voici un exemple de ce type hybride :

![](./media/image39.png)

### ![](./media/image40.png)Quelle qualité statistique ?

![](./media/image41.png)***La qualité statistique est donnée par le

format de réponse choisie par le chercheur***. En effet, cela dépend du

type de variables pour lequel le chercheur a opté. Elles peuvent être

***quantitatives*** (variables à intervalles ou variables dichotomiques)

ou ***qualitatives*** (variables nominales ou variables ordinales). Il

est aussi possible de combiner entre elles différentes questions pour

obtenir des échelles, c’est d’ailleurs ce qui est fréquemment fait avec

les variables ordinales. Toutefois, ces échelles correspondent parfois

davantage à une réalité statistique que sociale, c’est à dire qu’elles

font plus sens mathématiquement que pour les répondants eux-mêmes. Comme

le montre ce schéma, les différentes variables permettent chacune de

prendre en compte des éléments différents. Très peu de variables

permettent de considérer le point 0 dans les réponses.

***Les variables nominales*** sont considérées comme des variables

catégorielles. En effet, ***les choix de réponse ne sont pas chiffrés

si bien que c’est au chercheur de recoder lui-même les réponses au

moment de l’analyse statistique***. Voici un exemple de variable

nominale :

![](./media/image42.png)

***Les variables ordinales*** sont des variables quantitatives puisque

les réponses, bien que correspondant à une définition écrite, sont des

***réponses chiffrées*** que le chercheur peut directement utiliser lors

de l’analyse statistique (exemple 1). En effet, il est bien plus facile

pour un répondant de se positionner sur une échelle chiffrée lorsque les

chiffres sont associés à une définition faite de mot, contrairement aux

échelles numériques n’indiquant qu’une gradation dans les préférences

de l’individu. Comment savoir si l’on se situe plus entre le 3 ou le 4,

qui ne corresponde à rien d’explicite (exemple 2) :

![](./media/image43.png) Exemple 1 :

Exemple 2 : ![](./media/image44.png)

De nombreuses recherches préfèrent actuellement utiliser des variables

nominales, faisant plus de sens auprès des individus, bien que cela soit

plus difficile à utiliser lors des analyses statistiques. Car en effet,

***choisir l’un ou l’autre de ces types de réponse est un enjeu

important puisque lors de l’analyse statistiques, il ne sera pas

possible d’utiliser les mêmes outils analytiques \!***

### Sont-elles discriminantes ?

***Toute analyse statistique a pour but de mettre en évidence des

variations***. En effet, les constantes sont peu intéressantes puisque

la base de tous calculs statistiques repose sur les variances \! Il est

toutefois utile d’utiliser les constantes dans la phase descriptive de

la recherche, mais les analyses intéressantes ne portent pas sur elles.

Ainsi, le premier graphe cherche à être éviter par les chercheurs, ne

pointant aucune variation alors que le deuxième est statistiquement

beaucoup plus intéressant.

![](./media/image45.emf)

  - Ainsi, il est important de proscrire les variables qui débouchent

   sur des constantes. ***On parle de discrimination en ce qu’il s’agit

   de ne considérer, pour l’analyse, que les variables donnant lieu à

   des variations pouvant être statistiquement analysées***.

### Synthèse

Ainsi, lorsque l’on construit les réponses proposées aux répondants,

***il faut tout d’abord se demander si les individus pourront, par ce

biais, répondre à la question posée***. La formulation des questions

doit être réfléchie et ce, afin de garantir la fiabilité des mesures

obtenues par ce biais. Il s’agit également de décider d’inclure, ou non,

une catégorie de réponse permettant aux répondants de ne pas se

prononcer sur un objet. En effet, ***savoir si oui ou non on force les

répondants à se positionner est un réel enjeu pour l’analyse

statistique***. De plus, bien que les réponses dichotomiques soient très

simples à analyser, elles ne permettent pas de récolter des informations

riches quant aux répondants si bien que ***le nombre de réponses

proposées aux individus doit également être réfléchi***. Enfin, la

forme même des questions est primordiale puisqu’elles impliquent

d’analyser les données de manière particulière. Par souci

d’efficacité, très peu voir aucune question ouverte n’est posée dans

les enquêtes quantitatives. ***Pour ce qui est de la qualité statistique

visée par le chercheur, elle dépend directement du type de réponses

proposées***. Elles peuvent être nominales, ordinales, à intervalles ou

dichotomiques. Selon le type choisi, ***l’analyse des données s’en verra

affectée***. Il faut toutefois être attentif au sens sociologique de la

réponse \! En effet, bien que les échelles chiffrées soient très

pratique d’un point de vue statistiques, elles peuvent manquer de sens

pour les répondants. Enfin, il faut se demander si les ***réponses sont

statistiquement discriminantes***. C’est toujours avec le même souci

d’observer des variations que le chercheur tente de récolter par le

biais de questions posées des différences entre les individus. C’est

pour cela qu’***avant chaque enquête, on effectue des pré-tests \!***

## ![](./media/image46.png)La structure du questionnaire

Une fois que les questions et les réponses ont été définies par le

chercheur, ***il faut encore réfléchir à l’agencement de ces questions

(associées à leurs réponses possibles) au sein du questionnaire***. Il

s’agit de définir l’ordre dans lequel les questions seront posées, la

structure des sections composant le questionnaire et leur ordre entre

elles mais aussi la longueur du questionnaire total. Ces considérations

sont importantes car il s’agit ici ***d’éviter au maximum les effets de

structures***, c’est à dire que les questions s’influencent entre elle

en ce qui concerne les réponses des répondants.

### L’ordre des questions

Il est important de réfléchir à l’ordre dans lequel les questions seront

présentées et ce, afin d’éviter au maximum l’interdépendance entre

questions. Il est fréquent que les questions concernant un même objet

soient présentées groupées dans un questionnaire. Toutefois, ***il faut

faire attention à ce que les réponses données par les répondants ne

soient pas influencées par l’ordre dans lequel les questions sont

posées***. Car il est vrai que l’influence entre question est bien plus

grande lorsque les questions sont présentées en batterie, par rapport à

un questionnaire ou elles seraient réparties dans toute sa longueur.

C’est toutefois pour rendre le questionnaire plus cohérent et pratique

que les batteries de questions sont fréquemment utilisées par les

chercheurs. C’est donc ***dans le but d’éviter les distorsions que

l’ordre des questions doit être réfléchi***. Il faut toutefois être

attentif au fait que s’il on décide de reprendre une batterie de

questions d’une enquête déjà effectuée dans le but de comparer les

résultats obtenus, il faut que les questions restent dans le même ordre

et ce, pour ne pas créer des effets de structures différents pouvant

influencer les réponses et donc induire de fausses variations. Voici un

exemple d’interdépendance entre question qui pointe très clairement que

le fait de répondre en premier à la question 1 influence la réponse

donnée à la question 2 :

![](./media/image47.png)

### La structure des sections

L’enjeu premier de la structure des sections du questionnaire est de

***laisser les structures de sens des individus remonter***. Ainsi, une

section doit être une ***séquence logique*** permettant à l’individu se

structurer progressivement sa pensée. C’est pourquoi on commence

toujours avec les questions les plus faciles, demandant le moins de

réflexion possible. Ensuite, on place les questions plus difficiles, le

répondant pouvant s’appuyer sur ses précédentes réponses pour structurer

un avis, avant de terminer par les questions les plus intrusives. En

effet, il est très important de les placer à la fin et non au début, au

risque de faire fuir un certains nombres de répondants.

### La longueur du questionnaire

La longueur du questionnaire est aussi un enjeu important. Un

questionnaire trop long risque de perdre tout une partie des répondants

n’ayant pas suffisamment de temps à y consacrer. C’est pourquoi ***il

est communément admis qu’un questionnaire ne dois pas durer plus de 30 à

45 minutes***. C’est pourquoi les questions présentées au sein du

questionnaire, en plus de comporter tous les précédents points discutés,

doivent être efficaces et utiles. Toutefois, cela ne représente qu’un

ordre de grandeur qu’il faut ***adapter à la population étudiée***. En

effet, il sera possible de questionner plus longtemps certaines

populations, comme des gens intéressés par la politique, et bien moins

longtemps d’autres populations, comme des personnes âgées. De plus,

***la longueur du questionnaire doit prendre en compte le mode de

passation utilisée***. Un questionnaire passé en face à face durera plus

long qu’un questionnaire administré par téléphone, qui lui-même sera

plus long que les questionnaires auto-administrés (internet, papier...).

### Synthèse

Lorsque l’on agence un questionnaire, il faut être ***attentif à l’ordre

des questions afin de limiter au maximum les effets de structures***. De

plus, réfléchir à ***la structure des sections*** au sein du

questionnaire est un enjeu important puisqu’elle doit servir à ***faire

remonter les structures de sens des répondants*** et ainsi, éviter les

réponses « de surface » (répondre la première chose qui nous vient à

l’esprit). Enfin, ***la longueur du questionnaire doit être adaptée à

la population cible ainsi qu’à la méthode de passation et ce, afin de ne

pas décourager de répondants***.

## Passation du questionnaire

Comme nous l’avons préalablement dit, il existe ***trois types

d’administration de questionnaire***. Choisir l’un plutôt que l’autre

implique une réflexion importante puisque ***la manière de faire passer

le questionnaire aura une influence sur les réponses récoltées***. Un

questionnaire peut être passé : 


  - En ***face à face***, c’est à dire que l’enquêteur et l’enquêté se

   retrouve lors d’un entretien au cours duquel l’enquêteur fait passer

   le questionnaire au répondant. Cela peut ***influencer les réponses

   de l’enquêté et ce, en fonction des propriétés sociales de

   l’enquêteur*** (femme, personnes de couleur, handicap...). 


  - En ***face à face indirect***, c’est à dire que l’enquêteur fait

   passer le questionnaire à l’enquêté sans être physiquement présent.

   C’est le cas des études par téléphone par exemple. Ce mode de

   passation annihile un certain nombre de biais, le répondant ne

   pouvant pas, de par ses propriétés sociales influencer le répondant

   puisque ce dernier n’a pas de contact direct avec lui. 


  - Par ***auto-administration***, c’est à dire que le répondant répond

   seul au questionnaire. C’est la technique la moins couteuse mais

   aussi la moins fiable. 



  - Ainsi, ***le chercheur choisira l’une ou l’autre de ces méthodes de

   passation de questionnaire en fonction de la population cible, du

   taux de réponse désiré, de la longueur du questionnaire mais surtout

   en fonction des ressources à disposition (temps mais surtout

   argent).*** Chaque type de passation de questionnaire comporte des

   avantages et des inconvénients, comme le résume bien les deux

   tableaux suivants : 


![](./media/image48.png)

![](./media/image49.png)

### Conclusion

En résumé, on peut dire que ***l’élaboration d’un questionnaire

standardisé est un travail minutieux***. Chaque étape est essentielle et

nécessite une réflexion approfondie pour assurer la qualité des données

récoltées. C’est pourquoi l’élaboration d’un questionnaire représente

une étape difficile dans la mise en place d’une recherche quantitative.

## Les pré-tests

Une fois les questions, les modalités de réponses et le questionnaire

agencé dans son ensemble, les chercheurs lui font ***passer des

pré-tests***. Jamais un questionnaire n’est directement soumis à la

population cible. ***Les pré-tests permettent de déceler tous problèmes

induit pas le questionnaire***. Cela permet également de détecter si

certaines questions débouchent sur des variables qui sont peu

pertinentes pour l’analyse statistique. Le but est de voir si les

personnes participant au pré-test...

  - Comprennent uniformément les questions 


  - Si les catégories de réponses proposées font sens pour eux 


  - Si les catégories de réponses sont exhaustives 


  - Si les effets de structures ne sont pas trop grands 


  - Si le questionnaire leur semble cohérent 


  - Si la longueur du questionnaire n’est pas trop grande

La plupart du temps, les pré-tests se font auprès de 25 à 75 personnes

au sein de la population sondée. ***Le nombre de pré-tests n’est

préalablement pas connu puisque cela s’effectue de manière circulaire

et ce, jusqu’à ce qu’un nouveau pré-test ne décèle plus aucun problème

au sein du questionnaire***. C’est pourquoi on peut dire qu’au minimum,

deux pré-tests doivent être effectués avant la passation véridique du

questionnaire. 


# Echantillon : logique de l’échantillonnage

## Echantillon vs population

Dans la majorité des cas, la population qui nous intéresse ne peut pas

être observée de manière exhaustive. On travaille de ce fait avec un

échantillon de la population. Les caractéristiques de la population

sont inconnues puisqu’on ne détient pas toutes les informations tandis

que les caractéristiques de l’échantillon sont connues. Ainsi,

l’objectif est de déterminer les caractéristiques de la population en

fonction de celles de l’échantillon.

**Exemples**

Comment construire un échantillon dans les cas suivants ?

Etude de la perte de poids chez des personnes ayant perdu du poids par

elles-mêmes, sans avoir recours à des médecins ou des associations ?

![](./media/image50.emf)En général, on a une population et on va en

tirer un échantillon (pas ce qui nous intéresse mais il y a un besoin de

passer par un sous-ensemble – coûts, accessibilité, etc.). N :

population *n *: échantillon

## Qualité d’un bon échantillon

### Représentativité de l’échantillon

Un bon échantillon est **représentatif** de la population étudiée. Sauf

qu’il ne faut pas comprendre un échantillon représentatif comme une

photocopie en modèle réduit. On ne doit pas prendre toutes les

informations de la population. De plus, **un échantillon représentatif

est un échantillon dans lequel toutes les grandes caractéristiques de la

population qui sont utiles pour l’étude vont se retrouver**. Il est

parfois nécessaire de surreprésenter ou de sous-représenter certaines

catégories dans notre étude. Ces sur- et sous-représentations

volontaires seront corrigées au niveau des analyses statistiques à

l’aide de pondérations.

**Exemples **:

  - Etude sur les pratiques religieuses des résidents du canton de Vaud

  - Certaines religions sont très faiblement représentées dans le canton

   de Vaud

  - Prendre un échantillon aléatoire au sein de tous les résidents du

   canton de Vaud ne permettrait pas d’étudier les minorités

   religieuses.


  - Nécessité de surreprésenter les personnes appartenant à des

   minorités religieuses

### Définition de la population étudiée

L’échantillon doit être représentatif de la population étudiée. Il faut

définir au préalable la population étudiée \! Cela implique des critères

d’inclusion et d’exclusion. Bien entendu, il faut s’assurer que la

population ainsi définie :

  - Permet bien de répondre aux objectifs de l’enquête

  - Est contactable de manière à en constituer un échantillon ; comment

   une partie de la population est contactable ? Si on ne peut

   l’atteindre, comment allons-nous procéder ?

### Taille de l’échantillon

La taille optimale *n* de l’échantillon n’est pas facile à déterminer

car elle dépend notamment :

  - Des méthodes statistiques qui seront utilisées

  - De la variabilité des données

  - De la **précision désirée** pour les résultats

Pour les situations simples (moyenne, comparaison de 2 populations, …)

des formules permettent de calculer la taille d’échantillon optimale.

Des facteurs extra-statistiques tels que la facilité de collecte des

données et les moyens (temps et argent) à disposition des enquêteurs

sont aussi considérer. Attention \! Il ne sert à rien de travailler avec

un échantillon plus grand que nécessaire \!

Exemple : estimation d’une proportion

Estimer la proportion de votants

En considérant le pire des cas (incertitude maximale), nous obtenons les

tailles d’échantillon nécessaires :

![](./media/image51.emf)

Exemples :

  - Votations no-billag (méthodologie utilisée) = sondage est une

   photographie des opinions publiques à un moment donné ; indication

   marge erreur, le nombre de personnes constituant l’échantillon

  - Elections au Grand Conseil Genevois ; indication marge erreur, le

   nombre de personnes constituant l’échantillon

### Variabilité de l’échantillon

Si je prends deux échantillons, je fais un sondage maintenant et dans

une heure je fais le même sondage mais avec un échantillon différent,

j’aurais de résultats distincts. Enormément d’échantillons différents

peuvent être obtenus à partir d’une même population, mais en pratique,

un seul d’entre eux sera utilisé pour les analyses statistiques. Quelles

implications ces différences ont-elles sur la qualité des résultats

statistiques ?

## Procédures d’échantillonnage

### Différentes procédures d’échantillonnage

Différentes procédures existent pour obtenir un échantillon. La règle

est de toujours essayer d’appliquer la procédure optimale par rapport au

contexte. Parfois, une même étude peut recourir à plusieurs procédures

de manière à recouvrir au mieux la population visée (*mixed modes*).

Dans ce cas, comment combiner au mieux les différents échantillons

obtenus ?

### Base de sondage

  - **Base de sondage** (=listing) : liste permettant de contacter

   individuellement toutes les personnes faisant partie de la

   population étudiée.

  - **Echantillon probabiliste **: défini à partir d’une

   <span class="underline">base de sondage</span>. S’il n’existe pas de

   base de sondage, alors on a un

   <span class="underline">échantillonnage non-probabiliste</span>.

   Pour les votations, pour la base de sondage, on pourrait avoir le

   registre de tous les votants. Si la question se pose sur la

   consommation de cocaïne, on n’aura pas de base de sondage et pour ce

   faire, on devrait procéder autrement et donc passer par une méthode

   empirique.

  - Il est préférable d’avoir un échantillon probabiliste car :

   

     - Permet d’éviter des biais de sélection

   

     - Permet de généraliser facilement à l’ensemble de la population

       (inférence)

### Défaut de couverture

Une base de sondage incomplète engendre des biais car une partie de la

population visée ne sera pas présente. On appelle cela un **défaut de

couverture**. Les causes principales pour ce genre de phénomène est

qu’il peut y avoir des changements par rapport à une situation de

référence ou une non-connaissance de certains cas.

Par exemple : L’annuaire téléphonique n’est pas une base

d’échantillonnage exhaustive puisqu’on peut éviter d’y être en tant

que citoyen, de moins en moins de personnes ont des numéros fixes et

souvent, il n’y avait que le numéro d’une seule personne de la famille

et cela touchait qu’une seule personne.

### Tirages avec remises

Les tirages sont indépendants les uns des autres :

  - Un cas est sélectionné dans la population, il est étudié

   (questionnaire), puis il est remis dans la population.

  - Un second cas est ensuite sélectionné et étudié, etc.

Le risque est qu’on peut sélectionner et étudier à plusieurs reprises le

même cas. Les <span class="underline">avantages</span> est qu’ils sont

plus simples à gérer, permettent un meilleur anonymat et ils sont plus

pratiques d’un point de vue mathématique. Sauf si l’on travaille avec un

échantillon de relativement grande taille par rapport à celle de la

population (taux de sondage élevé), on considère en général que les

tirages sont avec remises.

### Tirages sans remise

Les tirages sont dépendants les uns des autres :

  - Un cas est sélectionné dans la population, il est étudié mais il

   n’est pas remis ensuite dans la population.

  - Un second cas est sélectionné et étudié, etc.…

Les cas sont différentes les uns des autres. Les

<span class="underline">avantages</span> sont que les résultats sont

plus précis (variance plus petite) que les tirages avec remises.

Cependant, la différence s’amenuise rapidement avec l’augmentation de la

taille de l’échantillon.

### Méthodes empiriques de sondage

L’échantillonnage empirique est généralement utilisé lorsqu’il n’y a pas

de base de sondage. La probabilité qu’un membre de la population soit

inclue dans l’échantillon n’est pas connue. Les principales méthodes

empiriques sont :

  - Les quotas

  - Les itinéraires

  - L’emplacement

  - Le volontariat

  - La boule de neige

Toutes ces méthodes génèrent des **échantillons d’opportunité** (formé

sur la base de méthodes empiriques) par opposition aux échantillons

probabilistes.

#### Les quotas

On choisit un certain nombre de caractéristiques dont on connaît la

distribution au sein de la population étudiée (âge, sexe…). Ces

caractéristiques doivent être relevant pour l’étude en cours. On

constitue un échantillon en respectant les mêmes proportions pour ces

caractéristiques que celles de l’ensemble de la population. Un sondage

par quota est plus simple à mettre en œuvre qu’un sondage probabiliste,

car les personnes interrogées d’un groupe sont parfaitement

interchangeables et une personne manquante peut être remplacée par

n’importe quelle autre personne du même groupe.

**Exemple **:

Supposons que la population fréquentant habituellement un centre de

fitness lausannois comporte 60% de femmes, 20% des clients ont moins de

18 ans et 20% plus de 60 ans, et la moitié travaille dans le secteur

bancaire.

On constitue ensuite un échantillon en respectant les mêmes proportions

pour ces caractéristiques que celles de l’ensemble de la population.

Un enquêteur pourrait alors recevoir les consignes suivantes :

![](./media/image52.emf)

Si l’on connait en plus la répartition croisée des trois variables sexe,

âge et secteur d’activité, on pourrait alors avoir quelque chose

d’encore plus précis :

![](./media/image53.emf)

#### Les itinéraires

L’enquêteur suit un itinéraire défini très précisément, avec un point de

départ et un point d’arrivée. Il doit ensuite réaliser des interviews

dans un certain nombre d’endroits (logements ou autres) soit définis au

préalable par exemple par tirage au sort, soit selon un critère précis

(par exemple interroger une personne sur 5 qu’il rencontre ou une

personne tous les 500 mètres). L’itinéraire coïncide avec une voie

ferrée entre deux villes et on veut étudier les nuisances perçus par

les personnes habitant à proximité de cette voie.

#### L’emplacement

Un lieu et un moment sont définis pour la création de l’échantillon. On

interroge alors les personnes qui s’y trouvent.

Exemples : enquête réalisée devant l’entrée d’un magasin ; au service

des urgences du CHUV ; au départ de la ligne 31 des tl, à Renens, le

lundi entre 6h30 et 8h30.

#### Le volontariat

On se base sur le bon vouloir des gens et seuls ceux qui veulent

répondent et entrent dans l’échantillon. Le problème est que ce n’est

pas forcément représentatif de la population, une personne pourrait

remplir le questionnaire plusieurs fois et les personnes peuvent

répondre au hasard etc.

#### La boule de neige

Dans un système de type boule de neige, on choisit tout d’abord un

ensemble de personnes faisant partie de la population étudiée. On

demande ensuite à ces personnes d’en contact d’autres qu’elles

connaissent et qui font aussi partie de la population étudiée. Ces

personnes en contacteront d’autres à leur tour etc. L’échantillon final

sera constitué de toutes les personnes contactées. Le problème est qu’on

ne sait pas qui il y a dans la population et le nombre est incertain

parfois. Pour ce faire, on y insert des probabilités.

Exemple : enquête auprès de consommateurs de drogues.

#### Le RDS (Respondent-Drive-Sampling)

Il s’agit d’une tentative visant à rendre probabiliste la méthode de la

boule de neige. La grande différence réside dans le fait que le RDS ne

cherche pas uniquement à collecter un échantillon mais aussi à

déterminer certaines caractéristiques de la population concernée,

notamment sa taille. L’autre différence consiste à réduire l’impact du

choix des personnes utilisées pour amorcer la collecte des données sur

l’échantillon final.

### Avantages des méthodes empiriques

  - Simples à mettre en œuvre

  - Ne nécessitent pas de base de sondage exhaustive

  - Permettent de collecter de l’information dans des situations

   difficiles

### Désavantages des méthodes empiriques

  - Tous les membres de la population n’ont pas la même probabilité de

   faire partie de l’échantillon.

  - Les individus sont interchangeables. Un non-répondant pourra être

   remplacé par une autre personne même si le non-répondant a peut-être

   des caractéristiques très différentes de celles de l’autre personne.

  - Il est difficile de calculer des marges d’erreur ou de manière plus

   générale de faire l’inférence statistique de bonne qualité.

### Probabilité d’inclusion

Dans une méthode probabiliste, chaque membre de la population a une

probabilité connue a priori d’être inclus dans l’échantillon. Cette

probabilité est appelée la **probabilité d’inclusion**. Pour pouvoir

calculer les probabilités d’inclusions, il est obligatoire de disposer

d’une base de sondage exhaustive de la population étudiée.

### Taux d’échantillonnage

Le taux d’échantillonnage *f* (ou taux de sondage) est calculée

comme![](./media/image54.emf) avec :

  - N : taille de la population

  - *n* : taille de l’échantillon


  - Ces deux inconnus sont supposés être connues et finies.

### Différence avec les quotas

Au contraire de la méthode des quotas dans laquelle on essaie

généralement de mimer au plus juste la population étudiée, les

méthodes probabilistes permettent de sur-échantillonner ou de

sous-échantillonner sciemment certaines catégories de la population.

L’avantage est de pouvoir ainsi disposer pour les analyses d’un nombre

suffisant de personnes de chaque catégorie. En sachant par quel facteur

certaines catégories ont été sur ou sous-représentées, il sera ensuite

possible de corriger les estimations en conséquence en attribuant à ces

personnes une pondération différente de celle des autres personnes.

### Plans d’échantillonnage simples

Un sous-ensemble de *n* cas est sélectionné de façon mé dans l’ensemble

de la population.

Deux procédures usuelles :

  - **Echantillonnage aléatoire simple **: les *n* cas sont sélectionnés

   au hasard de telle manière que la probabilité d’être sélectionné

   soit la même pour chaque membre de la population étudiée.

  - **Echantillonnage systématique **: sur la base d’un registre de la

   population, on sélectionne aléatoirement un cas assez proche du

   début de la liste, puis on sélectionne systématiquement un cas tous

   les X éléments de la liste (pas de l’échantillonnage, X = 10, 25,

   100…).

#### Limites de l’échantillonnage simple

Ne s’applique que si la population est homogène dans son ensemble ou du

moins, si les sous-populations sont toutes de même taille et s’il n’y a

pas de raison de supposer que le taux de non-réponse différera d’une

sous-population à l’autre. Si certains sous-groupes intéressants pour

l’étude sont rares par rapport à la taille de la population, on ne

collectera que peu ou pas de données les concernant. Dans le cas de

l’échantillonnage systématique, il ne doit pas y avoir de liens entre

le pas de l’échantillonnage et les individus sélectionnés. (Si on prend

1 sur 2, il ne faut pas que ce soient systématiquement les hommes dans

des couples mariées).

### Plans d’échantillonnage à plusieurs niveaux

La population est d’abord divisée en plusieurs sous-populations en

fonction d’une variable de contrôle, puis des procédures

d’échantillonnage sont appliquées à chaque sous-population. Les

sous-populations peuvent elles-mêmes être redivisées sur la base d’un

autre critère. Ces procédures s’appliquent lorsque la population étudiée

n’est pas homogène et que l’on veut s’assurer que toutes les composantes

de l’échantillon se retrouveront dans l’échantillon.

  - Deux cas limite : les **tirages par strates** et les **tirages par

   grappes**.

#### Tirages par strates

Un échantillon aléatoire est sélectionné dans chacun des

sous-populations :

![](./media/image55.emf) C’est utilisé lorsque les données sont

supposées être homogènes au sein de chaque sous-population mais

hétérogènes entre ces mêmes sous-populations (Exemples de strates :

cantons, genres…)

#### Tirages par grappes

Un échantillon de sous-populations est sélectionné aléatoirement puis

chacune des sous-populations sélectionnée est étudiée de façon

exhaustive : ![](./media/image56.emf)

Utilisé lorsque les données sont homogènes d’une sous-population à

l’autre mais hétérogènes au sein de chaque sous-population. (Exemples

de grappes : ménages, classes d’écoles)

### Les 3 logiques des méthodes multi-niveaux

1.  Au niveau de l’ensemble de la population étudiée, les estimations

   des paramètres intéressants doivent être exactes (sans biais) et

   précises.

2.  Au niveau des sous-populations que l’on veut pouvoir étudier, on

   doit disposer de suffisamment de données pour obtenir des résultats

   exacts et précis.

3.  L’échantillon total doit être réparti entre les sous-populations de

   manière à prendre en compte et à exploiter la variabilité de chacune

   d’entre-elles.

![](./media/image57.emf)

### Avantages des méthodes probabilistes

  - Permettent de collecter un échantillon vraiment représentatif de la

   population.

  - Autorisent la prise en compte lors des analyses statistiques de

   sous-population sur ou sous-représentées.

  - Permettent de faire l’inférence statistique et de déterminer les

   caractéristiques de la population sur la base de celles de

   l’échantillon.

### Désavantages des méthodes probabilistes

  - Plus difficiles à mettre en œuvre que les méthodes empiriques -\> il

   faut penser à plus de choses \!

  - Nécessitent une base de sondage exhaustive de la population étudiée.

  - Sensibles à des problèmes imprévus : questionnaire non-transmis à

   certains membres de l’échantillon

## Traitement préalable des données

### Saisie des données

Les données doivent être saisies dans une base de données que ce soit

durant la collecte des données ou après :

  - Saisie manuelle (clavier d’ordinateur)

  - Saisie automatique (code barre, scanner, questionnaire informatisé

   sur internet)


  - Toute saisie de données implique des risques d’erreurs.

### Données manquantes

Les données manquantes sont des données dont la récolte avait été

planifiée mais qui n’ont pas pu être récoltées :

  - <span class="underline">Non-réponses totales </span>: un répondant

   n’a pas du tout répondu à l’enquête.

  - <span class="underline">Non-réponses partielles </span>: un

   répondant n’a pas répondu à une partie des questions.

Simplement ignorées ? Non car il y a des conséquences sur les analyses

statistiques :

  - <span class="underline">Biais </span>: la valeur estimée ne

   correspond pas à la réalité

  - <span class="underline">Manque de précision </span>: marge d’erreur

   et variabilité des résultats élevées.

### Non-réponses totales

3 types de non-répondants :

1.  Non-valides : impossibilité de réponse (décédés, déménagés, ne

   faisant pas réellement partie de la population cible.

2.  Non-contacts : impossibilité de contacter

3.  Refus : refus de répondre

L’impact sur les résultats dépend de la catégorie de non-répondants.

Dans le cas d’enquêtes longitudinales, on parle d’**attrition**

lorsqu’une personne arrête de répondre à l’enquête après une certaine

vague de celle-ci.

### Non-réponses partielles

Causes aux non-réponses partielles :

  - Questionnaire trop long

  - Manque d’intérêt

  - Questions sensibles

  - Bug lors de la sauvegarde des données

Dans le cas de questionnaires formatisés, il est possible de rendre

obligatoire les réponses. La présence de non-réponses partielles

implique que les calculs statistiques ne se feront peut-être pas

toujours sur le même échantillon.

### Traitement des données manquantes

Les données manquantes traitées :

  - Durant la collecte : incitations à répondre (cadeau, tirage au

   sort…)

  - Après la collecte : Imputation, reconstitution de la vraie valeur à

   partir d’un autre fichier de données.

Dans certains cas, il n’y malheureusement pas de moyen pour traiter les

données manquantes et il ne rste qu’à prendre en compte le fait que

certaines données sont absentes.

### Données aberrantes

Les données aberrantes sont les données dont la valeur est clairement

fausse :

  - Valeurs trop grandes ou trop petites (personne de 3m)

  - Valeurs impossibles (âge négatif)

  - Incompatibilité entre les valeurs de deux variables (enfant ayant le

   permis de conduire)

Ces données doivent être détectées puis corrigées ou dans le pire des

cas remplacées par des données manquantes.

### Construction de nouvelles variables

Certains items d’un questionnaire forment une échelle et ne sont pas

destinées à l’analyse séparément. Il est aussi possible de créer de

nouvelles variables en combinant les variables existantes.

Exemples :

  - Internet Addiction Teste (IAT) : échelle mesurant le degré avec

   lequel l’utilisation qui est faite d’internet est problématique. Il

   est composé de 20 items prenant des valeurs de 1 à 5 et son score

   total est calculé en additionnant les 20 réponses obtenuse.

  - BMI (Body Mass Index) : ![](./media/image58.emf)

# Inférence statistique – analyse des données et interprétation

## Statistique inférentielle

### Jugement sur l’échantillon

Un échantillon a du sens dans l’interprétation où on tire des choses de

l’échantillon pour les inférer dans la population. Le centre d’intérêt

n’est pas vraiment l’échantillon mais bien la population. On part d’un

échantillon pour avoir des caractéristiques et elles vont être

similaires à celles de la population si notre échantillon est bien

formé. Il va ainsi représenter la population.

![](./media/image59.emf)

L’<span class="underline">objectif </span>: de déterminer les

caractéristiques / paramètres / estimations / valeurs d’une population

à partir d’un échantillon issu de celle-ci. On a deux outils principaux

pour l’inférence statistique :

  - *Estimation* (ponctuelle (une seule valeur) ou par intervalle

   (intervalle de valeur)

  - *Tests d’hypothèses* (on se fixe certaines hypothèses et on regarde

   si elles sont vraies ou fausses. On va parler d’un faisceau de

   preuves qui vont nous permettre de valider / réfuter nos

   hypothèses).


  - Ces outils sont utilisés dans presque tous les modèles statistiques.

   L’estimation par intervalle et les tests sont basés sur des lois de

   probabilité continues théoriques.

Exemple : le niveau d’activité physique

Nous voulons étudier le niveau d’activité physique des jeunes de 18 ans

en Suisse. Ce niveau d’activité physique est défini comme le nombre de

jours par semaine où l’on effectue une activité physique soutenue. Nous

disposons d’un échantillon de n = 77 personnes (37 hommes et 40 femmes)

alors que la population étudiée est d’environ 80'000 personnes.

  - Question : comment obtenir à partir de l’échantillon des résultats

   qui s’appliquent fiablement à l’ensemble de la population ?

### Utilité des lois continues

Les données observées d’une variable ou certaines caractéristiques en

découlant (moyenne, variance…) peuvent souvent prendre une

quasi-infinité de valeurs. On s’intéresse alors à la distribution de ces

quantités et l’on utilise pour cela des lois de probabilité continues

dont les principales sont :

  - **Loi normal (loi de Laplace-Gauss)**

  - Loi du chi-2 (comparaison bivariante entre 2 populations avec

   variables de type qualitative ; variable dépendante d’une autre ?)

  - Loi de Student (si on ne connaît pas grand-chose sur la population ;

   avec échantillon suffisamment grand)

  - Loi de Fisher-Snedecor (comparaison de variance de deux ou plusieurs

   variances)


  - Ces lois sont parfaitement connues et des tables statistiques

   permettent de déterminer les probabilités qui leurs sont associées.

## Définition de la loi normale

Soit une variable X représentant la somme de nombreux effets dont aucun

ne domine les autres. Alors, ![](./media/image60.emf)C’est une écriture

considérant une variable aléatoire nommé X (donnée continue tel que la

quantité en gramme de yogourt) suivant les valeurs d’une loi dont les

paramètres sont la moyenne et la variance au carré. C’est une

distribution symétrique puisque les valeurs de l’infini à l’infini.

Elle se caractérise par deux paramètres, à savoir la moyenne et la

variance.

Dans le graphique à gauche, on disperse les valeurs. On l’interprète à

droite en tant que valeurs possibles pour l’axe des X et en ordonnées

(axe des Y) ce sont des probabilités. La probabilité devient plus faible

en s’éloignant des 0.

![](./media/image61.emf)

### Loi normale centrée- réduite

Il est toujours possible de passer d’une loi normale X de moyenne

\(\mu\) et de variance \(\sigma^{2}\) à une autre loi normale ayant

d’autres caractéristiques. En particulier, la loi normale de moyenne 0

et de variance 1 est appelée la **loi normale centrée-réduite**. Elle

est notée Z est défini comme :

![](./media/image62.emf)

  - Cela revient à soustraire la moyenne et diviser par l’écart-type de

   la loi normale X d’origine.

Les probabilités sont représentées par la surface comprise entre la

fonction de densité de la loi et l’axe horizontal :

![](./media/image63.emf)

Cette loi normale, comme toute loi de distribution, permet de faire des

calculs de probabilité. La probabilité qu’un cas apparaissent est

représenté par la surface sous la courbe formée à l’aide du jeu de

données. Ainsi, lorsque l’on calcule des probabilités, on ne

s’intéresse qu’à une partie spécifique du graphique : entre – 1.96 et

+ 1. 96 pour avoir 95% de la surface sous la courbe. Mais le plus

important est de savoir que tout calcul de probabilité provient d’une

loi normale.

Les probabilités les plus importantes en fonction d’un seuil z :

![](./media/image64.emf)

  - Pour toute fonction de probabilité, l’air sous la courbe = 1 et cela

   signifie qu’on a le 100% de toutes les valeurs. La fonction de

   densité est la courbe de la fonction. Si on s’écarte de 1.96, la

   probabilité d’être dans cette zone est de 0.95.

### Théorème central-limite

Soit une suite (X<sub>1,</sub> X<sub>2</sub>… X<sub>n</sub>) de *n*

variables aléatoires (\(\mu\), \(\sigma^{2}\)). Lorsque *n* -\>

\(\infty\), la distribution de ![](./media/image65.emf) tend vers la loi

N (\(\mu\), \(\sigma^{2}\)). Quelle que soit la distribution d’une

variable numérique dans la population, la distribution de la moyenne de

la variable suit une loi normale.

## Estimation

### Concepts

**L’estimation** consiste à assigner une valeur à un paramètre de la

population sur la base de ce qui a été trouvé au sein d’un échantillon

issu de celle-ci.

**Estimation ponctuelle **: on assigne une valeur précise au paramètre.

**Estimation par intervalle **: on assigne un intervalle de valeurs au

paramètre.

  - Lorsqu’on a une estimation et non la vraie valeur (généralement

   inconnue) du paramètre, on surmonte le nom du paramètre d’un

   chapeau : \(\widehat{\mu}\) au lieu de \(\mu\).

### Principe de l’estimation ponctuelle

Si l’échantillon utilisé est de bonne qualité, il doit représenter

fidèlement la population. Par conséquent, les paramètres estimés dans

l’échantillon doivent prendre des valeurs proches de celles de la

population. L’estimation ponctuelle consiste donc à estimer **la**

valeur d’un paramètre de la population sur la base de la valeur calculée

sur l’échantillon. Elle est notée à l’aide du paramètre surmonté d’un

accent circonflexe (un chapeau) : ![](./media/image66.emf).

### Propriété : absence de biais

Le **biais** d’un estimateur est la différence entre l’espérance de cet

estimateur et la vraie valeur du paramètre estimé. Un estimateur est

**non-biaisé** si son espérance (valeur moyenne) est égale à la vraie

valeur de la population.

![](./media/image67.emf)![](./media/image68.emf)

### Propriété : convergence

Un estimateur ![](./media/image69.emf) est dit **convergent** si,

lorsque la taille n de l’échantillon devient grande, le biais

disparaît :

![](./media/image70.emf)

Et la variance devient nulle :

![](./media/image71.emf)

  - Cela revient à dire que lorsque la taille de l’échantillon augmente,

   l’estimation devient de plus en plus précise.

### Estimateur absolument correct

Un estimateur non-biaisé et convergent est dit **absolument correct**.

Souvent, la valeur du paramètre calculée à partir de l’échantillon est

une estimation valable de la valeur de ce même paramètre au sein de la

population.

### Estimateur de la moyenne

La moyenne est un estimateur absolument correct :

![](./media/image72.emf) non biaisé et convergent :

![](./media/image73.emf)

Exemple : niveau d’activité physique

![](./media/image74.emf)

\(\widehat{\mu}\) = 2.75 est l’estimation ponctuelle de la moyenne pour

la population.

### Estimateur de la variance

La formule de la variance d’une population ne définit pas un estimateur

sans biais. C’est pourquoi, un estimateur absolument correct de la

variance est : ![](./media/image75.emf)

Exemple au niveau de l’activité physique :

![](./media/image76.emf)

\(\sigma^{2}\) = 2.35 est l’estimation ponctuelle de la variance pour la

population.

### Principe de l’estimation par intervalle

Un échantillon n’est pas toujours une image parfaitement fidèle de la

population. En faisant une estimation ponctuelle, on attribue une valeur

précise ![](./media/image77.emf) à un paramètre mais on court le risque

que la valeur ainsi obtenue soit éloignée de la réalité. Au lieu de

fournir une estimation ![](./media/image77.emf), on construit un

intervalle de valeurs de la forme :

![](./media/image78.emf)

dans lequel la vraie valeur du paramètre a une certaine probabilité

fixée à l’avance, notée ![](./media/image79.emf) de se trouver.

![](./media/image79.emf) est appelé le **degré de confiance**

![](./media/image80.emf) est le **risque de première espèce**

### Choix du risque de première espèce

![](./media/image81.emf)

Le choix du risque de première espèce ![](./media/image82.emf) est

déterminant car il influence directement l’utilité des résultats :

  - Si ![](./media/image82.emf) est très **petit**, l’intervalle est

   très fiable, mais il devient tellement large qu’il ne nous

   renseigne plus de façon utile sur la vraie valeur du paramètre.

  - Si ![](./media/image82.emf) est très **grand**, l’intervalle est

   très précis (=étroit) mais la probabilité qu’il recouvre

   effectivement la vraie valeur du paramètre est faible.


  - On choisit généralement un risque de ![](./media/image82.emf) de 5%.

Exemple : le niveau d’activité physique

Au seuil ![](./media/image82.emf) = 5%

Intervalle de confiance pour l’échantillon \[2.42 ; 3.10\].

Femmes seulement : \[2.10 ; 3.10\]

Hommes seulement : \[2.41 ; 3.42\]

Y a-t-il des preuves attestant que le niveau d’activité physique dans la

population est différent entre les femmes et les hommes ?

On ne peut pas l’estimer précisément puisque le seuil de

l’![](./media/image82.emf) est de 5%, on aurait donc que 95% de

probabilité et on est faiblement renseigné sur la vraie valeur du

paramètre. Comme les deux intervalles entre hommes et femmes ont des

valeurs communes, on ne peut pas déterminer avec justesse qu’il y a des

différences entre les deux catégories.

La véritable valeur se trouve quelque part dans l’intervalle \! Est-ce

qu’on peut avoir une identique pour les deux intervalles ? Les deux

intervalles se superposent et ici, avec une probabilité d’erreur de 5%,

il n’est pas possible de dire que statistiquement, le taux d’activité

des femmes est différent de celui des hommes. Il n’y a pas suffisamment

de preuves que c’est distinct.

### Intervalle de confiance et taille de l’échantillon

L’intervalle de confiance pour une moyenne \(\mu\) s’écrit :

![](./media/image83.emf)

![](./media/image84.emf)

On prend la moyenne de notre échantillon et on s’écarte un petit peu

vers la gauche et la droite. Cette précision s’exprime mathématiquement

par un quantile qui est le Z d’ordre 1- \(\alpha\)(risque de se tromper)

/ 2. Donc l’intervalle recherchée ne se retrouve pas dans l’intervalle

de confiance.

La **précision** de l’estimation correspond au demi intervalle de

confiance : ![](./media/image85.emf)

Il en découle que : ![](./media/image86.emf)

  - La taille de l’échantillon *n* ainsi calculée représente la taille

   minimale nécessaire pour atteindre la précision d recherchée. Si je

   connais la variance d’une population et de la précision voulue, je

   peux calculer la taille de l’échantillon.

**Exemple : le niveau d’activité physique**

L’échantillon utilisé comporte *n* = 77 personnes (données valides). Au

niveau global, l’intervalle de confiance pour ![](./media/image82.emf) =

5% vaut \[2.41 ; 3.10\] et la précision obtenue est

![](./media/image87.emf).

Pour obtenir une précision d=0.1, toutes choses étant égales par

ailleurs, il aurait fallu un échantillon de taille :

![](./media/image88.emf) soit au minimum 903 personnes. En pratique, il

est aussi nécessaire jongler avec le budget qui va influencer la taille

de l’échantillon et la précision qu’on pourrait obtenir.

# Tests d’hypothèses : analyse des données et interprétation

## Principe

On formule une hypothèse sur la population étudiée. On vérifie si

l’échantillon utilisé provient bien (avec un certain degré de

confiance) de la population étudiée. Le test statistique lui-même

correspond à la règle de décision. Que tester ? :

  - La valeur d’un paramètre (notamment son égalité à 0 = test de

   significativité)

  - L’égalité de deux ou plusieurs paramètres

  - La forme de la distribution d’une ou plusieurs variables

## Hypothèses nulles et alternatives

Un test consiste à choisir entre deux hypothèses en fonction d’un

échantillon :

  - L’hypothèse nulle, notée H<sub>0</sub> est l’hypothèse de base du

   test, celle qui est considérée comme vraie jusqu’à preuve du

   contraire. (= status quo)

  - L’hypothèse alternative, notée H<sub>1</sub>, est son « contraire ».

   (= ce que l’on aimerait montrer)

Exemple : ![](./media/image89.emf)

H<sub>0</sub> est rejetée dès lors que la valeur de la statistique de

test observée dans l’échantillon est trop différente de la valeur

théorique postulée sous H<sub>0</sub> pour la population. Grâce au

calcul, on veut savoir si c’est plausible d’avoir H<sub>0</sub>.

L’hypothèse nulle porte généralement sur une seule valeur ou sur une

égalité entre paramètres. On parle d’hypothèse simple :

![](./media/image90.emf)

L’hypothèse alternative regroupe généralement un très grand nombre de

situations différentes. C’est une hypothèse composite avec 3 variantes :

![](./media/image91.emf)

**Exemple : au tribunal**

Une personne est jugée. Les hypothèses suivantes sont formulées :

![](./media/image92.emf)

![](./media/image93.emf)

  - P (condamner un innocent) = \(\alpha\) Erreur de type I

  - P (acquitter un coupable) = \(\beta\) Erreur de type II

Ne pas condamner un innocent est prioritaire par rapport à acquitter un

coupable \!

### Risques, puissance

![](./media/image94.emf)

\(\text{α\ }\) = Erreur de première espèce (type I) =\> risque de

rejeter faussement H<sub>0</sub>

\(\beta\) = Erreur de deuxième espèce (type II) =\> risque de rejeter

faussement H<sub>1</sub>

1 – \(\beta\) = puissance du test (probabilité de ne pas se tromper en

rejetant H<sub>0</sub> )

## Risque de première et de seconde espèce

  - Risque \(\text{α~}\):

   

     - Spécifié par le chercheur avant d’effectuer le test

   

     - Fixé généralement à 5%.

  - Risque \(\beta\) :

   

     - N’est pas choisi librement mais dépend des autres éléments de

       l’analyse (risque \(\alpha,\) taille de l’échantillon, écart

       entre les 2 hypothèses du test…)

   

     - Plutôt que \(\beta\), on considère souvent la notion de

       **puissance** du test, à savoir la probabilité d’accepter

       (lorsqu’elle doit l’être) l’hypothèse alternative

       H<sub>1</sub> : 1 – \(\beta\) = P(accepter H<sub>1</sub> /

       H<sub>1</sub> vraie)


  - Risque de première et de deuxième espèce sont liés puisque si

   j’augmente un, je diminue l’autre et vice versa.

Exemple d’un test unilatéral à droite :

![](./media/image95.emf)

Situations problématiques :

\(\alpha\) est trop petit -\> \(\beta\) est grand

H<sub>1</sub> peut différent de H<sub>0</sub> -\> \(\beta\) est grand

![](./media/image96.emf)

Sur ce graphique, on peut observer deux lois normales, chacune

correspondant à une hypothèse. A gauche, on a la distribution de

H<sub>0</sub> (notre hypothèse nulle) si elle est vraie. A droite, on a

la distribution H<sub>1</sub> si c’est l’hypothèse alternative qui est

vraie. Ces deux intervalles découpent l’ensemble des possibles en

matière de moyenne en deux zones, celle proche de H<sub>0</sub> et

celle proche de H<sub>1</sub>. « r » représente la zone de rejet,

c’est-à-dire que selon où on se situe par rapport à elle, on

acceptera l’une ou l’autre des hypothèses. Ainsi, la surface de la zone

orange représente la probabilité de rejeter faussement l’hypothèse nulle

alors que la surface de la zone verte représente le risque de rejeter

faussement l’hypothèse alternative.

Si on souhaite non pas avoir un alpha à 5% comme généralement accepté,

mais un alpha à 1%, la courbe se déplacera sur la droite si bien que

c’est bêta qui deviendra plus grand. Cela correspond à rapprocher

notre hypothèse nulle de notre hypothèse alternative faisant par la même

grandir bêta. De plus, comme nous l’avons vu, deux hypothèses proches

sont difficilement distinguables pour le test d’hypothèse \! La seule

solution pour réduire le risque alpha et bêta, c’est d’augmenter la

taille de l’échantillon. Ainsi, c’est au terme d’une réflexion préalable

que l’on peut voir si l’étude projetée en vaut la peine et sous quelles

conditions.

## P- valeur et son utilisation

La **p-valeur** ( ou **degré de signification**), notée p, est la

probabilité d’avoir observé l’échantillon utilisé sachant que

l’hypothèse nulle H<sub>0</sub> est vraie. La p-valeur s’interprète

aussi comme la probabilité d’obtenir à partir d’un autre échantillon

tiré de la même population une valeur du paramètre testé plus extrême

(plus éloignée de H<sub>0</sub>) que la valeur réellement observée.

Après avoir fixé le niveau du risque de première espèce, alpha, le

résultat du test s’obtient à l’aide de la règle de décision suivant :

![](./media/image97.emf)

Pour un test unilatéral à droite, la situation décrite par le graphique

suivant conduit au rejet de H<sub>0</sub>, car la p-valeur (zone

hachurée verticalement) est plus petite que le risque alpha (zone

hachurée horizontalement)

![](./media/image98.emf)

Sur ce schéma, on voit que la p-valeur représente la probabilité d’être

à droite de Z<sub>0</sub>. Ainsi, si le test prouve, pour la p-valeur,

une valeur supérieure à la zone de rejet, la p-valeur sera plus petite

qu’alpha et H<sub>0</sub> sera affirmer. Mais comme on voit sur le

graphique, la p-valeur est plus petite qu’alpha si bien qu’H<sub>0</sub>

est rejetée.

  - Pour conclure par rapport à un test statistique, on observe la

   p-valeur, si elle supérieure au risque alpha, le status quo demeure

   (H0). Par contre on rejette H<sub>0</sub> si p est inférieure ou

   égale à alpha. Si p est supérieure à alpha, on accepte H0 parce que

   la probabilité est supérieure à 0.05.

![](./media/image99.emf)Exemple : le niveau d’activité physique

  - Hypothèse nulle : H<sub>0</sub> : \(\mu\) = 2.5

  - Hypothèse alternative : H<sub>1</sub> : \(\mu\) ≠ 2.5

  - Le risque \(\alpha\) est fixé à 5%.

Ces données sont rentrées dans R. On voit que la p-valeur est égale à

0.151 donc 15.1% \! Ce résultat est plus grand qu’\(\alpha\) (5%) si

bien que l’on se trouve dans la zone d’acceptation de l’hypothèse nulle

H0. On peut donc continuer de dire qu’en moyenne, les jeunes de moins de

18 ans pratiquent une activité physique 2.5 jours par semaine. Cet

histogramme représente l’activité physique de l’échantillon sur la

dernière semaine. De cette manière, on voit que l’on est éloigné d’une

loi normale puisque la répartition ne se fait pas de manière symétrique

autour d’un axe unique.

![](./media/image100.emf)

## Vue d’ensemble

![](./media/image101.emf)

### Rappel

Statistiquement, il y a suffisamment d’évidences pour rejeter

H<sub>0</sub> mais on ne va jamais dire qu’on l’accepte. Avec l’exemple

de la machine à sou, on va dire que si on joue 100 fois et qu’on perd à

chaque fois, on va dire qu’on va rejeter l’hypothèse H<sub>0</sub>. De

ce fait, on arrive à un rejet de l’hypothèse nulle. A chaque fois, on

essaie de montrer une relation et de ce fait, on aimerait avoir

suffisamment d’évidences pour montrer quelque chose qui se trouve dans

l’hypothèse alternative. Les raisons pour ne pas rejeter l’hypothèse

nulle sont multiples : elle peut être vraie, l’échantillon n’est pas

assez grand…. Dans ces tests, on a l’hypothèse nulle (=status quo) et

l’hypothèse alternative (ce qu’on veut montrer). Pour conclure un

test, il y a une règle : avant d’effectuer le test, on se fixe une marge

d’erreur (=erreur de première espèce notée alpha qui se trouve avec une

probabilité à 5%) puis là, on peut faire le test. Le test nous donne

pleins d’indications mais entre autres, la p-valeur qui est une

probabilité comprise en 0 et 1. Puis on compare cette probabilité à

notre seuil critique qui est alpha. Si c’est plus petit que 5%, on

rejette l’hypothèse nulle sinon on ne la rejette pas. La p-valeur est la

probabilité basée sur un échantillon d’être éloigné de H<sub>0</sub>.

Avec le jeu, c’est la probabilité d’avoir 5 fois de suite un échec

sachant qu’on a 1/10 de gagner. La probabilité d’avoir un résultat aussi

éloigné de ce que l’on s’attend ; si on perd 10 fois, la probabilité

d’avoir un tel score est la p-valeur (probabilité théorique d’avoir un

tel résultat). C’est ce qui nous permet de conclure par rapport au

risque pris préalablement.

  - Tout ceci pour faire un test statistique. Il nous permet d’indiquer

   si oui ou non on a suffisamment de preuves pour affirmer quelque

   chose. Par contre, pour l’instant, on n’a pas encore l’intensité de

   l’effet. Si statistiquement on peut dire que oui, peut-être que cet

   effet est très petit.

# Analyse bivariée : dépendance vs indépendance / corrélation vs causalité – analyse des données et interprétation

## Complexité du monde réel

Il est très rare qu’une variable soit totalement indépendante de son

environnement. Chaque variable est probabilité liée à d’autres

variables, voire même influencée par celles-ci. La statique bivariée a

pour but de mettre en relation deux informations différentes afin de

vérifier si elles sont ou non liées. La mise en évidence d’un tel lien

peut notamment servir à faire des prédictions sur la valeur prise par

une variable en fonction de celle prise par une autre. L’analyse

bivariée donne aussi des informations utiles permettant ensuite de

construire un modèle multivarié.

### Objectifs et outils

Concrètement, les objectifs de l’analyse bivariée sont :

  - Déterminer si une relation existe entre deux variable d’un

   échantillon.

  - Si une relation existe, quantifier la force de cette relation.

  - Vérifier si la relation observée sur un échantillon est dû au hasard

   ou si elle est aussi valide au niveau de l’ensemble de la population

   considérée.

Les outils utilisés en statistique bivariée dépendent fortement du type

de variables analysées :

  - 2 variables *qualitatives *: tables de contingence (représenter dans

   un tableau croisé les quantités de chacun des deux variables et

   leurs modalités), chi-2 (distribution de chi-2) et V de Cramer

   (score calculé à partir du chi-2)

  - 2 variables *quantitatives *: diagramme de dispersion (pour voir la

   forme que prennent ces deux variables), corrélation de Pearson

   (score calculé)

  - 2 variables *ordinales *: corrélation de Spearman (corrélation

   s’attache au rang de ces variables et à partir d’eux, on va

   calculer une corrélation de Spearman)


  - On peut mélanger les variables, on peut rendre une variable

   qualitative en une variable quantitative

Exemple : Données GSOEP

Nous disposons de données extraites du German Socio-Economic Panel

(GSOEP), un panel représentatif des ménages allemands pour l’année 1994.

Ces données concernant 3377 individus âgés de 25 à 64 ans. Variables

liées au travail :

Variables liées au travail :

  - TRAVAIL : variable indiquant si la personne a un emploi : non/oui

  - COL BLEU : variable indiquant si la personne a un emploi type « col

   bleu » (travail manuel) : non/oui

  - COL BLANC : variable indiquant si la personne a un emploi de type

   « col blanc » (travail de bureau) : Oui/non

  - INDEP : variable indiquant si la personne a un travail indépendant :

   non/oui

Variables liées à la santé

  - SANTE : satisfaction autoreportée avec la santé sur une échelle de 0

   à 10

  - HANDI : variable indiquant si la personne a un handicap : non/oui

  - HANDI.POUR : degré de handicap en pourcents (o pour les personnes ne

   souffrant d’aucun handicap)

  - DOC.3M : nombre de visites chez un docteur durant les 3 derniers

   mois

  - DOC\_4C : nombre de visites chez un docteur durant les 3 derniers

   mois en 4 catégories

Variables socio-démographiques :

  - GENRE : homme/femme

  - AGE : âgé en années

  - REVENU : revenu net mensuel du ménage en marks allemands / 10000

  - ENFANTS.16 : variable indiquant s’il y a des enfants de moins de 16

   ans dans le ménage….

## Variables qualitatives

### Fréquences absolues conjointes

Une table de contingence est l’équivalent d’une distribution de

fréquence mais pour <span class="underline">deux</span> variables

simultanément. Il y a un croisement entre ces deux variables.

![](./media/image102.emf)

### Fréquences relatives

Ces 4 valeurs divisées par le nombre de personnes (=3377). Le

pourcentage est indiqué en bas (9.061% par exemple).

![](./media/image103.emf)

### Fréquences conditionnelles par ligne

![](./media/image104.emf)On fixe une modalité (genre) à homme, puis on

dit des choses sur la variable travail. Donc je me situe comme si

j’étais avec 1812 personnes. Quelle est la distribution variable

travail sachant que les personnes que j’ai à disposition sont des

hommes ? Il y aurait environ 17% d’hommes qui auraient un travail

contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17%

n’ont pas de travail et les autres oui. Cela revient à restreindre notre

échantillon puisqu’on considère qu’une seule des deux modalités du

genre. On peut aussi regarder la distribution de la variable genre (par

colonne) ; je prends uniquement ceux qui n’ont pas de travail et je

regarde la distribution de la variable genre.

Autre exemple : COL BLANC et DOC\_4c, On a le total (3377), les

répartitions (table de contingence) et ici, on analyse par ligne (=100

dans le total).

Question : en regardant ce tableau, si on a une personne issue de ce

panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir

la répartition des visites de médecin ou pas ? Est-ce que l’information

donnée (COL BLANC) nous apporte quelque chose ? Quasi pas \! Quelle est

la probabilité qu’une personne soit allée plus de deux fois chez le

médecin ? 44.120% \! Si on prend une personne au hasard, quelle est la

probabilité que cette personne soit allée deux fois chez le médecin ? Le

calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que

la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce

qu’il faut comprendre, c’est que si les deux variables col blanc et

nombre de visite sont liées, a priori, le lien est extrêmement faible.

  - Ce « lien » est la dépendance ou pas.

### Indépendance

Deux variables A et B sont *indépendantes* si la connaissance de la

modalité prise par A n’influence pas la distribution de B et vice versa.

Sur une table de contingence, cela implique que :

  - Les distributions conditionnelles par ligne sont toutes identiques

  - Les distributions conditionnelles par colonne sont toutes

   identiques.

### Indépendance et information marginale

En cas d’indépendance des 2 variables, toute l’information de la table

de contingence est résumée par les distributions séparées (margines) des

deux variables. On peut alors reconstituer la distribution conjointe de

la manière suivant : ![](./media/image105.emf)

Exemple de situation d’indépendance parfait

![](./media/image106.emf)On a fait les totaux par ligne et par colonne,

on regarde les fréquences absolues (n<sub>ij</sub>) et les fréquences

relatives (f<sub>ij</sub>). (On divise 16/80=0.2).

### Dépendance et degré d’association

Lorsque deux variables ne sont pas indépendantes, elles sont

dépendantes. Il est utile de mesurer leur degré d’association. Plus le

degré d’association est élevé, plus il devient possible d’utiliser une

variable pour prédire l’autre. Sauf qu’association ≠ causalité \!

### Chi-2

Une façon d’estimer la force de la relation entre les deux variables

d’un tableau croisé consiste à comparer les données observées avec la

situation que l’on aurait en cas d’indépendance. La statistique du

chi-2, notée K<sup>2</sup> est définie comme :

![](./media/image107.emf)![](./media/image108.emf)où -\>

  - Est la fréquence de la case d’indices *ij* sous l’hypothèse

   d’indépendance.

Cette statistique du chi-2 est comprise entre 0 et une certaine valeur.

La valeur maximale est la taille de l’échantillon (n) x le minimum

nombre de ligne -1 et le nombre de colonne -1. ![](./media/image109.emf)

  - Si K<sup>2</sup> vaut zéro, nous sommes dans la situation

   d’indépendance.

  - Si K<sup>2</sup> est supérieur à zéro, il y a dépendance ou

   association.

  - Plus K<sup>2</sup> est grand, plus l’association est forte mais

   attention, K<sup>2</sup> dépend de la taille de la table de

   contingence.

Exemple : fréquences observées et attendues

![](./media/image110.emf)Sur ce tableau, on voit la distribution

conjointe de deux variables différentes : homme/femme et travail/pas de

travail. La distribution conjointe représente la relation entre les deux

variables. Ici, c’est en nombre d’individus que la table se présente. On

voit que parmi les hommes, 83% ont un emploi alors que chez les femmes,

seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre

échantillon, les hommes occupent plus fréquemment un emploi que les

femmes. Ces fréquences conditionnelles peuvent aussi être calculées par

colonnes. Ce que l’on remarque alors c’est que parmi les individus

n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui

est des personnes occupant un emploi, seules 37% des femmes On voit, sur

la base de ces tableaux, que les hommes et les femmes ne sont pas égaux

face au travail. Toutefois, on ne peut pas conclure à une causalité ni

spéculer sur la force de cette différence dans la population totale.

![](./media/image111.emf)La distribution des deux variables sont

parfaitement identiques : elles sont donc parfaitement indépendantes

l’une de l’autre. Ainsi, il est possible de retrouver la distribution

en se basant uniquement sur les totaux des lignes et des colonnes en

suivant la formule (total de i x total de j)/total.

A partir du moment que l’on ne se trouve pas dans une situation

d’indépendance parfaite, c’est une situation de dépendance.

Toutefois, cette dépendance peut être plus au moins forte. Plus la force

d’association entre deux variables est élevée, plus il devient possible

de prédire l’une par rapport à l’autre. Mais attention, dépendance ne

signifie pas causalité \!

### Normalisation du chi-2

La valeur maximale du chi-2 dépend de la taille de la table de

contingence ainsi que de l’effectif total. Il est donc difficile

d’évaluer le résultat. Une solution consiste à normaliser le résultat

afin qu’il évolue entre des bornes finies et connues. La mesure de V de

Cramer est définie comme :

![](./media/image112.emf)

où K<sup>2</sup> est la statistique du chi-2, *n* est le nombre de

données, \(\mathcal{l}\) est le nombre de ligne et *c* est le nombre de

colonnes.

La mesure V a pour bornes : ![](./media/image113.emf)

  - 0 signifie l’indépendance parfaite entre les variables

  - 1 signifie une association maximale

  - Le V de Cramer est facile à comparer entre des tables de dimensions

   différentes et comportant un nombre d’observations différent.

![](./media/image114.emf)

### Test du chi-2

Tous les calculs précédents (chi-2 et V de Cramer) concernant

l’échantillon de données utilisé. Pour déterminer s’il y a dépendance

ou indépendance au niveau de la population, il faut effectuer un test

d’hypothèses :

  - H<sub>0</sub> : indépendance entre les 2 variables

  - H<sub>1</sub> : Dépendance entre les 2 variables

Le même test permet aussi de savoir si le V de Cramer prend une valeur

égale ou supérieure à zéro dans la population.

Exemple :

On considère un risque de première espèce à \(\alpha\) = 5%.

![](./media/image115.emf)

### Degrés de liberté

En statistique, les degrés de liberté (*degrees of freedom*)

représentent le nombre de données ou d’éléments d’un problème qui

peuvent être fixés sans contrainte, indépendamment les uns des autres.

Exemples :

  - Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi

   que leur moyenne, alors il y a 4 degrés de liberté car la valeur de

   la 5<sup>ème</sup> observation peut être retrouvée en utilisant la

   moyenne.

  - Pour un test d’indépendance sur une table de contingence pour

   \(\mathcal{l}\) ligles et c colonnes, il y a (\(\mathcal{l}\)-1) x

   (c-1) degrés de liberté car les autres éléments de la distribution

   d’indépendance peuvent être retrouvés en utilisant les totaux

   connus des lignes et des colonnes.

**A retenir **:

Lorsqu’on a affaire des variables de type catégorielles ou qualitatives,

on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut

calculer la force de dépendance via le V de Cramer et on associe un test

dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et

la dépendance.

Exemple : le niveau de mathématiques avec la taille des pieds (plus on a

des grands pieds, plus on est bons en mathématique

Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus

qu’on ne connaît pas la population. Il est possible d’avoir deux

variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause

de l’autre. Ainsi, il n’y a pas toujours de cause à effet \! On peut

trouver des relations fortes entre deux variables mais cela ne signifie

pas nécessairement qu’il y a une relation de cause à effet \! Par

contre, le nombre d’années d’apprentissage pourrait être la cause

d’avoir de meilleurs résultats en mathématique \!

  - Même si deux variables sont fortement corrélées, il faut toujours

   remettre en question la cause à effet.

  - Pour connaître la dépendance, on peut faire une représentation

   graphique mais on utilise des tables de contingence. On regarde les

   valeurs conjointes entre ces deux variables. Une fois qu’on a ces

   valeurs conjointes, on pourra expliciter la dépendance ou

   l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est

   une valeur qui explique la différence entre la situation

   d’indépendance et la situation que j’ai. Si elle est égale à 0,

   c’est l’indépendance complète. L’autre formule est le V de Cramer

   qui se situe entre 0 et 1. Pour des variables qualitatives, on les

   compare en utilisant le V de Cramer.

## Variables quantitatives

### Diagramme de dispersion

Le diagramme de dispersion permet la mise en relation de deux variables

numériques. La relation est-elle linéaire ?

![](./media/image116.emf)

On a deux variables numériques. La relation est-elle linéaire ?

Graphiquement, on fait un diagramme de dispersion.

### Intérêt des relations linéaires

Les relations linéaires sont simples à analyser et comprendre

(proportionnalité linéaire (=immédiate) entre variable explicative et

variable expliquée). Il existe de nombreux outils pour les analyser

(corrélation linéaire (coefficient), régression linéaire (fonction

explicative par rapport à une autre)…). En cas de non-linéarité :

  - Transformation des données (linéarisation de la relation)

  - Méthodes non-linéaires

### Covariance

La covariance de deux variables X et Y est définie comme la moyenne des

produits des écarts à la moyenne des deux variables :

![](./media/image117.emf)

C’est une différence par rapport à la moyenne et on multiplie les

différences par rapport à la moyenne de l’autre valeur. La covariance

peut prendre n’importe quelle valeur comprise entre - \(\infty\) à +

\(\infty\). Mais comment savoir s’il y a un lien entre les deux

variables si les valeurs vont de l’infini à l’infini.

Si toutes les valeurs sont égales pour la variable X et toutes égales

pour la variable Y (sans variation) ; si la covariante est égale à 0,

toutes les valeurs sont proches de la moyenne et on n’a qu’une seule

valeur. Par contre, avec une différence, la covariance peut prendre des

valeurs négatives ou positives.

### Interprétation de la covariance

La covariance permet de déterminer le sens de la relation entre les deux

variables :

  - COV (X,Y) \> 0 les variables évoluent dans le même sens. Les deux

   variables ont tendance à prendre simultanément des valeurs grandes

   ou petites.

  - COV (X,Y) \< 0 les variables évoluent en sens contraire. Si une

   variable prend une valeur élevée, l’autre variable a tendance à

   prendre une petite valeur, et vice verse.

  - En l’absence de relation linéaire, la covariance vaut zéro.

### Limites de la covariance

La covariance souffre de deux défauts :

1)  Elle dépend de l’unité de mesure des variables (avoir la même unité

   pour les variables)

2)  Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)


  - Difficile de l’interpréter

Exemples :

Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a

d’éducation, plus le revenu est élevé puisque la covariance est

élevée.

Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme

ça parce que les unités ne sont pas les mêmes.

Santé et visites chez le médecin : cov = -3.54. Plus le nombre de

visites augmente, moins on a bon état de la santé. Ce qui est important,

c’est que c’est négatif et cela est logique ; l’état de santé est moins

bon.

## Corrélation linéaire de Pearson

Le coefficient de corrélation linéaire de Pearson entre deux variables X

et Y est défini comme :

![](./media/image118.emf)

où COV (X,Y) est la covariance des deux variables et S<sub>x</sub> et

S<sub>y</sub> sont les deux écarts-types. La corrélation ne mesure

qu’une association **linéaire** à l’exclusion de tout autre type de

relation entre les deux variables.

### Interprétation de la corrélation

Le coefficient de corrélation linéaire de Pearson mesure l’ajustement

des données à une droite. Il évolue entre -1 et +1 :

![](./media/image119.emf)

![](./media/image120.emf)

On voit sur ces graphiques que la linéarité peut être plus au moins

parfaite. En effet, les deux graphiques de gauche illustrent une

situation de linéarité parfaite avec en haut, une pente positive et en

bas, une pente négative. Le graphique en haut à droite illustre le cas

où une corrélation linéaire est forte sans toutefois être parfaite, les

points n’étant pas parfaitement alignés sur la même droite. Enfin, le

graphique en bas à droite illustre un cas éloigné de la corrélation

linéaire bien que l’on puisse identifier une tendance linéaire

discrète.

R =1 : tous les points sont situés sur une droite et la relation est

linéaire (=droite). Si la valeur x augmente, la valeur y augmente

également.

R = 0.95 : petite variation mais je peux prédire en connaissant x avec

une petite marge d’erreur.

R = -1 : si j’augmente x, y diminue.

R = 0.39 : la variabilité autour de la droite est beaucoup plus grande.

La relation linéaire est ici positive (j’augmente x donc y aussi) mais

c’est beaucoup moins fort.

On est capable d’indiquer une intensité linéaire mais ce n’est pas

suffisant \! Par exemple, on prend un échantillon de 2 individus pour

deux variables de type quantitative. Le coefficient de corrélation

linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si

petit échantillon, c’est difficile de déterminer la signification.

### Test de la corrélation

Du point de vue inférentiel, la première question est de savoir s’il y a

oui ou non corrélation. Les hypothèses testées sont alors les

suivantes :

![](./media/image121.emf)

L’acceptation de H<sub>0</sub> signifie **une absence de relation

linéaire entre les deux variables**, pas l’absence totale de

relation \!

Exemple : éducation et revenu

![](./media/image122.emf)Difficile de trouver une relation linéaire. Si

on augmente le niveau d’éducation, il semble que le revenu augmente avec

de grosses variations donc on aurait un semblant de linéarité. Si

j’effectue le teste statistique, on aura des éléments. Il compare la

variable « éducation » avec la variable « revenu ». L’hypothèse

alternative est qu’elle est différente de 0. On obtient un coefficient

de relation de 0.445. Cela signifie que c’est positif donc si l’une

variable augmente, l’autre variable augmente aussi. Quelle est la force

de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un

peu de linéarité. De plus, a-t-on raison d’appliquer à la population ?

Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La

p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse

H<sub>0</sub>. Donc oui effectivement il existe une relation linéaire

entre ces deux variables. La valeur du coefficient de relation qui

l’exprime est de 0.445.

Exemple : âge et revenu

![](./media/image123.emf)Les éléments du test indiquent que la valeur du

coefficient de relation est très faible (0.0242) donc une faible

relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la

p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.

![](./media/image124.emf)Exemple : santé et visites chez le médecin

On constate que le coefficient de relation est égal à -0.389. La

p-valeur est faible donc inférieur au seuil de 5% et dans la population,

le coefficient de relation est négatif et on peut l’estimer avec le

coefficient de relation. Si on augmente la valeur de l’un, je diminue

l’autre.

## Corrélation de variable ordinales

De par sa formule, la corrélation de Pearson ne concerne que les

variables numériques. Il est cependant possible d’appliquer un concept

similaire à des variables ordinales. On parle alors de **corrélation de

Spearman** ou de **corrélation non-paramétrique**, notée \(\rho\) (rho).

Le principe consiste à numéroter indépendamment pour chaque variable,

les observations de la plus petite à la plus grande (selon l’ordre des

modalités). Ces numéros sont appelés les **rangs** des observations. On

calcule alors la corrélation entre ces deux séries de rangs.

La corrélation non-paramétrique s’interprète de la même façon que la

corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y

a toujours le même écart entre deux modalités successives d’une

variable. Lorsque la corrélation non-paramétrique est appliquée sur des

variables numériques, elle rend égaux les écarts successifs entre les

valeurs réellement observées.

Exemple : santé et doc\_4c

![](./media/image125.emf)Ici, entre la santé et le nombre de visites, on

a un coefficient de corrélation de Spearman égal à -0.363 où si le

nombre de visites augments, la santé diminue. La p-valeur est faible et

donc on a raison d’inférer où notre échantillon est significatif par

rapport à la population. On n’a plus d’intervalle de confiance mais les

mêmes caractéristiques sont présentes.

### Causalité

Pour qu’il y ait causalité d’une variable A vers une variable B, les 3

conditions suivantes doivent être vérifiées :

  - A et B doivent être corrélées.

  - Il doit y avoir une relation temporelle entre A et B, à savoir que A

   doit avoir lieu avant B.

  - Toutes les autres raisons pouvant valablement expliquer l’influence

   observée de A sur B doivent avoir été écartées.

Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies

que l’on peut parler **d’influence causale** d’une variable sur une

autre \!

  - Ici, le terme de corrélation doit se comprendre comme une

   association au sens large, linéaire ou non.

### La corrélation n’implique pas la causalité

La corrélation n’implique pas automatiquement la causalité : ce n’est

pas parce que deux variables sont fortement corrélées l’une à l‘autre

que l’une est forcément la cause de l’autre. Il arrive fréquemment que

deux variables soit corrélées car elles dépendant toutes deux d’une même

troisième variable. Il peut aussi arriver que deux variables

s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse,

si la valeur prise par une variable dépend de celle d’une autre variable

(causalité) alors les deux variables sont corrélées.

# Analyse bivariée : comparaison de population. Analyse des données et interprétations

On ne va plus faire des tests sur une seule population mais on veut voir

ce qui se passe quand on a deux populations et on veut voir quel test on

peut appliquer sur ces deux populations.

## Introduction

### Problématique

Un problème classique en recherche consiste à déterminer si deux ou plus

de deux populations sont significativement différentes les unes des

autres. Une problématique similaire s’observe lorsque l’on désire

comparer les réponses de mêmes personnes interrogées à plusieurs

reprises au fil du temps. EN pratique, on considère une ou plusieurs

variables numériques d’intérêt et on se demande si leurs

caractéristiques (moyenne, variance…) diffèrent réellement d’une

population l’autre.

### Données appariées ou indépendantes ?

Deux populations sont dites ***appariées*** si chaque élément de la

première population correspond exactement à un élément de la seconde

population et vice verse. Deux populations sont dites

***indépendantes*** s’il n’existe aucune relation particulière entre un

élément de la première population et un élément de la seconde. Deux

populations appariées contiennent forcément <span class="underline">le

même nombre d’individus</span>, alors que ce n’est pas forcément le cas

pour des populations indépendantes. Ces mêmes concepts s’étendent

naturellement à un nombre quelconque de populations.

### Comparaison des moyennes

Le critère de comparaison le plus souvent utilisé est celui de la

moyenne. ***L’analyse de variance*** ou ***ANOVA*** permet de faire une

comparaison des moyennes entre plusieurs populations. Dans le cas

particulier où l’on ne désire comparer entre-elles que 2 populations, on

utilise généralement le ***test de Student***, une version particulière

de l’ANOVA.

### Tests non-paramétriques

Quand on veut faire un test, on veut dire quelque chose sur la

population. L’ANOVA et le test de Student sont des **méthodes

paramétriques** (on veut établir un paramètre) reposant notamment sur

l’hypothèse selon laquelle les données sont distribuées selon des lois

normales. Cette hypothèse de normalité se révèle parfois fausse. Par

ailleurs, lorsque la taille de l’échantillon est petite, les tests de

normalité usuels, tel que celui de Kolmogorv-Smirnov, ne sont pas assez

puissants et ils ne peuvent donc jamais rejeter l’hypothèse nulle de

normalité, ce qui est donc non-informatif. Les tests paramétriques sont

alors souvent remplacés par des tests équivalents

***non-paramétriques*** qui ne postulent aucune distribution

particulière des données.

Les tests non-paramétriques comparent les médianes et non les

moyennes \! Ils sont généralement moins puissants que leurs équivalents

numériques mais ils sont plus robustes (médiane n’est pas sensible aux

valeurs extrêmes \! Donc test non-paramétrique comparant des médianes et

plus robuste) et ont un plus grand champ d’application. Tests

non-paramétriques pour les comparaisons de populations :

  - Test du signe et test du signe de Wilcoxon (comparaison de 2

   populations appariées / test de calcul sur la différence entre les

   rangs en considérant l’amplitude, à savoir la différence entre les

   rangs)

  - Test de Wilcoxon et test de Mann-Whitney (test non paramétrique de

   comparaison entre 2 populations indépendantes)

  - Test de Friedman (comparaison de plus de 2 populations appariées)

  - Test de Kruskal-Wallis (comparaison de plus de 2 populations

   indépendantes)

Exemple : données du test pilote LHC

En décembre 2014, des étudiants des Universités de Lausanne et Genève

ont participé au premier test pilote d’un nouveau type de questionnaire

biographique online : le LHC (Life History Calendar). A deux semaines

d’intervalles, différentes données ont été récoltés telles que l’âge,

le genre, la taille, le poids, le nombre de déménagements…. Ces données

permettent soit de comparer les réponses données à la même question lors

des deux passations du questionnaire (**données appariées**), soit de

comparer lors d’une même passation les réponses fournies par deux

groupes distincts de personnes (**données indépendantes**).

## Test de Student : données appariées

### Test de la moyenne de la différence

Lorsque les données sont appariées, il est possible de construire une

variable D (quantité à l’instant T1 et T2 et on regarde la différence)

représentant leur différence terme à terme. Soit X et Y, deux variables

appariées dont les moyennes dans la population sont notées \(\text{μX}\)

et \(\text{μY}\). Alors : D = Y – X.

Le test de Student se formule alors de la façon suivante :

![](./media/image126.emf)

**Exemple : comparaison de la taille à T1 et T2**

Nous voulons déterminer si la taille en centimètres donnée lors des deux

passations du questionnaire est la même ou pas. Formellement, D = taille

temps 1 – taille temps 2

![](./media/image127.emf)Pour savoir ce sur quoi porte le test, c’est

l’hypothèse alternative où la différence réelle est différente de 0.

Donc H<sub>0</sub> = 0 et H<sub>1</sub> ≠ 0. La valeur 0 est-elle

comprise dans l’intervalle de confiance ? Oui c’est le cas donc rien

qu’avec ça, on peut dire qu’on ne peut pas rejeter l’hypothèse nulle

indiquant que la différence ne moyenne est égale à 0. Cela se confirme

avec la p-valeur qui est supérieure au seuil que l’on se fixe pour faire

le test donc dans ce cas-là, on ne peut pas rejeter l’hypothèse nulle.

Il n’y a pas de différence significative entre la taille donnée au temps

1 et la taille donnée au temps 2. Le degré de liberté est de 57 ; on a

une indication sur la taille de l’échantillon et la valeur statistique

de test t.

  - On peut conclure en regardant soit la p-valeur soit l’intervalle de

   confiance. Les tailles données au temps 1 et au temps 2 par ces

   mêmes individus, il n’y a pas eu de changement significatif. A-t-on

   le droit d’effectuer ce test ? Les données proviennent d’une

   population avec une distribution normale.

##

## Test de Student : données indépendantes

### Test de la différence des moyennes

Lorsque les données sont indépendantes, il n’est pas possible de

construit une variable D représentant leur différence terme à terme. Les

hypothèses du test de Student s’écrivent alors simplement :

![](./media/image128.emf)

### Variances égales ou inégales

Mathématiquement, la distribution théorique du test de Student n’est pas

le même selon que les populations dont sont issues les deux variables X

et Y ont la même variance ou non. Il existe donc deux versions du test

de Student pour des données indépendantes. Afin d’utiliser la bonne

version, on commence par tester l’égalité des variances des deux

variables. Ensuite, si les variances sont égales, on utilise le test de

Student standard alors que si les variances sont inégales, on utilise le

***test de Welch***.

### Test de l’égalité des variances

Le test le plus courant pour comparer les variances de deux populations

est le test F du rapport des variances. Nous voulons tester les

hypothèses suivantes :

![](./media/image129.emf)

Mais ces hypothèses sont reformulées de manière équivalente comme suit :

![](./media/image130.emf)

**Exemple : taille des femmes et des hommes**

Nous voulons déterminer si la taille en centimètres est égale chez les

femmes et les hommes. Nous commençons par comparer les variances des

deux populations :

![](./media/image131.emf)On va tester les variances dans ces

populations ; est-ce que la variance chez les hommes est le même chez

les femmes ? On fait le test F et il nous dit que l’hypothèse

alternative est indiquée. On regarde la p-valeur (0.55) et on ne peut

pas rejeter l’hypothèse nulle puisqu’on pourrait dire qu’on n’a aucune

preuve pour la rejeter. Peut-on supposer que les variances sont égales ?

Oui \! Le résultat du test, oui, les variances peuvent être supposées

égales.

L’hypothèse d’égalité des variances étant acceptées, nous pouvons

utiliser la version habituelle du test de Student.

On a suffisamment d’évidence pour rejeter H<sub>0</sub> (p-valeur) et

rejeter le fait que la moyenne chez l’homme et chez la femme est égale.

Donc la taille moyenne des hommes et des femmes est significativement

différente.

**Exemple : Age au premier smartphone**

![](./media/image132.emf)Nous voulons déterminer si l’âge en années

auquel les femmes et les hommes ont eu le premier smartphone est le même

ou pas.

On applique le test F qui nous dit qu’avec une p-valeur inférieure à

0.5, on rejette l’égalité des variances.

![](./media/image133.emf)Donc, on va devoir faire le test de Welch du

test de Student où on applique le test avec une p-valeur égale à 0.77.

On ne peut pas rejeter l’hypothèse nulle donc l’âge peut être considéré

comme identique entre les hommes et les femmes. Autre manière de voir,

si on regarde l’intervalle de confiance, puisque la différence est

comprise entre -1.313 et 0.981, le zéro se situe là-dedans.

# Analyse des données et interprétation des résultats : analyses uni-,bi- et tri-variées, leur utilité pour la recherche ?

### Objectifs de cette séance

L’analyse univariée nous permet de décrire des variables et comment une

variable est distribuée. L’analyse univariée est aussi importante quand

on fait la plausibilité d’un jeu de données. Par exemple, quand on

récolte nos données, on regarde toutes les fréquences de toutes les

variables pour voir s’il y a des problèmes. A chaque recodage, il est

utile de tirer des fréquences pour voir s’il n’y a pas de missing.

Au niveau bi-varié, on peut regarder des corrélations ou associations

entre deux variables mais on doit toujours veiller au risque de fausse

relation.

## Analyse univariée

C’est l’analyse la plus basique. Elle sert à décrire une variable d’où

le nom univariée tel que combien de femmes on a dans notre échantillon ?

Cette analyse permet de regarder la distribution, la fréquence et le

pourcentage d’items dans une variable. Elle permet également de regarder

la centralité et la dispersion d’une variable à travers la moyenne et la

médiane et pour d’autres types de variables, à travers la moyenne et

l’écart-type.

### Utilité de l’analyse univariée

Ce sont des informations clés qu’on veut savoir. Par exemple, si on

travaille sur l’action protestataire, je veux savoir si je travaille sur

un phénomène marginal ou important de notre société. Elle permet aussi

d’expliquer un processus. La description peut se faire dans le temps

et l’espace mais dans le cas de l’explication qui est un cas plutôt rare

dans la recherche, elle a lieu quand la variable n’est pas mesurée ou

qu’on ne peut pas mesure la variable indépendante. Ainsi, l’analyse

descriptive est capable de nous faire connaître un objet ou un

phénomène. Comme le dit Bunge, pour accroître la connaissance sur un

phénomène, il faut pouvoir le décrire et l’expliquer.

  - Exemple : protestation politique dans les démocraties

L’analyse univariée ne permet pas seulement de décrire une variable dans

une base de données mais aussi de suivre une variation dans le temps et

l’espace. Avec ce type d’analyse, on peut répondre aux questions comme

« est-ce que le protestation politique est stable ou fluctuante dans

le temps ? », « Est-ce qu’on retrouve plus/moins de protestation en

Suisse depuis 1968 ? ». On peut également tenter d’expliquer une

variation à travers des moments qui ont eu lieu à un moment donné. On

peut également analyser si la protestation politique varie dans

l’espace. Cette comparaison peut aider à expliquer la variation à

travers les institutions politiques. Par exemple, Kriesi a montré

pourquoi il y a beaucoup de grèves en France et comparativement, peu en

Suisse ? Leur hypothèse c’est que c’est lié aux institutions politiques

des pays respectifs.

  - Exemple : stabilisation des conflits politiques et démocratie

   (Bartolini et Mair)

L’objectif majeur de leur étude est de tester la thése de Rokkan et

Lipset qui dit que les conflits majeurs dans une société sont organisés

autour de 4 grands clivages politiques qui sont entre le capital et le

travail, entre l’Eglise et l’Etat, entre la ville et la campagne et

entre le centre et la périphérie. Ces clivages sont représentés par les

partis politiques majeurs dans un pays. Du coup, les partis politiques

majeurs reflètent les conflits politiques les plus importants et

permettent ainsi de stabiliser et représenter ces conflits au niveau

politique. Le clivage de classe est le conflit politique le plus célèbre

et il est traditionnellement représenté par un parti précis. Grâce à ce

processus d’intégration politique de ces conflits sociaux, on assiste à

une organisation t à un déclin de ces conflits et ainsi à une

stabilisation de la démocratie puisque l’électorat a pu s’aligner

derrière les partis représentatifs traditionnellement pour ce genre

d’intérêts.

Bartolini et Mair utilisent un dessin de recherche qusi-expérimental de

groupes identifiées en amont (pays) Ils font cette comparaison dans le

temps et l’espace. Ils utilisent un temps très long (un siècle) et ils

comparent 13 pays européens. L’unité d’analyse sont les individus ou

plus précisément, le vote des individus agrégés par période de 5 ans et

par pays. Ils utilisent des données exhaustives donc pas de sondage et

d’échantillon de toutes les élections ayant eu lieu dans chaque pays.

Avec ces données, ils ont créé une mesure de « volatilité » qui mesure

combien de gens ont changé de camp politique d’une période à une autre.

Comme on n’a pas à faire à des mesures de ce que les gens pensent ou

disent ce qu’ils ont fait mais à des chiffres officiels, donc ce sont

des bonnes mesures en termes de validité. De mesure similaire, pour

augmenter la fiabilité, on se retrouve avec deux indicateurs pour la

volatilité du clivage de classe :

1.  Une moyenne sur 5 an : meilleure lisibilité des courbes

2.  Moyenne sur 5 ans et 1 an : pour voir s’il n’y a pas de biais

   (variations erratiques)

![](./media/image134.emf)Leur hypothèse est affirmée puisqu’une

stabilisation politique signifie qu’il y a moins de volatilité. Sauf

qu’il y a des controverses liées à la volatilité électorale et

clivage. On assiste à une émergence de nouveaux clivages puisque de le

clivage de classe n’existe plus et à une hausse de la volatilité

électorale à partir des années 1990.

  - Exemple : citoyenneté contestée (Koopmans, Statham, Giugni, Passy)

Question de recherche : Les migrants arrivent-ils à se mobiliser

politiquement dans leur pays d’accueil ? Cette étude fait le constat en

2005 que le sujet de la migration est des relations ethniques sont des

enjeux vivement débattus dans nos sociétés. Ce débat tourne autour de la

question de l’Etat-nation, c’est-à-dire que c’est l’Etat-nation qui

définit les paramètres du fait « d’être suisse » donc il joue un rôle

important tout comme la migration. Donc les auteurs essaient de lier

l’Etat-nation à la migration. Comme la nation et surtout l’accès à la

nation est au cœur de ce débat, ce sont des débats qui varient en

fonction de l’Etat. Les auteurs appellent cela des débats à géométrie

variable qui varient dans leur contenu qui est discuté mais également

dans le type d’acteurs et le mode d’action utilisé dans un pays

différemment. Dans chaque pays, ce débat a des caractéristiques

spécifiques. L’accès à la nation ne signifie rien d’autre que la

conception de la citoyenneté qui est au centre de ce débat. A nouveau,

cette conception varie d’un pays à l’autre et par conséquent, les enjeux

migratoires peuvent être placés de manière variée sur l’agenda

politique.

L’opérationnalisation des régimes de citoyenneté ou de l’accès à la

nation se fait sur 2 dimensions :

1.  Accès individuel : entrée dans l’espace national. L’accès civique

   contre l’aspect ethnique (le droit du sol VS le droit du sang).

2.  Accès collectif : mesure le fait de vivre ensemble et plus

   précisément si dans un pays on accentue plutôt la diversité ou une

   assimilation culturelle.

Conséquences de régimes de citoyenneté sont fortes et multiples. Les

auteurs soulignent deux impacts majeurs, à savoir que ces régimes

exercent une influence sur l’intégration/exclusion de migrants et

d’autres part, ces régimes posent des structures contraignantes pour

participer au débat politique et la mobilisation politique.

![](./media/image135.emf)

Pour la Suisse, cela a créé du débat \! A partir de ce cadre théorique,

ils choisissent leur cas d’étude : Suisse, France et GB :

###

### L’étude et ses analyses

On se retrouve dans une comparaison de groupes (pays) qu’ils ont pu

identifier en amont. Donc on est dans un dessin de recherche

quasi-expérimental. L’unité d’analyse sont les acteurs collectifs et

notamment leurs actes de paroles et de mobilisation. Les chercheurs

‘s’intéressent à qui parlent dans un acte de parole ou qui se

mobilisent, comment ils se mobilisent (type d’action) et avec quel

message. Pour mesurer cela, ils utilisent la presse écrite et ils ont

codé une édition sur deux pendant 10 ans. Attention, on pourrait croire

que les 10 ans impliquent une comparaison dans le temps mais ce n’est

pas le cas \! Ils ne regardent pas une comparaison dans le temps puisque

les 10 ans ne doivent pas être pris en compte dans le dessin de

recherche. Ils ont choisi de récolter des données pendant 10 ans pour

augmenter la validité de leurs mesures et d’éviter des variations

conjoncturelles. S’ils avaient pris une année particulière, il y aurait

eu un biais sur leurs résultats censés être généralraislb.es Ils

présentent surtout des fréquences qui comparent les actions d’acteurs

publics dans différents pays. C’est une analyse centrée sur le cas,

typiquement pour un dessin quasi-expérimental. Sauf qu’ils ne peuvent

pas mesurer directement le régime de citoyenneté.

Résultat : les migrants sont-ils porteurs de leur propre revendication ?

Si oui, est-ce le cas dans tous les pays ? La Suisse dispose d’un des

régimes les plus contraignants avec un accès à la citoyenneté civique

et un monisme culturelle. La conséquence serait-elle que les migrants ne

se mobilisent pas ou qu’ils sont exclus de l’espace public ?

![](./media/image136.emf)Si on compare ce pourcentage relatif entre les

différents pays, on constate qu’il y a une moindre mobilisation en

Suisse qu’en GB. Il semble qu’il y a peu de différence entre la France

et la Suisse. Donc il se pourrait que ce ne soit que l’accès collectif

qui tranche cette différence. Donc le régime de citoyenneté est plus

contraignant en Suisse que dans les deux autres pays.

Conclusion : concernant le régime en Suisse, il y a double contrainte.

En tout cas, pour ce qui concerne la mobilisation des migrants eux-mêmes

en suisse pour des revendications destinées à la Suisse. EN même temps,

l’enjeu de migration est essentiellement porté par des acteurs

collectifs de solidarité et d’autres acteurs qui s’engagent sur

plusieurs enjeux (UNIA). Ces acteurs « suisses » semblent fonctionner

comme des relais politique pour les revendications des migrants.

Migrants en Suisse : que conclure ?

AU niveau thématique, les résultats semblent indiquer que les

institutions de citoyenneté excluent fortement la mobilisation de

certains acteurs et notamment des migrants eux-mêmes mais également le

relais politique privilégié. Ceci fait la lutte pour la voix des

migrants et contre le racisme, une des luttes les plus compliquées de

nos jours.

Au niveau méthodologique, les analyses descriptives ne servent pas

seulement à décrire mais également à comprendre et expliquer des

processus sociaux.

## Analyse bi-variée

Elle constitue un premier pas dans l’analyse causale et met en relation

deux variables. Les outils statistiques qu’on utilise sont les tableaux

croisés, la comparaison des moyennes et les corrélations.

### Utilité de l’analyse bi-variée

Dans ce cours, on nous apprend l’analyse statistique par étape et on

passe du simple au complexe. Cela est nécessaire pour déjouer les

problèmes si on passe directement à l’analyse multivariée. L’analyse

bi-variée nous montre s’il y a une association entre deux variables

aussi elle permet de visualiser la nature de la relation : est-elle

linéaire ou plurilinéaire ou une autre forme de relation entre deux

variables. Ceci est crucial puisque dans une analyse univariée, on ne

peut pas le voir et du coup, ça peut donner des relations

non-significatives et donc inexistantes mais c’est juste parce que la

relation est inexistante. Par exemple, l’âge est plurilinéaire. L’étape

bivariée est une étape incontournable de l’analyse statistique mais

rarement suffisante parce qu’on ne peut pas contrôler les causes

concurrentes et donc éviter les relations fallacieuses. On ne peut

s’arrêter au niveau bivariée.

## Analyse tri-variée

C’est le premier pas vers le contrôle et on met en relation deux

variables sous le contrôle d’une 3<sup>ème</sup> variable. Les outils

statistiques utilisés sont les mêmes que pour l’analyse bivarée. On

utilise également des tableaux croisés, des moyennes comparées, des

corrélations partielles et des régressions multiples (linéaires,

logistiques). L’analyse tri-variée n’a pas de propre outil statistique.

### Utilité de l’analyse tri-variée

Elle joue un rôle clé vers une approximation de la causalité parce

qu’elle permet de contrôler si une relation au niveau bivariée

subsiste au contrôle d’une troisième variable. Dans l’analyse

tri-variée, on peut détecter ce qui se cache derrière. Cependant, pour

avoir un petit retour de l’analyse causale, ce n’est pas seulement par

l’analyse multivariée qu’on peut contrôler pour la causalité.

***L’enjeu pour ce niveau d’analyse est le contrôle de la causalité et

donc de déceler les fausses relations et d’identifier les causes

concurrentes***. C’est pourquoi la théorie joue un rôle essentiel,

permettant de déjouer en amont les causes concurrentes ou les fausses

relations. Ainsi, le contrôle peut s’effectuer à divers moments de la

recherche en fonction du dessin de recherche plébiscité par le chercheur

(expérimentaux = contrôle ex-ante, corrélationnels = contrôle ex-post).

### Logique et analyse du contrôle

  - ***Si X a véritablement un effet sur Y, cet effet devra perdurer

   malgré l’introduction de causes concurrentes*** |R***.***

  - ***Si X*** à ***Y n’est pas une relation fallacieuse, alors l’effet

   de X devra perdurer après l’introduction d’une cause concurrente***

   |R.

### Logique du contrôle ex-post

Ainsi, le contrôle ex-post tente de déterminer si l’introduction d’une

nouvelle variable influence la relation postulée entre X et Y. Si la

relation ne se maintient pas, quatre explications sont possibles :

![](./media/image137.png)Nous nous trouvons dans une ***relation

fallacieuse*** : C’est à dire que la relation supposée est une fausse

relation car un autre effet se cacher derrière elle. La relation X1 à Y

ne se maintient pas lorsque X5 est introduit. Ainsi, c’est X5 qui se

trouve être la véritable cause de la relation entre X1 et Y. C’est par

exemple le cas lorsque l’on observe pour ce qui est de l’acceptation de

la légalisation de l’avortement. Les jeunes acceptent plus grandement

cela par rapport aux vieux si bien que l’on pourrait conclure à une

relation entre âge et acceptation de l’avortement. En réalité, c’est

l’éducation qui se trouve être la cause de cela.

![](./media/image138.emf)

On peut se trouver dans un ***cas de multicolinéarité***. C’est à dire

que les deux causes appliquées à la variable dépendante ne sont pas

indépendantes l’une de l’autre \! L’effet de X1 est restreint pas X5 ,

qui est corrélé à X1 et diminue son pouvoir explicatif. Ainsi, X1

n’explique pas un élément et X5 un autre mais bien le même de manière

associée. Sur le schéma, on voit que les deux causes associées diminuent

par la même
leur pouvoir explicatif contrairement au cas où ces

deux
causes auraient été indépendantes.
Voici un exemple. X1 et X2

explique
Y, les deux ont un effet mais le poids explicatif des deux est

diminué de par cette association.

![](./media/image139.emf)

On peut également assister à ***un effet médiatisé***, c’est à dire que

l’effet de X1 sur Y est médié par une seconde variable. Ainsi, l’effet

de X1 est réduit par le présence de X5 , c’est pourquoi on peut parler

d’effet indirect. Sur l’exemple, on voit comment un effet médiatisé

peut exister entre la confiance gouvernementale, la participation

électorale et l’efficacité politique.

![](./media/image140.emf)Enfin, on peut être en présence d’un ***effet

d’interaction***. Il en existe deux types. Il peut être

***conditionnel***, c’est à dire que l’effet X1 ne s’exerce sur Y que si

la variable X5 est présente, ou ***variable***, c’est à dire que l’effet

de X5 sur X1 varie selon les catégories considérées. Par exemple, on

sait que l’impact d’une manifestation dépend de l’opinion publique sur

elle. Un autre exemple peut être l’impact du genre sur la participation

électorale. Bien que l’on voit que les femmes participent moins que les

hommes, le genre n’est pas la variable explicative première puisque

c’est avant tout le niveau d’éducation qui influence la participation

électorale. Ainsi, on voit que cette variable influence différemment

selon le groupe socioculturel d’appartenance comme le montre ce

graphique.

### Une analyse importante

Ainsi, ***l’analyse tri-variée*** est très importante puisqu’elle permet

de ***rendre compte des relations sous-jacentes et constitue le premier

pas du contrôle (exclure des relations fallacieuses, examiner

l’interdépendance des VI (multicolinéarité), réfléchir aux éventuels

effets médiatisés, détecter les effets d’interactions***. Toutefois, ce

niveau n’est toujours ***pas suffisant*** pour ce qui est de l’analyse

statistique. En effet, le niveau multivarié est très fréquemment utilisé

pour contrôler l’effet de plusieurs causes concurrentes sur une variable

dépendante. C’est ce que l’on appelle les ***analyses de régression

multiple***. De plus, cette analyse constitue le premier pas du contrôle

où on peut contrôler les effets des causes concurrentes tel que l’effet

de l’âge sur la législation de l’avortement ; relation fallacieuse ?

(contrôlé par l’éducation), multicolinéarité (entre intérêt politique et

éducation) et relation additive ?

## Conclusion

L’analyse uni-variée est très importante puisqu’elle permet de décrire

les variables et de commencer à les expliquer. L’analyse bivariée est

tout aussi cruciale bien que problématique, ne permettant d’avoir aucun

contrôle sur nos variables. C’est pourquoi on passe à un niveau

d’analyse plus complexe que représente l’analyse tri-variée. Elle

consiste en le premier pas du contrôle et permet de vérifier si

l’intervention d’une cause concurrente impacte ou non la relation

premièrement observée. Toutefois, elle n’est également pas suffisante,

c’est pourquoi on passe alors au niveau mutli-varié. On a besoin de

méthodes d’analyse plus puissantes telle que l’analyse de la régression

multiple. Ainsi, ***on va toujours du niveau le plus simple au niveau le

plus complexe lorsque l’on effectue des analyses statistiques.***

# Analyse multivariée : régression linéaire. Analyse des données et interprétation

## Introduction

### Modèles statistiques

La régression est un terme exprimant une fonction. De plus, on s’attache

aux régressions linéaires dites des fonctions linéaires. Un modèle

statistique est un outil permettant d’analyser une situation et d’en

tirer des conséquences. Un modèle combine généralement différents

concepts statistiques « simples » tels que la tendance centrale, la

dispersion, la corrélation… au sein d’une ou plusieurs équations

mathématiques. Un modèle permet de tenir compte simultanément de

différents facteurs influençant la situation considérée. Dans la mesure

du possible, un modèle doit tenir compte du plan d’échantillonnage et

des spécificités des données.

### Quelques modèles

  - Prédire la valeur prise par une variable numérique =\> **régression

   linéaire**.

  - Prédire la modalité prise par une variable dichotomique / mooléenne

   =\> **régression logistique**

  - Comparer plusieurs populations =\> **analyse de la variance

   (ANOVA).**

  - Réduire le nombre de variables ou d’observations à traiter =\>

   **classification automatique / méthodes** **factorielles** (ACP,

   AFC,…). Techniques avancées de réduction du nombre de variable.

  - Expliquer l’évolution d’une variable au fil du temps =\> **chaîne de

   Markov, analyse de survie, analyse des séquences**

### Modèles de régression

Dans un modèle de régression, un ensemble de **variables**

**explicatives** ou **indépendantes** X<sub>1</sub>, X<sub>2</sub>,

X<sub>3</sub>… est utilisé pour expliquer une variable expliquée ou

indépendante Y : *Y* = *f*(X<sub>1</sub>,X<sub>2</sub>,X<sub>3</sub>…)

Le type de régression dépend du type de la variable expliquée *Y* :

  - Numérique -\> régression linéaire

  - Dichotomique -\> régression logistique

  - Nominale -\> régression multinomiale

  - Ordinale -\> régression ordinale

Exemple : Données GSOEP

**Exemples de régressions**

  - Prédire le REVENU d’un ménage -\> régression *linéaire*

  - Prédire le fait d’avoir un TRAVAIL -\> régression *logistique*

  - Prédire le nombre de visites chez un docteur durant les 3 derniers

   mois en 4 catégories (DOC\_4c) -\> régression *multinomiale* ou

   *ordinale*

## Régression Linéaire

### Régression linéaire simple

#### Le modèle

En régression linéaire simple, une seule variable indépendante X

(explicative) explique la variable dépendante Y (expliquée). Le modèle

est linéaire, ce qui signifie que la relation théorique entre les

variables X et Y est une droite. Sauf cas particulier, la relation

linéaire liant X et Y n’est pas parfaite. Le modèle s’écrit alors (ce

qu’on aurait dans la population) :

![](./media/image141.emf)

où *e* est un **terme d’erreur** représentant la part de Y qui n’est pas

expliqué par le modèle linéaire. Après estimations des coefficients

\(\beta\)<sub>0</sub> et \(\beta\)<sub>1</sub>, le modèle fournit une

estimation de ![](./media/image142.emf) pour chaque observation

Y<sub>1</sub> (dans un échantillon, on a des valeurs estimées et on

essaie d’estimer la pente par bêta. On n’obtient pas directement les

vraies valeurs parce que si on a deux échantillons, on va obtenir deux

échantillons distincts) :

![](./media/image143.emf)

Le modèle comporte deux coefficients à estimer :

  - \(\mathbf{\beta}\)**<sub>0</sub> est la constante (ordonnée à

   l’origine)** du modèle. C’est la valeur de Y lorsque la variable

   explicative Y vaut 0.

  - \(\mathbf{\beta}\)**<sub>1</sub> est la pente** du modèle. Elle

   s’interprète comme l’effet sur Y d’une variation d’une unité de la

   variable X.

![](./media/image144.emf)

![](./media/image145.emf)

Le point commun de toutes les régressions linéaires, c’est le point de

moyenne entre X et Y (\(\overline{x}\),\(\ \overline{y}\)).

### Estimation des coefficients

![](./media/image146.emf)L’estimation des coefficients

\(\beta\)<sub>0</sub> et \(\beta\)<sub>1</sub> s’effectue selon la

méthode des **moindres carrées**. L’objectif est de trouver la droite

de régression qui minimise globalement les termes d’erreur

e<sub>i</sub>. La droite optimale passe par le point moyen

(\(\overline{x}\),\(\ \overline{y}\)).

  - Bêta 1 (pente) : Estimateur des moindres carrées : la covariance de

   X et Y / variance de X

  - Bêta 0 (constante) = moyenne Y (variable dépendante) – pente x la

   moyenne de X


  - Pour trouver les coefficients à estimer, il faut faire l’estimateur

   des moindres carrées. Pour trouver l’estimation de la constante, il

   faut calculer les moyennes et prendre la pente.

![](./media/image147.emf)**Exemple : REVENU et EDUCATION : Le revenu

dépend-t-il du niveau d’éducation ?**

On voit que dans le tableau des résultats, nous avons trois parties dans

le listing. La partie centrale correspond au modèle lui-même. La

catégorie « intercept » correspond à l’ordonnée à l’origine – bêta 0

(ici = à 0.1669) et la catégorie D$EDUCATION correspond à la pente ou

bêta 1 (ici = à 0.0242). Ainsi, on peut dire que par années d’éducation

supplémentaire, le revenu augmente théoriquement de 0.0242%. Ainsi, il

semble que l’éducation influence positivement le revenu puisqu’il est

possible de trouver une relation entre ces deux variables.

![](./media/image148.emf)On obtient ça comme modèle. A partir de ce

modèle, on peut prédire quel salaire une personne devrait théoriquement

toucher en fonction du nombre d’année d’éducation à son actif. Par

exemple, quel devrait être le salaire d’une personne ayant été 17 années

à l’école ?

Exemple : REVENU et EDUCATION

Une fois estimé, le modèle peut être utilisé pour faire des prédictions

en l’appliquant sur des valeurs choisies des variables explicatives.

Pour x=17 années d’éducation, le modèle prédit :

![](./media/image149.emf)

soit en moyenne un revenu de 0.5738.

**Attention **:

  - Pour faire des prédictions valables, il faut que le modèle soit de

   bonne qualité, ce qui n’est pas le cas ici.

  - Un modèle ne peut être utilisé que pour des données du même ordre de

   grandeur que celles ayant servi à estimer le modèle.


  - Ce que le graphique permet de voir, c’est que ***les points ne sont

   pas bien alignés sur la droite, ce qui permet de dire que ce modèle

   est insuffisant pour expliquer à lui seul le revenu***. Pour obtenir

   un meilleur modèle avec un pouvoir explicatif plus fort, il faut

   intégrer d’autres variables dans l’analyse. De plus, il faut

   ***exclure les données aberrantes pour que ces dernières ne puissent

   pas influencer et biaiser le modèle*** construit par le chercheur.

   En effet, il est bien intéressant de les étudier séparément.

![](./media/image150.emf)

On a remplacé notre variable X et on obtient d’autres valeurs.

![](./media/image151.emf)On a un intercept plus une pente négative fois

la valeur col bleu oui/non. Cela signifie que si j’augmente col bleu,

l’effet sur le revenu sera augmenté (on regarde le coefficient qui est

négatif et donc on descend dans les valeurs). Si je passe à col bleu,

cela a pour effet un revenu qui décroît par rapport à un col blanc.

### Le modèle

La variable dépendante Y est souvent influencée simultanément par

plusieurs variables explicatives. Soit X<sub>1</sub>,

X<sub>2</sub>,…X<sub>k</sub>, k variables indépendantes qui peuvent

toutes expliquer en partie la variable dépendante Y. Le modèle s’écrit

alors :

![](./media/image152.emf)

Même s’il n’est pas possible de représenter graphiquement le modèle, la

relation entre chaque variable explicative et la variable dépendante

reste <span class="underline">linéaire</span>.

### Indépendance des variables explicatives

Les variables explicatives du modèle doivent être linéairement

indépendantes les unes des autres : il ne doit pas être possible

d’écrire l’une d’entre-elles comme une combinaison linéaire des

autres. Cela revient à dire que chaque variable explicative doit

apporter une information qui lui est propre pour l’explication de la

variable dépendante. Si les variables explicatives ne sont pas

linéairement indépendantes, le modèle ne peut plus estimer et on parle

alors de **multicolinéarité**. Par ailleurs, les variables explicatives

doivent aussi être indépendantes des termes d’erreur du modèle.

![](./media/image153.emf)Je tente d’expliquer le revenu par l’âge,

l’éducation et le col bleu. Dans notre output, on a à nouveau un bêta

0 estimé, un bêta 1 pour l’éducation, un bêta 2 pour l’âge et un bêta 3

pour col bleu. Si on veut établir l’équation expliquant le revenu, il

serait égal à XXXX. Si je connais cette équation, je suis capable de

donner une estimation du revenu où je remplacerais l’éducation par le

nombre d’années d’éducation. On voit sur l’exemple que le R<sup>2</sup>

est égal à 0.0759, on peut donc conclure que ce modèle permet

d’expliquer à 7,59% le niveau de revenu des individus. Ainsi, c’est un

modèle très insuffisant pour expliquer le salaire, sans pour autant être

inutile puisqu’il permet malgré tout de comprendre une partie de la

variable dépendante Y. La variable col bleu n’est pas significative.

L’interprétation des coefficients, pour une année supplémentaire

d’éducation, j’augmente mon augmentation de 0.024791 en éducation.

### Variables explicatives qualitatives

L’utilisation de variables explicatives qualitatives (nominales ou

ordinales) est problématique car les codes numériques attribués à leurs

modalités sont arbitraires. Si le code change, l’estimation du modèle

change aussi, ce qui n’est pas réaliste. La solution consiste à associer

à chacune des modalités une **variable indicatrice** binaire (0-1). On

parle aussi de **variables muettes** (dummy variables). Une variable

catégorielle à *c* modalités est remplacée par c-1 variables muettes,

la i-ème variable prenant la valeur 1 si la variable originale prend la

valeur i et zéro sinon. Une des modalités sert de référence et on ne lui

associe par de variable indicatrice.

Exemple : REVENU et DOC\_4

Vu qu’on a 4 modalités, il faut trois variables indicatrices valant 0 ou

1.

### Niveau d’analyse

Sauf car particulier, il est toujours possible d’estimer la valeur des

coefficients d’un modèle de régression. Cependant, l’existence du modèle

n’implique pas automatiquement qu’il soit de bonne qualité. Plusieurs

niveaux d’analyse peuvent être utilisés afin de juger de la pertinence

du modèle de régression linéaire :

  - Qualité globale de l’ajustement

  - Test individuel de chaque coefficient

  - Analyse des termes d’erreur

Cette problématique n’est pas spécifique à la régression linéaire. Elle

est présente dans tous les modèles statistiques.

### Qualité globale de l’ajustement

Le premier point à vérifier après avoir calculé un modèle est de savoir

si ce modèle permet d’expliquer réellement, en partie du moins, la

variable dépendante. Si c’est le cas, il sera ensuite utile d’étudier un

à un ses coefficients. Si ce n’est pas le cas, le modèle doit être

purement et simplement rejeté et un autre modèle doit être défini.

### Coefficient de détermination de R<sup>2</sup>

Le coefficient de détermination (ou de corrélations multiple)

R<sup>2</sup> est une mesure variant entre 0 et 1 et représentant la

part de la variable dépendante qui est expliquée par le modèle de

régression. Plus R<sup>2</sup> est proche de 1, plus le modèle s’ajuste

bien aux données. Le coefficient de détermination est défini comme la

proportion de la variance totale expliquée par le modèle :

![](./media/image154.emf)

Dans le cas particulier de la régression linéaire simple,

![](./media/image155.emf)

### Coefficient de détermination R<sup>2</sup> ajusté

Le coefficient de détermination R<sup>2</sup> présente l’inconvénient

d’augmenter en fonction du nombre de variables explicatives. Le

coefficient de détermination R<sup>2</sup> ajusté corrige ce défaut :

![](./media/image156.emf)

où *n* est le nombre d’observations et *p* le nombre de coefficients

estimés du modèle. C’est ce coefficient ajusté qui devrait toujours être

utilisé.

Exemple :

![](./media/image157.emf)Le col bleu n’est pas significatif. Donc on

teste chacun des coefficients Bêta 1, 2, 3 pour savoir s’ils sont

différents de 0.

###

###

###

###

###

### Test de la significativité globale

Nous aimerons savoir si le modèle contient des éléments utiles pour

expliquer la variable dépendante. Pour ce faire, nous formulons le test

suivant :

![](./media/image158.emf)

Si l’on accepte H<sub>0</sub>, aucune des variables explicatives n’a

d’influence sur la variable dépendante et le modèle doit être

entièrement rejeté.

La statistique de test **F-statistic** se calcule comme :

![](./media/image159.emf)

### Test individuel de chaque coefficient

Même si un modèle apporte globalement de l’information pour comprendre

le comportement de la variable dépendante, cela ne signifie pas que

toutes les variables explicatives sont utiles. Ceci est particulièrement

vrai dans le cas de modèles comportant un grand nombre de variables

explicatives. Seules les variables apportant réellement quelque chose de

significatif doivent être interprétées.

### Test de significativité de chaque coefficient

Nous voulons vérifier si chacun des coefficients du modèle est

réellement différent de zéro et donc utile au niveau de la population.

Nous effectuons pour chaque coefficient le test suivant :

![](./media/image160.emf)

Ces tests sont appelés les **tests de significativité** et le

coefficient est dit significatif si l’hypothèse nulle est rejetée.

Accepter l’hypothèse nulle revient à dire que la variable explicative

correspondant au coefficient testé n’a pas de relation avec la variable

dépendante.

### Coefficients standardisés de la régression

Quelle est l’importance d’un coefficient ? Si on veut comparer les

coefficients entre eux, on ne peut pas le faire parce qu’ils n’ont pas

la même unité. Pour ce faire, il faut essayer de standardiser.

La valeur des coefficients de la régression dépend de l’unité de mesure

des variables explicatives correspondantes. Ce n’est donc pas parce

qu’un coefficient est très différent de zéro qu’il est significatif.

Une solution consiste à standardiser les coefficients de manière à les

rendre comparables les uns avec les autres :

![](./media/image161.emf)

où S<sub>y</sub> est l’écart-type de la variable dépendante et

Sx<sub>j</sub> est l’écart-type de la j-ième variable explicative.

![](./media/image162.emf)

### Analyse des termes d’erreur

Le modèle de régression linéaire repose sur un ensemble d’hypothèses

ayant trait aux termes d’erreur du modèle. Si ces hypothèses ne sont pas

vérifiées, alors le modèle perd en fiabilité et il devrait être modifié.

Selon les cas, ces hypothèses peuvent être vérifiées graphiquement ou

par calcul. Pour une observation i, le terme d’erreur se calcule

comme (valeur réelle (<sub>Yi</sub>) – valeur estimée Y<sub>i</sub>

chapeau estimée par la régression) :

![](./media/image163.emf)

Un terme d’erreur positif correspond donc à une sous-estimation de la

réalité par le modèle et un terme négatif correspond à une

surestimation.

### Erreur standard de la régression

![](./media/image164.emf)L’erreur standard du modèle de régression est

l’écart-type non-biaisé des termes d’erreur :

La somme carrée des erreurs/ nombre d’observations – nombre de

paramètres estimés (variables) au raciné carré.

L’erreur standard intervient notamment dans le calcul des tests de

significativité et lors de la détection de donnés atypiques de

l’échantillon.

### Données atypiques

Les modèles de régression sont fortement influencés par des données

atypiques ou aberrantes au sein de l’échantillon. Le mieux est de

supprimer ces données avant l’estimation mais il est aussi possible de

détecter leur présence a posteriori. Un critère habituel consiste à

supprimer les données dont le terme d’erreur pris en valeur absolue

dépasse 2.5 fois l’erreur standard du modèle. En supposant normale la

distribution des observations, ces données font partie du 1% des données

les plus extrêmes (grandes ou petites).

Exemple :

![](./media/image165.emf)La limite pour des données atypiques est 2.5 x

0.208 = 0.52. Les termes d’erreur acceptable sont compris entre

\[-0.52 ; 0.52\]. La valeur maximale est de 2.57 sauf qu’il y a un

souci parce qu’il y a au moins une valeur atypique supérieure à 0.52.

![](./media/image166.emf)

Si on regarde le graphique, on remarque que tout ce qui est au-dessus,

ce sont de trop grandes erreurs donc il y a un souci.

### Hypothèses sur les termes d’erreur

![](./media/image167.emf)![](./media/image168.emf)

## Construction de modèles

### Deux approches

  - **Approche théorique **: on part d’une théorie existante et on

   construit le modèle explicatif qui lui correspond. Les variables

   explicatives utilisées dépendant de la théorie.

  - **Approche empirique **: on recherche le modèle permettant

   d’expliquer au mieux la variable dépendante. Le choix des

   variables explicatives utilisées dépend uniquement de leurs qualités

   statistiques.


  - L’approche théorique est généralement préférable à l’approche

   empirique.

### Ajustement VS simplicité

Il n’est pas forcément souhaitable que le modèle estimé à partir d’un

échantillon soit trop parfait \! L’échantillon est une image imparfaite

de la population. Un modèle parfait pour l’échantillon ne le sera pas

forcément pour la population. Une telle situation est une situation dite

de surapprentissage. Un bon modèle doit être le résultat d’un arbitrage

entre l’ajustement aux données et la simplicité.

### Approche théorique

Dans le cas d’une approche théorique, le modèle est défini par la

théorie et il n’y a normalement pas de doutes quant aux variables

explicatives à utiliser. La limitation provient naturellement des

données à disposition : si les concepts théoriques n’ont pas pu être

correctement mesurée, alors le modèle ne reflètera pas exactement la

théorie \! Cela rappelle une fois encore l’importance de penser à une

recherche quantitative comme un tout et de prévoir bien avant la récolte

des données ce qui sera fait avec ces dernières du point du vue

statistique.

### Tester la théorie

Partir d’un modèle théorique ne veut pas dire que l’on ne peut pas le

remettre en question. Le test de significativité de chaque coefficient

permet de déterminer quelles variables soutiennent la théorie et quelles

variables la remettent en cause. De même, il est possible d’ajouter des

variables ne faisant pas partie de la théorie, de manière à remettre en

question la théorie et à en proposer une nouvelle.

### Comparer des théories

Dans certains cas, plusieurs théories différentes ont été bâties afin

d’expliquer un même phénomène. Sous réserve de disposer des variables

nécessaires pour chaque théorie, il est possible de calculer un modèle

différent pour chaque théorie, puis de les comparer afin de déterminer

quelle théorie est la mieux soutenue par les données. La comparaison

peut se faire notamment sur la base du coefficient de détermination

ajusté (R<sup>2</sup>) ou de critères d’information tels que le **BIC**.

### Approche empirique

Dans le cas d’une approche empirique, toutes les variables à disposition

peuvent être utilisée comme prédicteurs de la variable dépendante. Au vu

du nombre de modèles différents que cela peut impliquer, il faut

travailler de manière systématique. Principales approches :

  - Backward

  - Forward

  - Blocs

### Procédure backward

La procédure backward prend comme point de départ un

<span class="underline">modèle incluant toutes les variables

explicatives</span> à disposition. On utilise ensuite l’algorithme

suivant :

  - Le modèle de régression multiple est estimé.

  - Chaque coefficient du modèle est testé individuellement.

  - Décision :

   

     - Si tous les paramètres sont significativement différents de

       zéro, la procédure s’arrête.

   

     - Sinon, la variable correspondant au paramètre le moins fortement

       significative (celui pour lequel l’hypothèse H<sub>0</sub> a été

       la plus fortement acceptée) est supprimée du modèle et on

       retourne au point 1).

### Procédure forward

La procédure forward prend comme point de départ un

<span class="underline">modèle incluant uniquement une constante</span>.

On utilise ensuite l’algorithme suivant :

  - On recherche, parmi les variables ne faisant pas partie du modèle,

   celle qui permet le mieux d’améliorer le modèle. Cela peut

   nécessiter le calcul de tous les modèles possibles en incluant à

   tour de rôle chacune des variables potentielles.

  - Décisions :

   

     - Si cette variable est significative lorsqu’on l’ajoute au

       modèle, on l’ajoute et on retourne au point 1.

   

     - Sinon, la procédure s’arrête.

Remarque : les procédures « stepwise » combinent les deux approches

précédentes. Une variable peut ressortir du modèle après y être

entrée, et vice versa.

### Construction par blocs

La construction par blocs est une approche intermédiaire entre les

approches théoriques et empiriques. Les variables explicatives sont

réparties en plusieurs blocs (variables essentielles, variables

sociodémographiques, variables de contrôle…) et ces blocs sont ajoutés

successivement au modèle. L’objectif n’est plus seulement d’établir

l’utilité de chaque variable explicative prise isolément mais de

mesurer l’apport respectif de chaque bloc ou type de variables dans

l’explication de la variable dépendante.

### Comment comparer ces modèles ?

Plusieurs critères peuvent être utilisés pour comparer des modèles entre

eux. Tout d’abord, il faut savoir si l’on travaille au **niveau

individuel de chaque variable** ou **au niveau du modèle** pris dans son

ensemble :

  - **Au niveau des variables**, on peut utiliser le test de

   significativité si la variable est dans le modèle, ou se baser sur

   la corrélation (partielle) entre cette variable et la variable

   dépendante sinon.

  - **Au niveau du modèle**, on peut se baser sur des coefficients

   d’ajustement (R<sup>2</sup>), sur des tests du rapport de

   vraisemblance, ou sur des critères d’information (BIC).

### Critères d’information

Les critères d’information combinent la qualité d’ajustement du modèle

aux données avec sa complexité :

  - Akaike : AIC = *FIT* + 2*k*

  - Bayes (Schwarz) : BIC = *FIT* + ln(*n*)*k* -\> où *k* est le nombre

   de coefficient estimés du modèle et *n* est le nombre

   d’observations.

Plus un coefficient est proche de zéro, meilleur il est. Pour une

régression logistique, *FIT* est égal à -2 fois la log-vraisemblance du

modèle, alors que pour une régression linéaire, il s’agit de *n* fois le

logarithme de la somme des carrés des résidus du modèle.

Il n’est pas possible de tester formellement la valeur du BIC mais

*Raftery* (1995) propose un ordre de grandeur pour la comparaison de

deux modèles. Soit M<sub>1</sub> et M<sub>2</sub>, deux modèles tels que

M<sub>2</sub> est emboîté dans M<sub>1</sub> (ie : il a été obtenu en

supprimant une ou plusieurs variables de M<sub>1</sub> et il est donc

plus simple). Alors :

![](./media/image169.emf)

**Exemple : comparaison de théories**

![](./media/image170.emf)Pour expliquer le revenu, il faut prendre la

variable travail (oui/non), si c’est un col blanc (oui/non) et s’il est

indépendant. Les 3 variables sont significatives par rapport à leur

p-valeur.

![](./media/image171.emf)

On a la variable santé qui est significative et les deux autres qui ne

sont pas significatives.

![](./media/image172.emf)

On a aussi des variables significatives et d’autres qui ne le sont pas

(âge, diplôme universitaire).

Lequel des 3 modèles est le plus pertinent ? On compare les

R<sup>2</sup> ajusté et les BIC.

![](./media/image173.emf)Le R<sup>2</sup> du modèle sociodémographique

permet d’expliquer les 12% de notre modèle de comparaison. Avec le BIC,

la valeur la plus petite, c’est une sorte de différence entre ce que ça

prédit et ce qui est réellement donc plus c’est petit, mieux c’est. Pour

les deux critères, on a le modèle sociodémographique qui est meilleur

mais est-ce un bon modèle ? Là, on a environ 12% de variance expliqué

mais ce n’est pas excellent. Parmi les 3, c’est le meilleur mais il

n’est pas très bon.

**Exemple : construction par blocs**

On construit un modèle en examinant tout d’abord l’influence des

facteurs économiques puis celle de la santé et en dernier lieu celle des

facteurs socio-démographiques.

Le <span class="underline">bloc économique </span>: on prend le même

modèle. On remarque qu’il y a au moins une valeur qui est

significative. Toutes les variables sont significatives en l’occurrence

avec un R<sup>2</sup> de 0.0509 donc on explique 5% de la variance.

Maintenant on rajoute les valeurs dues à la santé à ce modèle. Ce

nouveau modèle comprenant deux séries de blocs de variables, il vaut la

peine de s’y intéresser. Est-ce qu’il explique beaucoup mieux la

variable indépendante ? Les variables sont significatives du bloc

économique et juste une du modèle de la santé. Puis on ajoute les

variables socio-démographiques et on obtient un modèle combiné par les 3

blocs de variables. On voit ainsi qu’il y a des variables

non-significatives.

Si on compare ces 3 modèles entre eux,

![](./media/image174.emf)Le dernier bloc permet la plus forte

augmentation et donc la plus forte explication de la variation (avec un

pourcentage d’environ 16%). Par conséquent, c’est l’ajout des facteurs

socio-démographiques qui permet la plus forte augmentation de

l’explication de la variable dépendante.

**Exemple : sélection backward**

A partir du modèle précédent à 3 blocs de variables, on effectue une

sélection backward en supprimant à chaque étape la variable

non-significative ayant la plus grande p-valeur. On supprime ainsi

successivement les variables suivantes : HANDI.POUR, HANDI, UNIV, AGE.

En termes de R<sup>2</sup> ajusté, le modèle obtenu est très proche du

modèle précédent à 3 blocs, tout en étant plus simple.

![](./media/image175.emf)Toutes ces variables ont l’air significatives.

Comment expliquer la variance ? Par 16.2% mais qui n’est pas terrible.

C’est un modèle considéré comme mauvais.

# Analyse multivariée : régression logistique. Analyse des données et interprétations

Elle va nous permettre de prédire la valeur d’une ou l’autre des

modalités d’une variable de type catégorielle.

## Introduction

### Problématique

Nous voulons construire un modèle de régression pour expliquer une

variable dichotomique. Problème : une telle variable ne prend que deux

modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux)

alors qu’un modèle de régression produit des résultats numériques allant

de – infini à + infini. Comment faire coïncider une variable dépendante

dichotomique avec l’output d’un modèle de régression ? La solution

consiste en deux étapes successives.

### Transformation logit (fonction)

Soit une variable dépendante dichotomique et soit *p* la probabilité de

la modalité pour laquelle nous allons construire le modèle.

  - **Etape 1 **: En considérant la probabilité p plutôt que la modalité

   elle-même, nous revenons à une variable dépendante numérique. Mais

   une probabilité évolue entre 0 et 1, alors qu’un modèle de

   régression produit des résultats allant de –infini à +infini.

  - **Etape 2 **: On estime le modèle pour la fonction logit, notée

   \(\pi\) plutôt que pour *p* :

![](./media/image176.emf)

  - On veut prédire des valeurs avec une régression connue où on se

   ramène à un cas où les valeurs vont aller de – l’infini à +

   l’infini. C’est une fonction logistique \!

![](./media/image177.emf)

Donc on passe d’une variable dichotomique à quelque chose qui peut avoir

des valeurs allant de – l’infini à + l’infini. La transformation est

permise par le log. Nous on estime sur le PI avec une régression

linéaire.

### ![](./media/image178.emf)Modèle

Equation générale d’une régression logistique :

![](./media/image179.emf)

Même si le modèle de régression logistique ne permet pas forcément

d’expliquer à 100% le logit, on n’indique généralement par le terme

d’erreur car il n’est pas distribué selon une loi bien définie.

Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on

prend quelqu’un au hasard sans connaître ces modalités, on prend la

modalité la plus présente, à savoir le 80 d’individus. En termes de

probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2.

Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre

information à part les données de départ, à savoir de la variable

dichotomique.

**Exemple : données GSOEP**

Nous disposons de données extraites du German Socio-Economic Panel

(GSOEP), un panel représentatif des ménages allemands pour l’année 1994.

Ces données concernant 3377 individus âgées de 25 à 64 ans. On a des

variables liées au travail, à la santé et des variables

socio-démographiques.

## Interprétation

En régression linéaire, il suffit de minimiser la somme des carrées

d’erreur. Ici, on aura une fonction dite de régression logistique.

### Niveaux d’analyse du modèle

Tout comme en régression linéaire, on peut évaluer à la fois la qualité

globale d’un modèle et l’utilité de chacun de ses éléments. Par

ailleurs, les coefficients du modèle peuvent soit être interprétés

directement soit être transformées en *odds ratio – rapport de cote*.

Cette seconde forme est plus naturelle dans le cas de la régression

logistique.

**Exemple : modélisation du fait d’avoir un travail**

![](./media/image180.emf)La variable dépendante est d’avoir un travail

et on veut l’expliquer avec toutes les autres variables indépendantes.

AIC = critère d’information. On a ici les coefficients nécessaires de

notre régression ; on a des informations sur la qualité du modèle, sur

la valeur des paramètre (dernière colonne).

![](./media/image181.emf)On a ici de nouvelles informations par rapport

au précédent.

### Qualité globale du modèle : déviance

La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le

modèle et les observations. Elle est utile pour comparer des modèles en

particulier le modèle basique ne contenant aucune variable explicative

et le modèle complet où on a toutes nos variables. Ces deux chiffres

indiquent une certaine distance entre le modèle et les observations.

Plus la distance est petite, meilleur sera le modèle. En ayant une

déviance plus petite, on aura un modèle considéré comme meilleur. Si on

n’a aucune variable explicative et si on prend toutes ces explications

du modèle précédents des variables indépendantes, la déviance est plus

petite et donc le second modèle est meilleur que le modèle où on a juste

les intercept.

![](./media/image182.emf)

### Qualité globale du modèle : chi-2

La statistique chi-2 du rapport de vraisemblance évalue l’amélioration

de la déviance par rapport au modèle « NULL » (avec constante

seulement) :

![](./media/image183.emf)

Si la statistique du chi-2 n’est pas significative, le modèle est

rejeté. Cette statistique permet aussi de comparer des modèles entre

eux.

![](./media/image184.emf)

Donc notre modèle vaut la peine d’être considéré mais cela ne signifie

pas qu’il est bon \! C’est aussi un outil qui nous permet de juger la

validité de notre modèle.

###

###

### Qualité globale du modèle : pseudo-R<sup>2</sup>

  - ![](./media/image185.emf)**Cox & Snell **:

![](./media/image186.emf)

  - **Nagelkerke** (exemple : R<sup>2</sup> = 0.227)

![](./media/image187.emf)

  - **McFadden **:

où -2LL<sub>0</sub> est la déviance du modèle NULL et -2LL<sub>M</sub>

est la déviance du modèle que l’on teste. Au contraire de la régression

linéaire, ces R<sup>2</sup> ne représentant pas la part expliquée de la

variable dépendante mais seulement une mesure de l’utilité des variables

explicatives. Le R<sup>2</sup> ne s’utilise pas de la même manière que

dans la régression linéaire. Ce sont toutes des estimations \!

### Qualité globale du modèle : AIC, BIC…

Les critères d’information d’Akaike et de Bayes permettent aussi de

comparer au niveau global plusieurs modèles :

![](./media/image188.emf)

où k est le nombre de coefficient estimés du modèle et n est le nombre

d’observations. Pour la régression logistique, le *FIT* du modèle est

égale à la **déviance** (-2 fois la log vraisemblance du modèle). Plus

un coefficient est proche de zéro, meilleur il est.

### Test individuel de chaque variable

La significativité des coefficients détermine si la variable

correspondante est significative ou si elle peut au contraire être

supprimée du modèle.

  - Variable **quantitative **: c’est l’effet de la variable elle-même

   car il n’y a qu’un seul coefficient.

  - Variable **catégorielle **: la significativité d’un coefficient

   indique uniquement l’effet significatif de la variable muette

   correspondante par rapport à la catégorie de référence.

### Variables explicatives à plus de 2 modalités

Lorsqu’une variable explicative catégorielle comporte plus de 2

modalités, elle est remplacée dans le modèle par plusieurs variables

muettes. Une *p*-valeur est fournie pour chacune de ces variables

muettes. Toutes ces variables muettes correspondent à la même variable

explicative. Il faut donc **soit toutes les laisser dans le modèle soit

toutes les supprimer**. Il est possible de tester globalement l’effet de

toutes les variables muettes correspondant à une même variable

explicative en utilisant la statistique du chi-2 pour comparer le modèle

avec et sans ces variables muettes.

Exemple : modèle avec une variable explicative catégorielles à 4

modalités (DOC\_4c)

![](./media/image189.emf)

Modèle sans cette variable explicative catégorielle (DOC\_4c)

![](./media/image190.emf)

Quel est le meilleur modèle ? On peut regarder la déviance résiduelle

(3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2

est très petit. En regardant la valeur du BIC, le 2<sup>ème</sup> modèle

serait meilleur. Par contre, par rapport au critère déviance résiduelle

(distance entre le modèle et l’observation), là, ça semble un peu se

contredire. En fait, ces deux modèles sont extrêmement proches l’un de

l’autre. On peut ainsi dire que par parcimonie, on préférerait le

modèle ayant le moins de variables. On prend les variables muettes du

premier modèle et on les retire toutes ensembles. Si on regarde les

p-valeur, il n’y a que pour une variable où ces significatives. Donc on

les retire toutes.

### Interprétation des coefficients

Un modèle de régression logistique peut s’interpréter soit en termes de

**valeur des coefficients de régression,** soit en termes **d’odds

ratios** (rapport de cotes). Les coefficients mesurent l’influence des

variables explicatives sur le logit de la variable dépendante. Un

coefficient \>0 implique une augmentation du logit et un coefficient \<0

implique une diminution du logit. Problème : le logit n’est qu’une

construction mathématique qui n’est pas facile à interpréter. On sait

seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et

que plus le logit augmente, plus la probabilité augmente.

Exemple : modélisation du fait d’avoir un travail

![](./media/image191.emf)

### Odds ratio

Soit la variable « avoir un travail ». Cette variable n’a que deux

modalités : oui et non. Soit p la probabilité d’avoir actuellement un

travail (oui) et 1-*p* la probabilité de ne pas en avoir (non). Pour un

échantillon de taille n, la cote (odds) associée à cette variable est

le rapport entre le nombre n<sub>oui</sub> de personnes ayant un travail

et le nombre n<sub>non</sub> de personnes n’ayant pas de travail avec

n = n<sub>oui</sub> + n<sub>non</sub>, ce qui revient à écrire :

![](./media/image192.emf)

L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de

la variable expliquée est multipliée lorsque le facteur explicatif

correspondant augmente d’une unité. C’est ce que l’on appelle un **odds

ratio**. Les odds ratios s’interprètent de la manière suivante :

  - **Variable quantitative **: impact sur la cote de la variable

   expliquée d’une augmentation de 1 unité de la variable.

  - **Variable catégorielle **: impact sur la cote de la variable

   expliquée du fait d’appartenir à la catégorie indiquée par la

   variable muette par rapport au fait d’appartenir à la catégorie de

   référence.


  - **Les odds ratios ne prennent que des valeurs positives. La valeur 1

   sert de référence et indique l’absence de changement**.

Exemple : modélisation du fait d’avoir un travail

![](./media/image193.emf)Pour avoir les odds rations, on fait e à la

puissance des chiffres de la première colonne. La cote de base de la

variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt

qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 =

0.75. Cette valeur signifie que si on a comme caractéristique d’être une

femme par rapport à un homme, on a 25% de chance en moins d’avoir un

travail.

### Probabilité d’une situation donnée

Etant donné que le modèle est estimé pour la quantité suivante :

![](./media/image194.emf)

La probabilité *p* se calcule alors comme : ![](./media/image195.emf)

Exemple :

![](./media/image196.emf)![](./media/image197.emf)La probabilité d’avoir

un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant

étudié durant 12 ans. Logit :

  - Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait

   un travail.

## Modèles dérivés

### Régression multinomiale

La régression multinomiale s’utilise lorsque la variable dépendante est

une variable nominale à c\>2 catégories. L’une des catégories joue alors

le rôle de référence et l’on calcule en parallèle c-1 régressions

« logistiques » pour chacune des autres catégories de la variable.

Attention : c-1 régressions ne sont pas indépendantes les unes des

autres et ce modèle n’est pas équivalent à calculer c-1 vraies

régressions logistiques.

![](./media/image198.emf)

**DOC\_4c (référence =0)**

On a pris 4 valeurs.

**Doc\_4C (référence = 0)**

![](./media/image199.emf)

### Régression ordinale

La régression ordinale s’utilise lorsque **la variable dépendante est

une variable ordinale à c\>2 catégories**. On calcule alors une

régression comparant des modalités adjacentes ou des groupes de

modalités cumulées. **Contrairement à la régression multinomiale, un

seul ensemble de coefficients est calculé, à l’exception des

constantes**. Pour utiliser ce modèle, il faut faire l’hypothèse de

**parallélisme des régressions**, ce qui signifie que les coefficients

des différentes régressions doivent être identiques, à l’exception des

constantes. En pratique, cette hypothèse est difficile à vérifier et

l’on préfère souvent en rester à une régression multinomiale.

### Exercice en cours

Sur la base de données disponibles sur moodle (excel), on va s’entraîner

à analyser des régressions linéaires :

1)  <span class="underline">Résumer la variable

   douleur (qualitative)</span> : variable qualitative dichotomique

   ayant 2 modalités. Pour la résumer, il faut calculer le nombre de

   fois qu’il y a 0 et le nombre de fois qu’il y a 1. 35 fois 0 et 25

   fois 1. En pourcentage, 58% qui n’ont pas de reçu de douleur contre

   41% qui ont eu de la douleur.

2)  <span class="underline">Prenez un patient au hasard. A-t-il plus de

   chance d’avoir une réduction de la douleur ou de ne pas avoir de

   réduction de la douleur ?</span> Effectivement, si on prend une

   personne au hasard, d’après les données on a 58.3% de chance que la

   personne n’ait pas ressenti de la douleur contre 41% de personne qui

   ont ressenti de la douleur. Notre meilleur pronostic si on prend une

   personne au hasard, elle n’a pas de réduction de douleur ressenti

   puisque le pourcentage est plus grand que pour celles qui ont

   ressenti de la douleur.


  - La seule chose qu’on peut dire c’est que par rapport à mes données,

   je regarde la majorité et je parie là-dessus. Si je fais un modèle

   basé uniquement sur la variable douleur qui est la variable

   dépendante. Ainsi, on estime un coefficient qui est le coefficient

   constant puisqu’on n’a aucune autre valeur.


3)  <span class="underline">Quel est la cote de base de la variable

   dépendante ?</span> On fait la formule de la cote :

   (n<sub>oui</sub>/n) / (n<sub>non</sub>/ n) : (25/60) / (35/60) =

   0.714.

4)  <span class="underline">Qu’est-ce ça signifie d’avoir une cote de

   0.714 ?</span> Le 1 est le seuil équivalent entre les 2 populations.

   Si on est en dessous, cela signifie que la partie qui nous intéresse

   est plus faible. Donc, les chances qu’un patient ait une réduction

   de douleur avec une cote inférieure à 1, ses chances diminuent. Donc

   cela signifie que le patient a environ 29% de chance en moins que le

   patient ait une réduction de douleur.


  - Ce qui est inférieur à 1, on a moins de chance d’obtenir l’évènement

   en question. Si on a plus que 1, on a plus de chance d’obtenir

   l’évènement en question.

Le modèle nul = un modèle dans lequel je ne mets aucune variable

explicative. Je n’ai pas d’autres informations que le fait d’avoir un

patient et la probabilité qu’il ait une réduction de la douleur. AIC =

plus il est petit, mieux c’est (c’est un critère d’information).

5)  <span class="underline">Quelle est l’équation de ce modèle

   nul </span>? Le pi est le logit. La différence par rapport à une

   régression linéaire, on y explique une variable égale à bêta 0 +

   bêta 1. Là, on n’explique pas directement la variable qui nous

   intéresse. On passe ici par un logit parce qu’on a une variable

   dichotomique, on a des soucis en utilisant une régression

   logistique. Ici, on évalue un modèle de régression pour le logit.

   Donc la réponse est que bêta 0 (pi) = -0.036.

6)  <span class="underline">Quelle est la probabilité d’une réduction de

   douleur ?</span> (régression logistique) p = 1/1 + e <sup>-

   (-0.336)</sup> = 0.417. C’est la probabilité d’avoir une réduction

   de douleur.


  - On a fait un modèle qui nous permet de prédire la variation de la

   variable.

**Modèle avec genre, résumé**

7)  <span class="underline">Résumez les données comprenant les variables

   Douleur et genre </span>: On a 22 femmes = 0 / 8 = 1 // 13 hommes =

   0 / 17 = 1

8)  <span class="underline">Quelle est l’équation de ce modèle</span> =

   -1.012 + 1.280 x genre

9)  <span class="underline">Que vaut le logit pour une femme ?</span>

   (Femme = 0) donc -1.012 + 1.280 x 0 = -1.012.

10) <span class="underline">Que vaut le logit pour un homme</span> :

   -1.012 + 1.280 x 1 = 0.268.

11) <span class="underline">Quelle est la probabilité d’une diminution

   de douleur chez une femme ?</span> p = 1/1+e<sup>-(bêta 0 +bêta 1 x

   Genre)</sup> : 0.267. Il y a 26.7% de chance qu’elle ressente une

   diminution de douleur.

12) <span class="underline">Quelle est la probabilité d’aucune

   diminution de douleur chez une femme ?</span> P(Douleur=0 I Genre =

   F) = 1 - 0. 267 = 0.733.

13) <span class="underline">Quelle est la probabilité d’une diminution

   de douleur chez un homme ?</span> 0.567.

14) <span class="underline">Quelle est la probabilité d’aucune

   diminution de douleur chez un homme ?</span> 1 – 0.567 = 0.433.

15) Rapports de 2 probabilités : P (Douleur = 1 I Genre = F) = 0.267 / P

   (Douleur = 0 I Genre = F) = 0.733 / P (Douleur = 1 I Genre = H) =

   0.567/ P (Douleur =0 I Genre = H) = 0.433.

<span class="underline">Quel est le rapport de cote chez une

femme ?</span> 0.267/0.733 = 0.364 =\> 8/22

<span class="underline">Quel est le rapport de cote chez un

homme ?</span> 0.567 / 0.433 = 1.308 =\> 17/13

En reprenant notre résumé de donné, on a 8 femmes qui ressentent une

diminution de douleur et 22 qui n’en ressentent pas.

**Modèle avec genre, odds ratio**

Les rapports de cote chez la femme et chez l’homme sont

|            | Femme | Homme |

| ---------- | ----- | ----- |

| Odds ratio | 0.364 | 1.308 |

Nous connaissons donc les cotes avant et après 1 unité de changement

dans la variable Genre (Genre = 0 pour la femme, Genre = 1 pour

l’homme).

16) <span class="underline">Quelle est la variation proportionnelle des

   rapports de cotes ?</span>

Différence entre les cotes = cote après 1 unité d’accroissement de Genre

/ cotes originales

Nous avons calculé une variation proportionnelle des rapports de cote :

3.596

Les coefficients et odds rations sont :

|           | Coefficient | OR    |

| --------- | ----------- | ----- |

| Intercept | \-1-01      | 0.364 |

| Genre M   | 1.28        | 3.596 |

**Le modèle final suivant est disponible**

La variable traitement contenait 3 valeurs. Puisqu’on a 3 valeurs, on a

besoins de 2 variables dichotomiques pour la représenter.

<span class="underline">Quelle est l’équation du modèle final ?</span>

**Modèle final, équation**

Que vaut le logit pour une femme de 60 ans, ayant reçu le traitement A,

et dont la durée des douleurs précédentes est de 5 jours ?

P= 0.007

Quelle est la probabilité d’une réduction de douleur pour une femme de

60, ayant reçu le traitement B, et dont la durée des douleurs précédente

est de 5 jours ?

P= 0.004.

# Analyses multivariées : leur utilité pour la recherche

## Rappel : types d’analyses : analyses unvariées. VS multivariées

  - **Analyses univariées**

   

     - Description de la distribution d’une seule variable

   

     - Fréquences, tendance centrale (moyenne, médiane etc) et

       dispersion (écart-type, écart interquartile etc.

  - **Analyses multivariées**

C’est une mise en relation de plusieurs variables pour voir comment

elles sont associées. Les analyses bi-variée et tri-variée sont des cas

particuliers. L’usage voudrait qu’on parle d’analyse multivariée dès

lors qu’on analyse plusieurs variables.

  - **Analyse bivariées**

Mise en relation de 2 variables. On utilise des corrélations, des

comparaisons de moyennes, des tableaux croisés et des régressions

simples dans ce cas d’analyse. Sauf qu’on n’est pas à l’abri d’une

relation fallacieuse, à savoir qu’on peut avoir une corrélation entre

deux variables mais il n’y a pas de sens en termes de causalité.

  - **Analyses trivariées**

C’est une mise en relation de 2 variables sous contrôle d’une

3<sup>ème</sup>. On utilise les mêmes outils statistiques pour une

analyse bivariée et de plus, il y a la régression multiple. Néanmoins,

si le contrôle est limité, quelles sont les causes concurrentes ?

  - **Autres analyses multivariées**

C’est une mise en relation de plus que 3 variables. On utilise des

régressions multiples et d’autres méthodes plus complexes dont on ne va

pas triater.

## Régression multiple

La logique, on cherche à expliquer/prédire un phénomène et c’est une

*variable expliquée/dépendante* notée *Y*. A côté de ça, on a une série

de variables <span class="underline">indépendantes ou explicatives

notées X</span>. On cherche à trouver leur effet sur la variable

dépendante.

Variable de contrôle VS indépendante : mathématiquement, il n’y a pas de

différence. C’est une distinction théorique, c’est le chercher qui

décide ce qui l’intéresse vraiment, les variables dont l’effet

l’intéresse et les variables de contrôle sont là pour contrôler.

### 2 usages de la régression multiple

  - **Expliquer un phénomène social dans son ensemble**

   

     - Objectif d’expliquer un maximum de la variance de ce phénomène

       (variable dépendante) et c’est pour ça que l’examen du

       R<sup>2</sup> nous donne l’indice de combien de variance on

       explique de ce phénomène.

   

     - Avantage par rapport aux autres types d’analyse : on peut tester

       des choses plus complexes. On peut introduire plus de facteurs

       explicatifs et par définition, on a plus de chance de cerner le

       phénomène qu’on cherche à expliquer (notamment par le

       R<sup>2</sup>).

  - **Expliquer l’influence de certains facteurs en particulier**

   

     - On est moins intéresser à expliquer un phénomène dans son

       ensemble mais on a un intérêt en se demandant quel est

       l’influence d’une variable en particulier.

   

     - Avantage c’est ce fameux *toute chose égale par ailleurs –

       ceteris paribus* qui nous permet de dire qu’en contrôlant tout

       un paquet de facteurs, la variable qui nous intéresse a un

       effet. Si on garde tout le reste constant, on peut dire qu’une

       variable a un effet. En gros, l’avantage de la régression

       multiple est qu’elle permet de contrôler l’effet des causes

       concurrentes.


  - Coefficients (standardisés et non-standardisés) sont plus

   importants, R<sup>2</sup> est moins intéressant sauf si comparaison

   de modèles « avec/sans » la variable clé. Le R<sup>2</sup> : de

   combien de variance supplémentaire on peut expliquer en ajoutant

   cette variable explicative.

## Différents types de régression multiple

Le type de régression utilisée dépend du niveau de mesure de la variable

dépendante (Y).

![](./media/image200.emf)

### Interprétation

![](./media/image201.emf)

B = coefficient de régression / e = terme d’erreur (estimation

statistique) / H<sub>0</sub> = hypothèse avec pas d’effet

### Interprétation

![](./media/image202.emf)

### Régression logistique binaire

Dans l’absolu, le R<sup>2</sup> ajusté est difficile à interpréter par

contre pour comparer des modèles, le R<sup>2</sup> ajusté peut être

utile en disant que celui qui a le R<sup>2</sup> ajusté le plus grand,

c’est le meilleur modèle.

Le logit, c’est une quantité mathématique qui est difficile à

interpréter. Raison pour laquelle on utilise le plus souvent les odd

ratios. Le coefficient, la valeur de référence est 0 pour voir la

relation est + ou -. Pour les odd rations, la valeur de référence est de

1. Si on est entre 0 et 1, on a une relation négative, si on est au-delà

de 1, la relation est positive.

Les cotes = on est à 1 contre 3 ; en gros, sur 4 situations, il y a 1

dans laquelle on gagne et 3 dans laquelle on perd. Dire la côte est de 1

contre 3, on a 1 chance sur 4 de gagner.

Vu que la valeur de référence pour 1 (OR), l’intervalle de confiance

comprend-elle le 1 ?

\(\mathrm{\Delta}\)R<sup>2</sup> : pourcentage de variance qu’on

explique en plus à chaque nouveau bloc

#### Régression multiple : exemple 1

« Social Media Use for News and Individuals’ Social Capital, Civic

Engagement and Political Participation » G. de Zuniga, Jung & Valenzuela

(2012)

Question de recherche : les nouveaux réseaux sociaux (SNS)

renforcent-ils la participation politique ou, au contraire,

l’inhibent-ils ?

Hypothèse : L’utilisation des SNS pour la recherche d’information est

positivement associée à la participation politique offline et online

(=plus les individus utilisent fréquemment les SNS pour s’informer, plus

ils participent politiquement).

![](./media/image203.emf)

**Interprétation**

  - Type d’analyse :

   

     - Variables dépendantes numériques (échelles de participation) -\>

       régressions linéaires (OLS)

  - Informations statistiques

   

     - Coefficients standardisés (Betas)

   

     - Significativité (p-valeurs\*)

   

     - R<sup>2</sup> totaux et surtout \(\mathrm{\Delta}\)R<sup>2</sup>

       intermédiaires

  - Effet de l’usage des SNS sur participation online ?

   

     - Beta = 0.153, p \< 0.01

   

     - \(\mathrm{\Delta}\)R<sup>2</sup> = 3.6% (R<sup>2</sup> total =

       39.3%)


  - Effet significatif, positif et assez fort en comparaison avec

   d’autres variables explicatives du modèle (e.g socio-démo.)


  - Effet de l’usage des SNS sur participation offline ?

   

     - Beta = 0.136, p \< 0.01

   

     - \(\mathrm{\Delta}\)R<sup>2</sup> = 1.4% (R<sup>2</sup> total =

       32.5%)


  - Effet significatif et positif mais relativement moins important en

   comparaison avec ceux des autres variables.

<span class="underline">CCL </span>: Toutes choses égales par ailleurs,

la fréquence d’utilisation des SNS pour la recherche d’information a un

impact positif sur la participation politique offline et online

(hypothèse confirmée) mais surtout en ce qui concerne cette dernière.

#### Régression multiple : exemple 2

Social Media and Decision to Participate in Political Protest :

Observations From Tharir Square » Tufekci & Wilson (2012)

Question de recherche : quel rôle ont joué les réseaux sociaux dans les

évènements de la place Tahrir en 2011 ?

![](./media/image204.emf)

**Interprétation**

  - Type d’analyse

   

     - Variables dépendantes dichotomiques (participation oui/non) -\>

       régressions logistiques binaires (logit)

  - Informations statistiques

   

     - Odds ratio (OR)

   

     - Significativité (p-valeurs\*)

   

     - (Log-likelihood)

  - Variables indépendantes dans 1<sup>er</sup> modèle (participation

   1<sup>er</sup> jour place Tahrir)

   

     - Blogs (OR =1.574), téléphone (OR=1.531), Twitter (OR =1.414),

       Facebook (OR = 1.411), e-mail (OR = 1.313).

   

     - Variables indépendantes dans 2<sup>ème</sup> modèle

       (participation manifestations antérieures)

       

         - SMS (OR = 1.180), presse écrite (OR = 1.353), face à face

           (OR = 0.613)


  - Différents modes de communication prédisent les 2 variables

   dépendantes ; impact positif significatif des réseaux sociaux dans

   le 1<sup>er</sup> modèle mais pas dans le 2<sup>ème</sup>.

<span class="underline">CCL </span>: A la différence des manifestations

précédentes, toutes choses égales par ailleurs, la chance d’avoir

participé au 1<sup>er</sup> tour de la manifestation place Tahrir est

plus élevée si l’individu a utilisé les réseaux sociaux pour communiquer

à ce propos.

# Analyse des données et interprétations des résultats : préparation à l’examen

## Caractéristiques méthodologiques – en amont des analyses

  - Dessins de recherche : expérimental, quasi-expérimental,

   corrélationnel

  - Type de données : primaires ou secondaires ; échantillonnées ou

   exhaustives, unité d’analyse

  - Type de récolte des données : échantillonnage, autre

  - Mesures : variables dépendantes et indépendantes

## Analyses

### Types d’analyses

  - Univariées : Fréquences, moyennes, médianes

  - Bivariées : Tableaux croisés, comparaison de moyenne (Anova),

   corrélation

  - Trivarieés : Tableaux croisés, comparaison de moyenne (Anova)

  - Multivariées : régressions linéaires, régressions logistiques

### Statistiques mobilisées :

  - Univariées : n / %,moyennes (écart-type), médianes (ei)

  - Bi-tri-variées : n / &, moyennes / association (gamma, etc) / sig

   (p-valeur)

  - Multivariées : n / association (b/B) et sig (p-valeur) / Variance

   exp (R<sub>2</sub>)

  - Synthèse : distribution, association, significativité, variance

   expliquée

## Les questions que l’on se pose ?

![](./media/image205.emf)

## Identifier, interpréter, discuter

1.  Identifier : qu’est-ce que c’est ?

2.  Interpréter : expliquer, pourquoi ?

3.  Discuter : adéquation, est-ce que c’est adéquat ?

   

   1.  Points forts

   

   2.  Biais possibles et leurs impacts sur les résultats

   

   3.  Discussion réflexive

![](./media/image206.emf)

![](./media/image207.emf)

![](./media/image208.emf)

![](./media/image209.emf)

### Texte de référence – Andrews : The impact of social movements on the political process. The civil rights movements and black electoral politics in Mississipi

**Question de recherche **: quels sont les impacts des mobilisations

locales du Civil rights movement sur la politique électorale du

Mississipi ?

L’auteur distingue 4 impacts :

1.  Participation des afros américains au processus électoral

2.  Soutien aux candidats AA lors d’élections

3.  Candidats AA qui se présentent aux élections locales

4.  Candidats AA élus


  - Type d’impact =\> spécifie les variables dépendantes

**Cadre théorique et hypothèses**

  - Mobilisation des ressources : force de mobilisation du mouvement

  - Opportunités politiques : alliances politiques

  - Stratégie de résistance : contre-mobilisation de la population

   blanche

  - Cycle protestataire : processus temporel

   

     - Relation entre facteurs changent dans le temps

   

     - Influence des facteurs en fonction du type d’impact

**Caractéristiques méthodologiques**

<span class="underline">Corrélationnel :</span>

  - Analyse de la relation entre variables dans un groupe

  - Le groupe : Etat du Mississipi

<span class="underline">Quasi-expérimental</span> :

  - Analyse temporelle : impacts dans le temps du mouvement

  - Comparaison dans le temps : 1964 (FV) à 1984 (élections AA)

  - Trois phases : processus

   

     - Mobilisation du mouvement

   

     - Développement de structures électorales

   

     - Election de candidats

<span class="underline">Corrélationnel et quasi-expérimental :</span>

  - Adapté à la question de recherche : variations et processus (temps)

  - Force : 1964-1984

  - Faiblesse : Cas du Mississipi

   

     - Force : Cas important dans l’histoire de la protestation CRM

   

     - Force : Variation dans la mobilisation (Variance)

   

     - Faiblesse : cas exceptionnel de l’Etat du Mississipi (Sud et

       USA)

   

     - Limite la portée des résultats -\> Attention à la généralisation

Autre proposition de dessins de recherche ?

  - Comparaison du Mississipi avec un autre Etat moins exceptionnel

  - Limite : faisabilité

**Type de données et collecte**

<span class="underline">Type de données et unité d’analyse</span>

  - Countries : n = 81

   

     - Country de Jackson supprimé : cas exceptionnel (mobilisation et

       population)

  - Données agrégées par country

  - Données exhaustives (pas de sondages, échantillon)

<span class="underline">Types de collecte de données</span>

  - Sources documentaires (archives)

<span class="underline">Type de données et unité d’analyse :</span>

  - Countries : adaptées au questionnement

   

     - Variation du type d’impact au niveau collectif (par country)

  - Exhaustives : pas d’autres solutions possibles

<span class="underline">Type de collecte de données :</span>

  - Peu (pas) d’information pour évaluer problèmes, biais ?

  - N = ensemble des countries (n=81) (Sauf Jackson)

  - Force : exclusion du country de Jackson (cas exceptionnel)

<span class="underline">Variables dépendantes =\> 4 types d’impact et 9

mesures :</span>

1.  Participation des AA

   

   1.  Nombre de voix au Freedom vote (1964)

   

   2.  Nombre de AA enregistrer pour voter (1967)

2.  Soutien aux candidats AA

   

   1.  % de vote pour Whitley (1966)

   

   2.  % de vote pour Evers (1971)

3.  Candidats AA participant au processus électoral

   

   1.  Nombre de candidats AA : 1967 – 1971

4.  Candidats AA élus

   

   1.  Nombre de candidats AA élus : 1974, 1979, 1984

<span class="underline">Validité (opérationnalisation) :</span>

  - Mobilisation des AA = soutien au FV et inscription électorale

  - Soutien aux candidats AA = % de vote des candidats AA

  - Candidats AA participants = nombre de candidats AA se présentant

  - Candidats AA élus = nombre de candidats AA élus


  - Pas de problème de validité

   

     - Force : temporalité prise en compte (t1, t2 etc.) de 1964 à 1984

   

     - Segmentation du processus pour cerner l’impact électoral

<span class="underline">Fiabilité </span>:

  - Pas de problèmes apparents

  - Pas d’information sur des comptages différents par country

<span class="underline">Variables indépendantes -\> 3 effets et 5

mesures</span>

1.  Mobilisation du mouvement

   

   1.  Nombre de militants du Freedom Summer (1964)

   

   2.  Nombre de militants du NAACP (1966)

2.  Opportunités politiques (alliances politiques)

   

   1.  Présence d’examinateurs fédéraux)

3.  Contre-mobilisation (White Americains)

   

   1.  Résistance au Freedom Summer : attaques physiques (1964)

   

   2.  Résistance violente (indice) : attaques / assauts (1960-69)

**Caractéristiques méthodologiques – synthèse**

<span class="underline">Dessin de recherche </span>:

  - Adapté : variation dans le groupe et dans le temps

  - Attention à la généralisation (cas du Mississipi)

  - Force : temporalité prise en compte par les mesures

<span class="underline">Type de données :</span>

  - Adaptées : agrégées (countries) et exhaustives)

  - Force : exclusion du county de Jackson (cas exceptionnel)

<span class="underline">Mesures :</span>

  - Validité : pas de problème

   

     - Faiblesse : opportunités politiques = protection de l’Etat

  - Fiabilité : pas de problème apparents (pas d’info.)

**Analyses**

  - <span class="underline">Type d’analyse </span>: laquelle, pourquoi,

   adéquat ?

  - <span class="underline">Utilité de l’analyse </span>: hypothèse

   testée, analyse adéquate ?

  - <span class="underline">Statistiques mobilisées </span>:

   coefficients, tests etc., notre interprétation, interprétation de

   l’auteur (adéquat) ?

  - <span class="underline">Robustesse des résultats </span>: problèmes

   d’indicateurs (influences) ?

![](./media/image210.emf)

![](./media/image211.emf)

![](./media/image212.emf)

![](./media/image213.emf)

# Analyse multivariée : comparaison de populations

### Problématique

Un problème classique en recherche consiste à déterminer si plusieurs

populations sont significativement différentes les unes des autres. Ce

problème a déjà été abordé précédemment dans ce cours pour le cas de

deux populations (test de Student). Nous allons maintenant passer au cas

général et aborder la notion **d’analyse de variance** ou **ANOVA**.

L’objectif est de déterminer si l’appartenance à une population plutôt

qu’une autre permet d’expliquer les valeurs d’une variable quantitative.

Comme pour le test Student, le principe de base de l’ANOVA consiste à

comparer la moyenne de la variable quantitative dans les différentes

populations étudiées.

### Logique de l’ANOVA

<span class="underline">Le chercheur contrôle 1 ou plusieurs

variables :</span>

  - Appelées facteurs (parfois appelés traitements)

  - Chaque facteur contient deux modalités ou plus (i.e parfois appelés

   niveaux)

<span class="underline">Le chercheur observe l’effet sur la variable

dépendante :</span>

  - Réponses observées pour chacune des modalités

<span class="underline">Plan d’expérience :</span>

  - But : maximiser la précision en minimisant le nombre d’observations

  - Considérer un ou plusieurs facteurs pendant la constitution du

   dessin expérimental

  - Equilibré si toutes les modalités avec la même taille d’échantillon

## ANOVA à 1 facteur

Evaluer la différence parmi les moyennes de 3 ou plus populations (1

population par modalité du facteur)

Suppositions :

1.  Les populations sont normalement distribuées

2.  Les populations ont des variances égales

3.  Les échantillons sont indépendants, tirés aléatoirement

4.  La variable expliquée est quantitative

### Hypothèses : ANOVA à 1 facteur

H<sub>0</sub> : \(\mu\)<sub>1</sub> = \(\mu\)<sub>2</sub> =

\(\mu\)<sub>3</sub> = …= \(\mu\)<sub>C</sub>

  - Il y a *c* populations

  - Toutes les moyennes des c populations ont égales

  - i.e. pas d’effet de facteur (traitement)

**H<sub>1</sub> : pas toutes les moyennes sont identiques**

  - Au moins 1 moyenne est différente

  - i.e il existe un effet de facteur (traitement)


  - Il faut donc *c* échantillons correspondants aux *c* populations.

Si rejet de l’hypothèse nulle

  - Quelles populations ont des moyennes différentes ?

  - On ne sait pas \!

Il faut donc effectuer d’autres tests pour le savoir : **tests Post

Hoc **qui viennent après. Il existe au moins une population qui diffère

des autres. On va aller plus loin en voyant quelle population est

distincte des autres.

**Exemple : clubs de golf**

![](./media/image214.emf)Question : est-ce que les moyennes sont égales

entre les 3 clubs ? On a des moyennes par club et la moyenne globale.

1 : La variable quantitative qu’on aimerait expliquer ? Ici, ce sera la

distance.

2 : On a une variable dite facteur : le club de golf. Il comporte 3

modalités donc j’ai besoin de 3 échantillons pour dire des choses.

Si je veux savoir si les moyennes sont significativement différentes les

unes des autres ou au moins une, je procède par confirmer que les

moyennes sont différentes en fonction du club utilisé. On va aller vers

des notions proches de la variance.

##

## ANOVA à 1 facteur (simple)

### ![](./media/image215.emf)Décomposition de la variation

La variabilité totale est décomposée en deux parties :

![](./media/image216.emf)

### Somme des carrés totale

![](./media/image217.emf)

### Somme des carrés résiduelle

![](./media/image218.emf)

### Somme des carrés expliquées

![](./media/image219.emf)

### Test

Pour arriver à une bonne discrimination entre les populations, les deux

conditions suivantes doivent être remplies :

1.  La variance doit être grande entre les moyennes de populations :

   ![](./media/image220.emf)

2.  La variance doit être petite au sein de chaque population :

   ![](./media/image221.emf)


  - En considérant le rapport de ces deux quantités, on peut tenir

   compte simultanément des deux conditions.

Soit les carrés moyens :

![](./media/image222.emf)

La statistique de test s’écrit alors : ![](./media/image223.emf)

  - **L’hypothèse nulle est rejetée lorsque F est grand**. On a

   suffisamment d’évidences pour penser que les moyennes sont

   distinctes. Si on rejette l’hypothèse nulle, il y a au moins une

   valeur qui est différente des autres.

## Table ANOVA

Les résultats d’une ANOVA sont généralement présentés sous une forme

standardisée appelée table ANOVA :

![](./media/image224.emf)

### Hypothèses sous-jacentes à l’ANOVA

1.  Les populations sont normalement distribuées. La normalité peut être

   testée par exemple à l’aide du test :

   

   1.  Test de Kolmogorov-Smirnov

   

   2.  Test de Shapiro-Wilk

2.  Les populations ont des variances égales. L’égalité des variances

   peut être testés, par exemple à l’aide :

   

   1.  Test de Levene

   

   2.  Test de Hartley

3.  Les échantillons sont indépendants, tirés aléatoirement. Il est

   préférable mai pas obligatoire que l’échantillon issu de chaque

   population soit de même taille.

4.  La variable expliquée est quantitative.

Gold : homoscédasticité (variance homogène)

Test sur l’égalité des variances

![](./media/image225.emf)Les variables semblent être homogènes.

Golf : normalité

![](./media/image226.emf)Les données ne semblent pas provenir de

distributions normales, pour chacune des 3 populations.

![](./media/image227.emf)

Golf : ANOVA

### Tests post hoc

Lorsque l’hypothèse nulle de l’ANOVA est rejetée, nous savons qu’au

moins deux moyennes sont significativement différentes l’une de l’autre

mais l’analyse ne nous dit pas desquelles il s’agit. Il est donc

nécessaire d’effectuer des comparaisons supplémentaires entre les

populations. Pour comparer globalement 2 à 2 toutes les populations sans

que le risque de se tromper sur l’une des comparaisons ne soit trop

grand, des procédures particulières, les **tests post hoc**, existent.

Ces procédures répartissent le risque d’erreur total \(\alpha\) entre

les différentes comparaisons à effectuer.

### Test de Tukey

Le test de Tukey s’emploie lorsque nous voulons comparer 2 à 2 toutes

les populations. Pour *c* populations, il faut donc effectuer :

![](./media/image228.emf)

**Golf : Tukey**

![](./media/image229.emf)On conclut entre le club 2, le club 1 et club

3, les moyennes ne sont pas égales \!

###

###

### Test de Dunnett

Le test de **Dunnett** s’emploie lorsque l’une des populations sert de

témoin ou de contrôle et que nous voulons comparer toutes les autres

populations contre celle-ci. Pour c populations, il faut donc effectuer

*c*-1 tests de la forme :

![](./media/image230.emf)

![](./media/image231.emf)**Golf : Dunnett**

Nous utilisons le groupe « club 1 » comme groupe témoin. La moyenne du

club 1 – moyenne club 2, la différence est significative. Si on avait 5

clubs de golf, on aurait 4 comparaisons.

## Développements

### Populations définis selon plusieurs critères

Exemple : Donnée GSOEP

Des populations peuvent être définies sur la base de plusieurs facteurs.

L’ANOVA permet alors de tester simultanément l’apport de chacun de ces

facteurs, ainsi que leur éventuelle interaction. Dans ce cas, la table

ANOVA regroupe plusieurs tests. Lorsqu’un facteur est significatif et

qu’il comporte plus de deux modalités, il est toujours possible de

faire ensuite des tests post hoc.

**Santé et service civil**

![](./media/image232.emf)On peut voir que l’hypothèse nulle est rejetée

pour le genre, aussi pour le service civil. La dernière ligne, elle

signifie qu’entre les différents facteurs, il peut y avoir des

influences croisées appelées des interactions où les facteurs

interagissent entre eux. On en tient compte lorsqu’on crée le modèle. Si

on combine les deux facteurs, est-ce qu’il y a une influence ou pas ?

Ici elle n’existe pas. La p-valeur est supérieure à 0.05 et donc, on ne

rejette pas l’hypothèse nulle. Ainsi, cette p-valeur ne nous permet de

rejeter l’hypothèse nulle et genre et service civil ensemble n’ont pas

d’influence ensemble sur l’égalité des moyennes.

![](./media/image233.emf)On voit qu’il n’y a pas d’influence dans ce

graphique. Il y a du parallélisme entre les deux droites.

**DOC.3M en fonction de GENRE, HANDI et C. BLANC**

![](./media/image234.emf)

Lorsqu’on a 3 facteurs, cela commence à devenir complexe parce qu’on a

le genre, le handicap et le col blanc. On voit l’interaction des

facteurs entre eux. Au fur et à mesure qu’on rajoute des facteurs, cela

devient compliqué à gérer. On <span class="underline">évite d’avoir trop

de facteurs</span> en même sauf que le principe reste le même puisqu’on

regarde la p-valeur ; les moyennes sont-elles distinctes ou pas ?

### Analyse de données appariées

Lorsque les mêmes sujets sont observés à plusieurs reprises au fil du

temps (données appariées), l’intérêt est de savoir si une évolution est

présente entre les différents moments d’observation. Une telle analyse

est dite **facteur** **répété**. Si les sujets n’ont été observés qu’à

deux reprises, une version du test du Student peut être utilisé. Sinon,

il s’agit d’une ANOVA.

Evolution de DOC.3M entre 1984, 1988 et 1991

![](./media/image235.emf)

On fait la même chose qu’avant, on regarde la différence dans la moyenne

en prenant la p-valeur. Sauf qu’ici, on regarde aussi la comparaison

dans le temps.

### Analyse de covariance (ANCOVA)

En plus de dépendre de facteurs catégoriels, la variable numérique

étudiée peut aussi être influencée par une ou plusieurs variables

numériques (souvent appelées **covariables**). Le principe consiste

alors à supprimer l’influence de ces covariables avant d’étudier

l’influence des facteurs. En pratique, on suppose qu’il existe un lien

linéaire entre les covariables et la variable dépendante et les

covariables apparaissent comme des variables explicatives dans le

modèle. Ce modèle est une analyse de covariance (ANCOVA).

**Covariable AGE par rapport à la SANTE**

![](./media/image236.emf)

### Analyse de variance multiple (MANOVA)

Certains phénomènes difficiles à définir sont souvent représentés par la

combinaison de plusieurs variables (notion de bien-être, citoyenneté…).

L’analyse de la variance multiple (MANOVA) permet d’analyser la

répartition de sujets des groupes par rapport à plusieurs variables

numériques simultanément.