Version du 19 juin 2015 à 22:10

Introduction

Il y a plusieurs avantages à utiliser des méthodes quantitatives. Elles permettent d’agréger beaucoup d’informations sur beaucoup d’observations ainsi que de résumer et de traiter ces informations. Lorsqu’on utilise ces méthodes statistiques pour faire des inférences causales ou descriptives, il faut accepter certains postulats. Lorsque ces postulats sont respectés, l’inférence causale va être correcte. En acceptant certains postulats, on obtient des informations précises sur notre incertitude. On peut déterminer quelle est la chance de se tromper lorsqu’on fait une inférence de type causale. Ces méthodes traitent de manière très explicitent des inférences sur la qualité de l’inférence et sur son incertitude.

Les statistiques sont des méthodes qui résument quantitativement des informations et qui permettent de tirer des constats généraux. L’information brute est appelé « données » qui peuvent provenir d’expérience, de sondage ou de toutes formes d’observations systématiques. Les données organisées de manière systématique forme une banque de données dit aussi une base de données ou un fichier de données.

Les données concernant l’ensemble de la population sur laquelle porte l’étude peuvent être introuvables, onéreuses ou impossibles à recueillir. C’est pourquoi on se base sur la sélection d’un échantillon, idéalement selon une procédure de sélection aléatoire qui permet de procéder à des inférences, c’est-à-dire généraliser ce qu’on observe dans l’échantillon à l’ensemble de la population. La population mère est la population sur laquelle porte l’étude et au sein de laquelle est prélevé l’échantillon.

En général, on ne s’intéresse pas aux données pour elles-mêmes, mais à la population dont sont extraites les données. Ainsi, on cherche à inférer de la connaissance sur la population à partir de l’échantillon observé à savoir les données.

Il existe de nombreuses manières de choisir un échantillon. Plusieurs critères sont pris en considération. Les critères suivants sont en général considérés :

représentativité de la population étudiée ;
une fréquence suffisante des caractéristiques d’intérêts : si on étudie le poids des working poors au sein des travailleurs, il faut être sûr d’avoir suffisamment de ces individus dans l’échantillon ;
facilité de mise en œuvre : il est plus simple d’interroger tous les ménages d’un immeuble plutôt que d’interviewer des individus sélectionnes aléatoirement au sein d’un registre quelconque.

La taille de l’échantillon nécessite également un arbitrage. Plus un échantillon est grand et plus cela permet d’être plus précis et on obtient une erreur d'estimation acceptable, néanmoins, cela est coûteux en argent et en temps.

Idéalement, on aimerait travailler sur un échantillon aléatoire. Un échantillon sélectionné selon une procédure qui assure à chaque membre de la population une probabilité non nulle (et connue) d’être choisi. L’avantage est que l’échantillon aléatoire permet d’exploiter pleinement la théorie statistique. Les outils de la statistique inférentielle s’appuient sur le calcul des probabilités et donc sur l’existence de ces probabilités. Selon la théorie statistique, il n’est pas nécessaire d’observer tout le monde, un échantillon convenablement choisi peut fournir des résultats très proches de ceux d’une analyse de toute la population. C’est une analyse exhaustive.

Les échantillons non-aléatoire sont un choix raisonné comme par exemple on interroge les personnes qui paraissent a priori les plus intéressantes (experts d’un domaine, etc.) ou encore une liste choisie au hasard dans l’annuaire téléphonique avec un échantillon aléatoire des inscrits dans l’annuaire, mais cela exclut les personnes non inscrites. L’enquête par quotas se compose d’u échantillon sur la base des caractéristiques connues de la population-mère. Lorsqu’un quota est rempli, par exemple les jeunes âgés entre 18 et 30 ans, on ne peut plus interviewer de jeunes de cet âge. Donc ce n’est pas purement aléatoire. Ce sont des méthodes lorsqu’on utilise la statistique différentielle.

Le problème des échantillons non-aléatoires est qu’on ne sait pas mesurer la fiabilité des résultats. Si on applique quand même les outils de l’inférence statistique, on obtient des significativités non-rigoureuses. Elles ne donnent que des indications approximatives et doivent être considérées avec prudence.

L’unité d’analyse ou l’unité d’observation est l’objet, la personne ou l’évènement dont on étudie les caractéristiques. Cela peut être les individus, les pays, les cantons, les entreprises, les conflits violents, les familles, les universités, les éditoriaux ou encore les élections présidentielles. On peut par exemple fait une étude sur les journaux est analyser les éditoriaux. C’est la question de recherche et le phénomène étudié qui va définir l’unité d’analyse pertinente.

Données

Variables et niveaux de mesure

Dans Guide Pratique d'introduction à la régression en sciences sociales publié en 2009, Pétry et Gélineau définition une variable comme un regroupement logique de caractéristiques décrivant un phénomène observable empiriquement. Si la caractéristique mesurée peut prendre différentes valeurs, on dit que cette caractéristique est une variable. Cette caractéristique doit posséder au moins deux valeurs. Donc, les variables sont les attributs qui caractérisent les unités d’analyse (observations, individus, cas, etc.). Une variable est un critère par lequel on classe des observations dans des catégories comme par exemple le sexe, le niveau de formation, le pays d’origine, le type de régime politique, le PNB par habitant ou encore le revenu. Ce qui rend utile scientifiquement une variable est sa mesure.

Les variables peuvent posséder des propriétés différentes qui vont définir leur niveau de mesure. Les trois niveaux de mesure les plus courants en sciences sociales sont :

nominal : qualitative ou catégorielle ;
ordinal : qualitative ou catégorielle ;
intervalles : quantitative ou continue.

Variable nominale

Une variable nominale est classement des observations dans des catégories. Ces catégories sont mutuellement exclusives. Par exemple, on est soit un homme, soit une femme; un pays est soit une démocratie, soit une dictature. Les valeurs nominales sont des catégories sans ordre. Lorsqu’on assigne des nombres aux valeurs nominales, c’est- à-dire aux catégories d’une variable nominale, ces nombres sont arbitraires. On ne peut pas leur faire subir d’opération arithmétique.

Les variables de type catégoriel (qualitative) sont par exemple la religion, le sexe, la langue, la nationalité ou encore la région. La variable sexe est habituellement une variable dichotomique qui prend deux valeurs.

Variable ordinale

Une variable ordinale est un classement des observations dans des catégories ordonnées ou hiérarchique voire même chronologique. Les valeurs peuvent être ordonnées. On peut assigner à ces valeurs des nombres qui indiqueraient leur ordre. On ne peut pas leur faire subir d’opération arithmétique.

Une variable de type catégoriel (qualitative) est par exemple le niveau de formation, les classes d’âge, les classes de revenu, l’intérêt pour la politique, le type de régime politique (démocratique, partiellement démocratique, non démocratique). Les variables ordinales fournissent plus d’informations que les variables nominales.

Variable d’intervalle

Outre les propriétés des variables nominale et ordinale, une variable d’intervalle suppose que la distance (l’intervalle) entre les valeurs est quantifiable (les intervalles sont égaux). Un exemple est la variable « âge » qui est un x, l’intervalle entre 50 ans et 80 ans est de 30 ans. Les valeurs peuvent correspondre à une unité de mesure standard, à une métrique spécifique. Dans ce cas, le score attribué à chaque individu se réfère directement à la caractéristique mesurée par la variable. Par exemple, la variable « revenu en francs suisses » a pour unité de mesure le franc suisse; la variable « âge » a pour unité l’année; la variable « taux de participation » a pour unité le pourcentage.

Les variables d’intervalles permettent de faire des opérations arithmétiques. Ce sont des variables quantitatives, par exemple l’âge, le nombre d’années d’étude, le revenu, le PIB par habitant ou encore le taux de participation.

Variable ordinale métrique

Une variable ordinale métrique n’est pas un niveau de mesure à proprement parler. On fait l’hypothèse qu’il y a une distance équivalente entre les valeurs de la variable ordinale (les intervalles entres les valeurs sont identiques), c’est-à- dire que la variable possède les propriétés d’une variables d’intervalles.

Concernant la de variable d’auto-positionnement on peut être tenté d’utiliser une moyenne supposant que les intervalles sont égaux et que la variable sur laquelle on va calculer la moyenne est un variable d’intervalle. Il faut supposer qu’entre les intervalles, la distance entre 0 et 1 est la même qu’entre 1 et 2.

Pour déterminer si une variable est ordinale métrique, il y a plusieurs éléments dont la distribution des observations. Des mesures sont préalablement faites par les chercheurs mais parfois ce sont des mesures qui ne sont pas très bien faites.

Pour l’intérêt pour la politique,

Si la variable est ordinale :

Si la variable est ordinale métrique :

Ce schéma de classe social est bien détaillé. On pourrait essayer d’argument que la variable est ordinale mais pour cela on suppose que les grands employeurs se situent au sommet de la hiérarchie sociale jusqu’aux travailleurs non qualifiés qui sont en bas de la hiérarchie sociale.

Le niveau de mesures permet une anticipation des problèmes mais aussi opérationnalisation des concepts, le choix des techniques statistiques ainsi que le choix des coefficients d’association et des tests statistiques appropriés.

Matrices de données

Les données statistiques sont habituellement organisées comme des tableaux ou des matrices dans lesquelles :

les lignes représentent les unités d’observations (individus, pays, entreprises, conflits violents, etc.), ou unité d’analyse. L’unité d’analyse est l’objet ou la personne dont on étudie les caractéristiques ;
les colonnes représentent les variables ou les caractéristiques des unités d’observations comme par exemple le sexe, l’âge, le vote ou encore le PNB.

Les codes sont parfois directement interprétables comme par exemple l’âge, le revenu en dollars ou encore le PIB par habitant. D’autres fois, leur signification renvoient à un libellé par exemple : 1 pour les hommes et 2 pour les femmes; 1 pour les mariés, 2 pour les célibataires, 3 pour les divorcés/séparés et 4 pour les veufs. Certains codes sont spécifiques et peuvent signifier que la question ne s’applique pas, que l’interviewé a refusé de répondre, qu’il ne connaît pas la réponse, que l’information est manquante avec des codes tels que 98, 99, 999, -1, -2, -66. -77, -88, -99, - 999, - 9999. Si on ne dispose pas l’information, on ne peut pas analyser. On retrouve souvent des données manquantes par rapport à la variable/caractéristique mesurée. Ces données manquantes sont définies de manières variées.

Les informations sont la plupart du temps codés d’une manière numérique parce que les logiciels sont plus efficaces lorsqu’ils utilisent des valeurs numériques.

SPSS

SPSS est un logiciel pour le traitement et l’analyse statistique de données. Il permet de gérer de grandes bases de données (individus x variables). L’analyse statistique et le traitement informatique des données ne sont que des outils au service du chercheur

Le logiciel SPSS se compose de trois fenêtres principales :

l’éditeur des données (Data Editor) qui contient deux onglets avec la matrice des données (Data View) et le dictionnaire des variables (Variable View) ;
la fenêtre des résultats (Viewer ou Output) ;
la fenêtre de syntaxe (Syntax Editor)

Chaque fenêtre est à sauvegarder indépendamment des autres. En lignes on retrouve les observations (ici ce sont les individus interrogés) et en colonnes les variables (ici,« polintr », l’intérêt pour la politique).

En lignes sont les variables (ici la variable « polintr »), en colonnes les caractéristiques des variables (ici « values », valeurs des modalités). « Name » se réfère au nom des variables, « Type » au type de variable (numérique, caractère, date, etc.), «Label» au libellé des variables, « Values » aux valeurs et libellés, comme « Missing » aux valeurs données manquantes définies.

La fenêtre des résultats affiche les lignes de commandes qui ont produits les résultats, les résultats des analyses ainsi que les éventuels messages d’erreur.

La fenêtre « Syntax Editor » permet d’écrire directement les instructions en langage SPSS sans passer par les menus.

Outils statistiques de base

Les pourcentages

Quand les fréquences sont élevées, la comparaison est difficile. Comparer deux fréquences qui proviennent de groupes comportant un nombre de cas sensiblement différents est difficile.

En terme de fréquence, le nombre total varie fortement. Pour comparer des fréquences qui proviennent de groupes, on calcule les pourcentages. Un pourcentage est une forme de standardisation. Quel serait le nombre de fréquence si le nombre total de cas était de 100.

Il faut toujours être prudent lorsqu’on calcule des pourcentages. Les pourcentages sont assez instables. Si il y a une erreur de codage des données, le pourcentage peut varier.

Diagrammes circulaires (camemberts)

Il existe de nombreux types de variables comme les analyses univariées ou encore les analyses bivariées. Le cercle représente le nombre total d’observations, ici les pays. Les tranches peuvent représenter soit des pourcentages, soit des fréquences. Le diagramme circulaire est adapté pour les variables nominales et ordinales si il n’y a pas trop de modalités. Plus grand est le pourcentage et plus grand est le camembert.

Diagrammes à barres (ou en bâtons)

Les digrammes à barres sont adaptés pour des variables nominales et ordinales.

Les histogrammes

Les histogrammes sont adaptés pour des variables d’intervalles. Ils permettent de visualiser la forme de la distribution qui est symétrique ou non et les concentrations et discontinuités sur l’échelle. Lorsqu’on parle de forme distribution, cela signifie la manière dont est distribuée notre observation sur une échelle.

La distribution de gauche est une distribution asymétrique. Celle du milieu est parfaitement symétrique et la distribution de droite est asymétrique.

Boxplots

Les boxplots sont aussi appelés « boîtes à pattes » ou « boîtes à moustaches ». Ils sont adaptés pour des variables d’intervalles et permettent de visualiser la forme de la distribution (symétrique ou non), les concentrations et discontinuités sur l’échelle. Les boxplots sont particulièrement utilisés pour distinguer deux groupes différents.

Le premier boxplot est une distribution symétrique. Le principe du boxplot est de résumer la distribution des observations sur une variable. Il y a les pattes et les extrémités qui indiquent la valeur minimum et la valeur maximum. Le point indique la valeur de la médiane. Les bords des boites définissent le premier et le troisième quartile.

Pour déterminer si une distribution est symétrique, il faut :

regarde si le point est au centre de la boite ;
regarder si les pattes ont la même longueur ;
regarder s’il y a des valeurs atypiques : si une valeur dépasse plus de 1,5 fois la valeur de la

boite, c’est une valeur atypique. Si une valeur dépasse plus de 3 fois la valeur de la boite, c’est une valeur extraordinaire.

Lorsqu’on a un boxplot ou un histogramme, il faut regarder l’échelle. On voit la forte concentration des pays. Entre la médiane est la patte, on a la moitié des observations. Les pattes ne sont pas de la même longueur, la médiane est hors de la boite, on a beaucoup de valeurs extraordinaires.

Il faut se poser la question de savoir si la distribution est symétrique. Sur la variable âge, le boxplot permet de mettre en évidence l’individu qui a 120 ans.

Les cas déviants

Les histogrammes et surtout les boxplots permettent de déceler les cas déviants qu’on appel aussi les « outliers ». Les cas déviants, ont des cas et des observations dont la valeur est isolée et paraît anormalement enlevée ou basse. Un cas est considéré comme déviants lorsqu’il se retrouve éloigné aux extrémités d’une distribution, détachés de la plupart des autres valeurs comme par exemple le revenu très élevé d’un PDG.

Les cas déviants peuvent affecter les analyses statistiques. Il faut chercher à comprendre pourquoi ils sont déviants. Cela peut être des erreurs dans la mesure ou encore dans la compilation des données. Il est possible d’exclure les cas déviants des analyses mais seulement après avoir compris leur signification.

Mesures de tendance centrale

Une mesure de tendance centrale est une valeur typique ou représentative d’un ensemble de score. Elles résument en quelque sorte le « milieu » d’une distribution ou sa valeur « moyenne » :

mode ;
médiane ;
moyenne arithmétique.

Mode

Le mode correspond à la modalité d’une variable donnée qui contient le plus d’observations pour les variables nominales, ordinales et d’intervalles mais de peu d’intérêt pour les variables d’intervalles. Les distribution s’opère entre unimodale (graphique à gauche) et bimodale (à droite).

Médiane

Lorsque les scores sont ordonnés, la médiane est la valeur qui divise en deux parties égales un ensemble ordonné de scores pour les variables ordinales et d’intervalles car les scores doivent être ordonnés. Une variable nominale n’a pas de médiane. C’est la valeur de l’observation qui partage la distribution en deux parties contenant chacune 50 % des observations. Il faut que les scores soient ordonnés, du plus petit au plus grand. La médiane est le score qui se situe au milieu. Le score médian se calcule selon la formule Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \frac {N + 1}{2}} où $N$ représente le nombre d’observations. La médiane n’est pas affectée par les scores ou valeurs extrêmes à savoir les cas déviants. La médiane est plus robuste que la moyenne.

Dans cet exemple, il y a trois variables (une est ordinale, deux sont d’intervalles) et sept observations qui sont les individus) Le score médian se calcule comme suit : ${\frac {N+1}{2}}={\frac {7+1}{2}}=4$ , soit le quatrième score.

Moyenne

La moyenne est la somme de tous les scores divisés par le nombre de scores. La formule de la moyenne pour un échantillon est Échec de l’analyse (erreur de syntaxe): {\displaystyle \hat {𝑋} = \frac {Σx_i}{N}\times \hat {𝑋}} («x-barre») indique la moyenne d’un échantillon. La formule de la moyenne pour une population est Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜇 = \frac {Σx_i}{N}} , le symbole Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜇} (« mu ») indique la moyenne d’une population. L’indice Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑖} de Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑋_i} désigne les scores individuels. Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑋_1} est le premier score, Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑋_2} le second, etc. Échec de l’analyse (erreur de syntaxe): {\displaystyle Σ} (sigma) est utiliser pour indiquer la somme de tout ce qui suit ce caractère. Ainsi, Échec de l’analyse (erreur de syntaxe): {\displaystyle Σ𝑋_i} signifie la somme de tous les scores individuels pour des variables d’intervalles (quantitatives).

Contrairement au mode et à la médiane, la moyenne est une mesure qui incorpore la totalité des scores. Elle comporte donc plus d’informations. La moyenne est sensible aux scores extrêmes, c’est-à-dire aux scores très bas ou très élevés. Par exemple, la présence de très hauts revenus ou leur absence aura des effets sur la moyenne. Dans certains cas, la moyenne ne représente pas vraiment un score typique.

Si on supprime ces cas déviants, par exemple les très hauts revenus, la moyenne peut changer ce qui n’est pas le cas de la médiane.

Mesures de variation/dispersion

Les mesures de variation indiquent le degré de concentration ou de dispersion de la distribution d’une variable. Elles indiquent dans quelle mesure les scores sont semblables ou différents les uns des autres :

étendue ;
écart-type ;
variance.

Étendue

L’étendue est une mesure de distance entre la valeur la plus élevée et la valeur la plus basse d’une distribution. Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝐸𝑡𝑒𝑛𝑑𝑢𝑒\ = 𝑣𝑎𝑙𝑒𝑢𝑟\ 𝑚𝑎𝑥𝑖𝑚𝑢𝑚\ – 𝑣𝑎𝑙𝑒𝑢𝑟\ 𝑚𝑖𝑛𝑖𝑚𝑢𝑚} . Plus l’étendue est grande, plus la dispersion est importante. Utile pour comparer des pays ou des groupes.

Échec de l’analyse (erreur de syntaxe): {\displaystyle É𝑡𝑒𝑛𝑑𝑢𝑒\ 𝑑𝑢\ 𝑝𝑎𝑦𝑠\ 𝐴 = 78 – 3 = 75}

Échec de l’analyse (erreur de syntaxe): {\displaystyle É𝑡𝑒𝑛𝑑𝑢𝑒\ 𝑑𝑢\ 𝑝𝑎𝑦𝑠\ 𝐵 = 42 – 15 = 27}

Variance

La variance est égale à la moyenne des carrés des écarts entre chaque observation et la moyenne des observations. Pour une population, la formule est Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜎^2 = \frac {(X_i - 𝜇)^2}{N}} et pour une échantillon $S^{2}={\frac {(X_{i}-{\hat {x}})^{2}}{N-1}}$ . Plus il y a de variation plus la dispersion sera grande.

Écart-type (standard déviation)

L’écart-type est la racine carrée de la variance, c’est-à-dire de la moyenne des carrés des écarts entre chaque observation et la moyenne des observations. Pour une population la formule est Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜎 = \sqrt {𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒}} et pour un échantillon, Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑠 = \sqrt {𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒}} .

Comme la moyenne et l’étendue, la variance et l’écart-type sont sensibles aux valeurs extrêmes alors ces indicateurs sont instables et peu robustes. Plus il y a de variation entre les scores, plus la somme des carrés sera grande, et plus la variance et l’écart-type seront grands.

L’inconvénient de la variance est qu’en mettant à la puissance 2 (au carré) les écarts par rapport à la moyenne sans les remettre ensuite en base 1, elle s’exprime dans une échelle différente de celle des scores. L’avantage de l’écart-type est qu’il remet en base 1 un nombre préalablement élevé à la puissance 2 et s’exprime ainsi dans la même échelle de celle des scores. Si la variable est l’âge (donc l’unité de mesure est l’année), l’écart-type est exprimé dans la même échelle d’années que l’âge des répondants. On peut ainsi considérer l’écart-type comme l’écart.

Récapitulatif

Corrélation et régression linéaire

Corrélation et régression linéaire simple

La corrélation et régression linéaire simple permettent d’examiner la relation (l’association) entre deux variables d’intervalles (quantitatives).

L’idée est de découvrir si la position des individus (pays, entreprises, etc.) sur une variable influence leur position sur la deuxième. Parfois, on cherche à déterminer si deux variables sont associées l’une à l’autre sans se soucier de la causalité. La plupart du temps, on s’intéresse aux relations causales dans lesquelles on fait l’hypothèse qu’une variable indépendante (VI) affecte une variable dépendante (VD). La variable indépendante est la variable explicative dit aussi la cause et la variable dépendante et la variable que l’on cherche à expliquer.

On peut faire l’hypothèse que le niveau de revenu dépend du niveau de formation et que le niveau de bonheur dépend du revenu. Dans ce schéma le niveau de formation influence le niveau de revenu.

Toutes les méthodes statistiques qui vont permettre de tester une hypothèse sur un lien de causalité entre une variable indépendante et une variable dépendante ou entre plusieurs variables indépendantes et dépendantes reposent sur six questions clés concernant la relation entre deux variables :

existe-t-il une relation entre les deux variables pour les données que nous analysons ?
quelle est la force ou l’intensité de cette relation ?
quelles sont la direction et la forme de la relation ?
si une relation existe et si on travaille avec des données d’échantillon, peut-on généraliser la relation à la population de laquelle est tiré l’échantillon ?
la relation est-elle véritablement causale ? Ou n’est-elle pas plutôt une relation fallacieuse engendrée par une quelconque tierce variable ?
quelles sont les variables intermédiaires qui relient la VI et la VD ?

On s’intéresse à la relation entre le taux de fertilité et le taux d’urbanisation. Est-ce que les pays les plus urbanisés ont véritablement un taux de fertilité plus faible ? On formule l’hypothèse suivante : plus le taux d’urbanisation augmente, plus le taux de fertilité diminue. On postule une relation négative.

Les données vont permettre de tester cette hypothèse.

Un diagramme de dispersion permet de mesurer des variables dans un intervalle. Dans ce diagramme, l’Albanie a un taux de fertilité de 2,5% et urbanisé à 37,9%. L’idée est de representer l’ensemble des pays.

Ces digrammes donnent un bon aperçu entre deux variables d’intervalles. Si la relation est positive, les valeurs les plus basse de la variable intendante donc le taux de fertilité sont associées aux valeurs les plus basses et inversement. L’hypothèse est que plus le taux d’urbanisation augmente, plus le taux de fertilité diminue. La forme du nuage de points nous indique une relation négative entre les deux variables. Les points se situent sur une diagonale allant du point supérieur gauche au point inférieur droit avec des pays qui s’en écartent mais pour des raisons particulières.

Relation positive : lorsque une variable augmente, l’autre augmente.
Relation négative : lorsque qu’une variable augmente, l’autre diminue.

Le diagramme de dispersion représente chaque observation par un point dans un espace bidimensionnel. Les coordonnées de chaque point (Xi, Yi) correspondent aux valeurs obtenues par une observation (par exemple un pays) pour les variables X et Y. Ce graphique permet de visualiser la direction de la relation (positive ou négative), d’en évaluer visuellement la force (si la relation linéaire est parfaite, les points forment une droite) et d’établir un diagnostic concernant la présence de valeurs atypiques.

L’hypothèse est que plus le taux d’urbanisation augmente, plus le taux de fertilité diminue :

Tendance ? relation négative ;
Dispersion ? relative forte dispersion ;
Cas extrêmes ? il est possible de distinguer des points qui s’écartent de cette droite.

Un diagramme de dispersion est adapté lorsqu’on a peu d’informations. Il est possible de distinguer une relation entre deux variables mais dans certains cas on ne peu rien observer.

Un outil pour visualiser graphiquement la tendance est la droite de régression qui décrit beaucoup mieux la relation.

La droite de régression (droite des moindres carrés) est la droite qui résume la distribution des observations dans le diagramme comme étant linéaire.

Elle est calculée par la méthode des moindres carrés. C’est la droite qui minimise la somme des carrés des distances entre la droite et la valeur de la VD de chacune des observations. Autrement dit, c’est la droite qui minimise la distance de l’ensemble des points par rapport à elle-même. Les deux variables sont d’intervalles (quantitatives).

Les lignes verticales en vert indiquent la distance entre les pays et la droite de régression qui résume la relation urbanisation à fertilité.

Ces distances sont appelées « résidus ». Lorsqu’on trace une droite de régression, on construit un modèle. Un modèle simplifie la réalité mais on ne résume pas toute la relation. Si on met ces distances au carré, puis qu’on les additionne, la somme obtenue serait inférieure à celle de n’importe quelle autre droite qu’on pourrait tracer.

La relation entre deux variables d’intervalles peut s’écrire de la manière suivante :

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌_i = 𝑏_0 + 𝑏_1 𝑋_1 + 𝑒_i}

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌_i} = valeur observée de la VD d’une observation.

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑏_0} = constante qui indique la valeur à l’ordonnée pour une abscisse nulle (valeur de Y quand X = 0), parfois noté Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑎} .

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑏_1} = coefficient de la pente de la droite de régression.

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑋_i} = valeur observée de la VI d’une observation

i

.

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑒_i} = résidu (estimation de l’erreur) d’une observation

i

.

L’équation de la droite de régression prend la forme algébrique suivante

Échec de l’analyse (erreur de syntaxe): {\displaystyle \hat{𝑌}_i = 𝑎+ 𝑏_1 𝑋_i}

Échec de l’analyse (erreur de syntaxe): {\displaystyle \hat{𝑌}_i = 𝑏 + 𝑏_1 𝑋_i}

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌} = valeur estimée de la VD par la droite de régression.

La pente est le changement de Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌} pour chaque changement d’une unité de $X$ . Pour rappel, Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑏 = \frac {Δ Y}{Δ X}}

La valeur de la pente qu’on appelle aussi coefficient de régression indique la mesure du changement sur la VD d’un changement d’une unité de la VI. Le signe (+ ou −) du coefficient indique la direction de ce changement, c’est-à-dire le sens de la relation. Il faut connaître les unités de mesure de la VD et de la VI :

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑢𝑛𝑖𝑡é\ 𝑑𝑒\ 𝑚𝑒𝑠𝑢𝑟𝑒\ 𝑑𝑒\ 𝑙𝑎\ 𝑓𝑒𝑟𝑡𝑖𝑙𝑖𝑡é = 𝑙𝑒\ 𝑛𝑜𝑚𝑏𝑟𝑒\ 𝑚𝑜𝑦𝑒𝑛\ 𝑑’𝑒𝑛𝑓𝑎𝑛𝑡𝑠\ 𝑝𝑎𝑟\ 𝑓𝑒𝑚𝑚𝑒} ;
Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑢𝑛𝑖𝑡é\ 𝑑𝑒\ 𝑚𝑒𝑠𝑢𝑟𝑒\ 𝑑𝑒\ 𝑙’𝑢𝑟𝑏𝑎𝑛𝑖𝑠𝑎𝑡𝑖𝑜𝑛 = 𝑙𝑒\ 𝑝𝑜𝑢𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒} .

SPSS calcule la valeur de la constante et celle du coefficient de régression :

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌 = 5.79 + (−0.04)𝑋_1}

Equation de régression :

Échec de l’analyse (erreur de syntaxe): {\displaystyle \hat{𝑌} = 𝑏_0 + 𝑏_1𝑋_i}

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌 = 5.79 + (−0.04)𝑋_i}

:Interprétation de la constante : ( 𝑏! = 5.79) : lorsque le taux d’urbanisation (𝑋) est égal à 0, le taux de fertilité est de 5.79 enfants par femme.

Interprétation du coefficient de régression :

(Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑏_0 = −0.04} ) : lorsque le taux d’urbanisation (Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑋} ) augmente d’une unité, c’est-à-dire d’un point de pourcentage, le taux de fertilité diminue de 0.04 enfant par femme. Si par exemple, le taux d’urbanisation (Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑋} ) d’un pays augmente de 25 points de pourcentage, on s’attendrait à ce que les femmes aient en moyenne un enfant de moins. Une augmentation de 25 unités de la VI produirait une diminution de 1 sur la Échec de l’analyse (erreur de syntaxe): {\displaystyle VD : 25 \times −0.04 = 1} . Cela traduirait un déclin important du taux de fertilité.

Le coefficient de Pearson (Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑟} ) est un coefficient d’association qui permet d’apprécier l’intensité (la force) d’une relation. Il mesure le degré de concentration des points (observations) le long de la droite de régression. Si les points se regroupent de manière étroite le long de la droite de régression, le r sera élevé, ce qui indique une forte relation.

Le Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒓} varie de Échec de l’analyse (erreur de syntaxe): {\displaystyle −𝟏.𝟎𝟎} à Échec de l’analyse (erreur de syntaxe): {\displaystyle +𝟏.𝟎𝟎} :

quand Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒓 = −𝟏} ou Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒓 = 𝟏} , la relation est parfaite ;
quand Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒓 = 𝟎} , il n’y a pas de relation entre les deux variables.

Plus le Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑟} s’approche de Échec de l’analyse (erreur de syntaxe): {\displaystyle −1} ou de $1$ , plus la relation est forte.

Le signe indique le sens de la relation (négative ou positive). La grandeur mesure la force de la relation. À partir de quelle valeur le 𝑟 indique une forte relation ? Et une relation modérée ? Il n’y a pas de règles en la matière. Cela dépend des attentes, de ce que suggère la théorie et des résultats obtenus par d’autres chercheurs. Avec des données agrégées (par exemple les pays), le 𝑟 tend à être beaucoup plus élevé qu’avec des données individuelles (dont l’unité d’analyse est l’individu).

Le 𝒓 est une mesure symétrique d’association peu importe quelle variable est indépendante et laquelle est dépendante.

Lorsqu’on procède à une régression, cela est un modèle. Le Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑹} correspond au coefficient de corrélation de Pearson. Le coefficientÉchec de l’analyse (erreur de syntaxe): {\displaystyle 𝑹^𝟐} ( 𝑅 Square dans SPSS) indique le pouvoir explicatif du modèle, c’est-à-dire la proportion de la variation de la VD expliquée par la VI. Ce coefficient est une proportion qui varie de $0$ à 1Échec de l’analyse (erreur de syntaxe): {\displaystyle . On le traduit souvent en pourcentage : *dans cet exemple, l’urbanisation explique 36.5% de la variance du taux de fertilité ; *il s’ensuit que <math>1 – 𝑅^2} est la proportion de la variation de la VD qui n’est pas expliquée par la VI. Dans notre exemple, 63.5% de la variation dans le taux de fertilité n’est pas expliquée par le taux d’urbanisation (Échec de l’analyse (erreur de syntaxe): {\displaystyle 1 – 0.365 = 0.635} ).

Le Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑹^𝟐} ajusté (Adjusted R Square) prend en compte le nombre de VI et le nombre d'observations. Il permet de comparer le pouvoir explicatif des modèles construits sur des échantillons de taille différente et/ou avec un nombre de VI diffèrent.

L’erreur moyenne de prédiction (Std. Error of the Estimate) indique que les pays s’écartent en moyenne de 1.38 unités de la VD de la droite de régression si on utilise le pourcentage de population urbaine pour expliquer le taux de fertilité. C’est une sorte de moyenne des résidus.

Lorsque l’on procède à une régression linéaire ou à une corrélation, on postule une relation linéaire. On doit s’assurer que ce postulat soit respecté. Bien que de nombreux phénomènes sociaux, économiques et politiques se résument par une relation linaire, toutes les relations ne sont pas linéaires.

Si on a une relation non-linéaire, il est possible de transformer des données de façon à ce qu’elles soient linéaires.

Ici, on voit la relation entre taux de fertilité et PIB par habitat. Cette relation n’est pas linéaire.

Pour modéliser une relation qui n’est pas linéaire mais curvilinéaire, on prend la variable dépendante et on l’élève au carré. On voit que 𝑅! a augmenté passant de 26% à 36%.

Une autre manière est de transformer la variable indépendante en prenant le logarithme de la variable indépendance.

Sur un diagramme de dispersion, on peut parfois distinguer des valeurs extrêmes qui sont des observations qui s’écartent fortement des autres. Que doit-on faire lorsque l’on a des valeurs extrêmes ? Il faut relancer l’analyse de régression en excluant ces observations extrêmes (ou aberrantes) et voir si la pente, la constante et 𝑅! changent. Si c’est le cas, il existe deux solutions :

les exclure des analyses avec l’inconvénient de diminuer notre échantillon et de perdre de l’information ;
utiliser d’autres techniques statistiques que la régression par les moindres carrés comme la régression robuste qui est relativement insensible aux larges déviations dues à certaines observations aberrantes.

Les résidus sont l’erreur du modèle. On aimerait que les résidus soient :

non-biaisés : c’est-à-dire avec une valeur moyenne de zéro pour chaque valeur ou intervalle

de valeur de la VI ;

homoscédastique (qui signifie « même tronçon ») : la dispersion des résidus devrait être la

même pour chaque valeur de la VI. Autrement dit, la variance autour de la droite de régression est constante. Les résidus sont hétéroscédastiques s’ils ne sont pas homoscédastiques.

Sur le graphique A, les résultats sont non-biaisés et homoscédastique. Le graphique C est biaisé est homoscédastique, c’est-à-dire que l’écart des résidus est constant pour toute valeur de la variable indépendante.

L’hétéroscédasticité est l’augmentation (ou diminution) graduelle de la variance (visuellement présentée comme la distance de chaque observation par rapport à la droite de régression).

L’homoscédasticité est lorsqu’il n’y a pas de changements de la variance (les résidus ont la même variance, pas de structure de type « entonnoir »).

L’homoscédasticité des termes d’erreur (résidus), c’est-à- dire la variation constante des résidus par rapport à la droite de régression est un postulat de la régression linéaire à vérifier.

Les données agrégées sont des données obtenues en agrégeant (regroupant) des données individuelles pour une variable donnée et donc on change d’unité d’observation (pays, canton, entreprise, etc.). Il faut toujours être attentif à l’unité d’observation sur laquelle on travail.

On s’expose au risque d’erreur écologique lorsque, dans l'interprétation de données statistiques, on se fonde sur des données agrégées pour en inférer des conclusions sur des comportements individuels.

On d’intéresse à la relation entre le pourcentage d’ouvriers et le pourcentage de vote pour la gauche

D’après ces données fictives, pour Genève on a un pourcentage d’ouvrier de 33% et un taux de vote en pourcentage pour la gauche de 40%. Avec la variable indépendante qui est le pourcentage d’ouvrier qui tente d’expliquer le vote pour les partis de gauche, on conclut qu’il y a une relation très positive. Au niveau des cantons, plus le niveau de pourcentage d’ouvrier est élevé, plus le niveau de pourcentage de vote pour la gauche est élevé. Au niveau agrégé (les cantons suisses), l’analyse montre que les cantons qui ont le plus fort pourcentage d’ouvriers présente le plus fort pourcentage de vote pour la gauche. Plus le pourcentage d’ouvriers augmente, plus le pourcentage de vote pour la gauche augmente

Peut-on en conclure pour autant que les ouvriers votent davantage pour la gauche que les non ouvriers ? Non. Ce serait une conclusion erronée, une erreur écologique, car des analyses au niveau individuel montrent que les ouvriers votent moins pour la gauche que les non ouvriers et que les ouvriers votent davantage pour l’UDC que les non-ouvriers (réalignement du vote de classe). Il est possible, bien que peu probable, que tous les ouvriers aient voté pour la droite ou l’extrême droite. Et que ce sont les 67% de non ouvriers qui aient voté pour la gauche. Dans ce cas, au niveau individuel, les ouvriers votent davantage pour la droite que les non ouvriers (et même exclusivement). En d’autres termes, l’erreur a été ici de considérer que tous les individus du groupe (ici le canton) pour lequel la valeur agrégée est calculée possèdent les caractéristiques du groupe en général.

Des hypothèses formulées au niveau individuel doivent être vérifiées au niveau individuel (c’est-à-dire avec des données dont l’unité d’analyse est l’individu). Au niveau agrégé, on enregistre des moyennes qui masquent des variations « intra- ». Par exemple, les pourcentages cantonaux masquent les variations communales. Ces dernières masquent les variations dans les quartiers et celles-ci masquent les variations individuelles.

Inférence statistique

Généralement, une inférence statistique est une distribution symétrique et qui se présente sous forme de cloche. Pour être considérée comme une distribution normale, la distribution doit respecter la formule suivante :

Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑌 = \frac {e^{-(x - 𝝁)^2/2σ^2}}{σ \sqrt {2𝜋}}}

Ce qu’il faut retenir de cette formule est que les distributions normales ne dépendent que de la moyenne Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝝁} et de l’écart-type Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝝈} , les autres termes (Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑒} et Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜋} ) sont des constantes.

Il existe un nombre infini de distributions normales, une pour chaque combinaison possible d’une moyenne et d’un l’écart-type. Une distribution normale avec une moyenne de Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜇} et un écart-type de Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝝈} est noté Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑵(𝝁, 𝝈)} . Par exemple, dans un échantillon, la taille moyenne est de 172cm avec un écart-type de 17cm. Ces tailles forment une distribution normale notée Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑁(172, 17)} .

Quand la courbe passe de concave à convexe, on se situe à un écart-type de la moyenne. Même des variables qui n’ont pas une distribution normale peuvent produire des données qui sont distribuées normalement.

Lorsqu’on calcul un pourcentage ou un coefficient au sein d’un échantillon, on obtient une estimation d’un paramètre de la population.

Imaginons qu’on connaisse la moyenne du QI au sein de la population Suisse. Il y a 8 millions d’habitant et on sait que cette moyenne est égale à 100. En général on ne connait pas le paramètre de la population et on cherche à l’estimer avec des échantillons.

On tire un échantillon représentatif de 2000 personnes qui permet d’obtenir une moyenne de 70, on tire un autre échantillon et la moyenne est de 98, un troisième avec une moyenne de 130. Quand la courbe passe de concave à convexe, on se situe à un écart-type de la moyenne. Même des variables qui n’ont pas une distribution normale peuvent produire des données qui sont distribuées normalement.

Lorsqu’on calcul un pourcentage ou un coefficient au sein d’un échantillon, on obtient une estimation d’un paramètre de la population.

Il existe des milliards d’échantillon possible et chacun va représenter un propre distribution des QI est une propre moyenne des QI. De ce point de vue, un paramètre particulier de la population comme par exemple la moyenne de QI a de nombreux estimateurs possibles qui sont la moyenne de QI des échantillons qu’on pourrait tirer. Comme l’échantillon se fait de manière aléatoire, on ne peut jamais savoir comment se présentera un échantillon avant d’en avoir analysé le score.

Supposons qu’on calcul la moyenne de ces milliards d’échantillons et on en dresse la distribution. On obtiendrait une distribution d’échantillonnage et on obtiendra la valeur qu’on observe au sein de la population qui serait de 100.

La distribution d’échantillonnage est la distribution d’une statistique quelconque, comme une proportion, une moyenne, etc., de tous les échantillons possibles d’une taille donnée. La distribution d’échantillonnage de la moyenne est assez semblable à une distribution normale (quelle que soit la forme que prend, au sein de la population, la distribution de la variable) :

la moyenne de toutes les moyennes d’échantillons possibles sera identique à celle de la population ;
l’écart-type de la distribution des moyennes de tous les échantillons possibles vaudra Échec de l’analyse (erreur de syntaxe): {\displaystyle \frac {𝝈}{\sqrt {N}}} .

L’écart-type d’une distribution d’échantillonnage des moyennes de tous les échantillons d’une taille précise qu’il est possible d’extraire aléatoirement d’une population a un nom particulier est appelé l’erreur-type ou l’erreur standard.

L’erreur standard est un indicateur de la variabilité de l’estimation (moyenne, proportion, corrélation, coefficient, etc.) entre échantillons. Formellement : l’erreur standard est l’estimation de l’écart-type de l’estimateur utilisé. L’erreur standard est calculée à partir de l’échantillon. Pour un paramètre Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝜃} (qui peut être une moyenne, une proportion, une corrélation, un coefficient, etc.), on la note Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat{𝜎_𝜃}} .

Soit une moyenne Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜇} d’une population que l’on estime avec la moyenne Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} dans l’échantillon. L’erreur standard de la moyenne d’échantillon :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat {𝜎_\bar {x}} = \frac {S}{\sqrt {n - 1}}}

Par exemple, si on s’intéresse à l’âge des personnes résidant en Suisse en 2008. L’âge moyen 𝑋 des Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑛 = 1819} individus est de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 48.59} ans avec un écart-type de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 18.344} . On en déduit l’erreur standard :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat {𝜎_\bar {x}} = \frac {18.344}{\sqrt {1819 - 1}} = 0.430}

La variabilité est ici faible en raison, notamment, de la taille importante de l’échantillon. Plus l’échantillon est grand et plus l’erreur standard sera petite.

Soit une proportion 𝑝 d’une population que l’on estime avec la proportion 𝑝 dans l’échantillon. Son erreur standard est :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat {𝜎_\hat {x}} = \sqrt {\frac {\hat {p}(1 - \hat {p})}{n - 1}}}

Par exemple, la proportion de femmes résidentes en Suisse en 2008 se sentant en insécurité pendant la nuit. La proportion observée est 𝑝 = 0. 229 = 22.9% parmi les Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑛 = 963} femmes concernées. On en déduit l’erreur standard :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat {𝜎_\hat {x}} = \sqrt {\frac {0.229(1 - 0.229)}{963 - 1}} = 0.014}

Lors de l’estimation d’un paramètre (moyenne, proportion, coefficient, ...), on appelle marge d’erreur la demi-longueur de l’intervalle de confiance à 95%. C’est approximativement : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 2 \times \hat{𝜎}_{\hat{𝜃}}} à savoir 2 fois l’erreur standard.

Ainsi, 𝒆𝒔𝒕𝒊𝒎𝒂𝒕𝒊𝒐𝒏 ± 𝒎𝒂𝒓𝒈𝒆 𝒅′𝒆𝒓𝒓𝒆𝒖𝒓 définit approximativement un intervalle de confiance à 95%. Reprenons le cas de l’âge des personnes résidant en Suisse en 2008, dont la moyenne est 48.59. On a trouvé une erreur standard de 0.430. La marge d’erreur est donc de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 2 \times 0.430 = 0.86} .

L’intervalle de confiance à 95% de la moyenne μ de la population est approximativement :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜇 = 48.59 ± 0.86}

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜇 ∈ [47.73, 49.45]}

C’est une forme d’inférence descriptive ou on a inféré la population suisse avec un certain échantillon. Avec cet échantillon, on accepte de se tromper à 5%.

La proportion de femmes en insécurité est Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat{𝑝} = 0.229} = 22.9%, avec une erreur standard de 0.014. La marge d’erreur est donc Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 2 \times 0.014 = 0.028} , ce qui donne comme intervalle de confiance à 95% :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 = 22.9% ± 2.8%}

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 ∈ [20.1%, 25.7%]}

Pour les hommes en insécurité, on a : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat{𝑝} = 0. 064} = 6.4%, avec une erreur standard de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 0.009} et donc une marge d’erreur de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 0.017} :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 = 6.4% ± 1.7%}

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 ∈ [4.7%, 8.1%]}

Les intervalles ne se recoupent pas, donc la différence d’insécurité entre hommes et femmes est significative.

Un résultat statistique observé au sein d’un échantillon, comme :

différence entre une valeur observée dans l’échantillon et une valeur de référence

(qui dépend de l’hypothèse formulée) comme une moyenne d’âge inferieur à 50 ans ou un coefficient de régression différent de 0 (c’est-à-dire que la VI exerce un effet positif ou négatif) ;

différence entre deux valeurs qui est soit une différence entre proportions d’hommes et de femmes en insécurité, soit une différence de l’âge moyen entre les abstentionnistes et les votants.

Est-il statistiquement significatif, c’est-à-dire qu’il ne provient pas du hasard ou des fluctuations de l’échantillonnage ?

L’objectif d’une analyse statistique de données d’échantillon est de tirer des conclusions par rapport à la population. Il s’agit d’inférer les caractéristiques de la population à partir de l’échantillon. Des différences entre des pourcentages ou entre des moyennes au sein d’un échantillon peuvent refléter des différences réelles, c’est-à-dire des différences au sein de la population ou être dues au hasard, c’est-à-dire résulter des fluctuations d’échantillonnage (un autre échantillon pouvant donner des différences de pourcentages ou de moyennes différentes, ou même nulles).

Les tests de signification statistique permettent de déterminer la probabilité que les différences observées au sein d’un échantillon soient dues au hasard (c’est-à-dire aux fluctuations d’échantillonnage) et non à des différences réelles dans la population. On cherche à déterminer la probabilité de découvrir une relation dans notre échantillon quand il n’y en a pas dans notre population. Si cette probabilité est petite, on peut conclure qu’il existe une relation dans la population. L’usage est de considérer qu’une probabilité petite est une probabilité de 1 sur 20 ou moins, c’est-à-dire Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 < 0.05} .

Les étapes d’un test de signification appelé aussi un test d’hypothèse sont :

Formulation d’une hypothèse Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑯_𝟏} (les différences ne sont pas dues au hasard) et d’une hypothèse nulle Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑯_𝟎} (les différences sont dues au hasard). L’hypothèse Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_1} est l’hypothèse de recherche qui prévoit une relation entre deux variables ou un effet d’une variable sur une autre. L’hypothèse nulle (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} ) affirme l’absence de relation dans la population à savoir qu’« il au hasard) ». Quand on teste un coefficient de corrélation ou de régression, Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} prévoit généralement que le coefficient est égal à zéro ce qui indique une absence d’effet de la VI. Dans un test statistique, il s’agit de déterminer si on peut rejeter l’hypothèse nulle (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} ) et donc accepter l’hypothèse alternative Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_1} , tout en indiquant le risque (la probabilité d’erreur) de se tromper.
Fixer un seuil de signification (niveau de confiance) qui permet décider entre garder l’hypothèse nulle et la rejeter. Habituellement, par convention, les chercheurs en sciences sociales retiennent un seuil de0.05(5%), d’autres seuils usuels sont0.01(1%) ou0.001 (0.1%). Un résultat statistique est statistiquement significatif s’il y a très peu de chances (en général < 𝟓%) qu’il soit dû au seul hasard de l’échantillonnage. Si les chances de trouver une relation dans l’échantillon alors qu’il n’y en a pas dans la population sont supérieures à 0.05 (1 sur 20). La relation découverte au sein de l’échantillon doit peut-être son existence au hasard de l’échantillonnage. On ne peut pas rejeter 𝐻! et on dit que la relation n’est pas significative. Si les chances de trouver une relation dans l’échantillon alors qu’il n’y en a pas dans la population sont inferieures à 0.05 (1 sur 20), on peut avoir confiance dans la relation découverte au sein de l’échantillon. On rejette Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} . La relation est statistiquement significative.
Calculer le test statistique approprié à l’outil utilisé (avec un tableau croisé, on utilise le test du chi-deux, avec un tableau de moyenne le test de F, etc.) et déterminer sa probabilité d’erreur (valeur p, p-value, SPSS la note souvent Sig.). La probabilité d’erreur (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 − 𝑣𝑎𝑙𝑢𝑒} ) est la probabilité que le résultat soit dû au hasard de l’échantillonnage. L’interprétation de la 𝑝 − 𝑣𝑎𝑙𝑢𝑒 est qu’on quantifie le risque pris en affirmant « il y a une différence » si en fait 𝐻! n’est pas faux ou que c’est la probabilité d’obtenir un résultat aussi (ou plus) extrême que celui observé s’il n'y a pas de relation dans la population (si Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} est vraie). Même s’il n’y a pas de relation au sein de la population, on pourrait malgré tout, du fait des fluctuations d’échantillonnage, trouver dans certains échantillons une relation. Le Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒑 − 𝒗𝒂𝒍𝒖𝒆} indique la probabilité de trouver une relation dans un échantillon alors même qu’il n’y en a pas dans la population.
Si cette probabilité d’erreur est inferieure au seuil de signification fixé au préalable (habituellement 𝟎.𝟎𝟓), Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} sera rejetée et on dira alors que la relation entre deux variables observée à partir des données d’échantillon est statistiquement significative, c’est- à-dire qu’on peut inférer les résultats obtenus à l’ensemble de la population. La significativité sont les règles : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 − 𝑣𝑎𝑙𝑢𝑒} . Si Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑝 < 0.05} , la relation est significative et on rejette 𝐻!. Si 𝑝 > 0.05, la relation n’est pas significative et on ne peut pas rejeter Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} . Selon l’outil utilisé, une relation non significative peut indiquer une corrélation nulle, une valeur nulle du coefficient de régression, une indépendance entre deux variables, etc. Si on fixe un seuil de 0.05, il reste une probabilité de 0.05 (1 chance sur 20) que cette relation soit quand- même due au hasard.

Le test de F permet de tester la significativité statistique d’un modèle de régression, plus précisément la relation globale entre l’ensemble des variables de notre modèle (ensemble du modèle). On vérifie si le 𝑅! est significatif avec la probabilité d’erreur du test de F (Sig.).

Le test t de Student teste la significativité statistique d’un coefficient dans le cadre d’une régression linéaire (une variable à la fois). Il teste la nullité d'un coefficient de régression (𝛽). On vérifie si Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝛽} est significativement diffèrent de zéro avec la probabilité d’erreur du test t de Student. L’hypothèse nulle (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0} ) énonce que Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} n’est pas lié à 𝑌 et donc que la pente Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝛽} (coefficient de régression) est égale à zéro dans la population. L’hypothèse alternative (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_1} ), qui devrait correspondre à votre hypothèse de recherche, énonce que Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} sont statistiquement associés et que la pente Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝛽} n’est pas égale à zéro dans la population :

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_0 ∶ 𝛽 = 0}

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐻_1 ∶ 𝛽 ≠ 0}

Un résultat statistiquement significatif n’est pas nécessairement un résultat réellement significatif par rapport à la question analysée. Une relation est réellement significative, dans le sens substantiel, seulement si elle est passablement forte.

La significativité statistique dépend aussi de l’effectif sur lequel est réalisée l’analyse. Avec un Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑵} grand, une très faible relation au point d’être sans intérêt sera statistiquement significative. Avec un Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑵} petit, une forte relation ne sera pas significative.

Sur la base de 10 observations, il y a une variable indépendante et on va tester l’hypothèse qu’elle exerce un effet sur la variable dépendante. Le test de F et le test de T donne le même résultat qui est supérieur au résultat qu’on a fixé. Le Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑅^2} est de 0.25, soit 25% qui est expliqué par la variable dépendante. Il faut être attentif à la taille de l’effectif.

Introduction aux relations multivariées

Il y a six questions à soulever quand on analyse une relation :

1) Existe-t-il une relation entre les deux variables pour les données que nous analysons ?

2) Quelle est la force ou l’intensité de cette relation ?

3) Quelles sont la direction et la forme de la relation ?

4) Si une relation existe et si on travaille avec des données d’échantillon, peut- on généraliser la relation à la population de laquelle est tiré l’échantillon ?

Quand on analyse des variables d’intervalles, on utilise le diagramme de dispersion, les coefficients de régression, le Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑟} , le Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑅^2} et les tests de signification statistique.

5) La relation est-elle véritablement causale ? Ou n’est-elle pas plutôt une relation fallacieuse engendrée par une quelconque tierce variable ?

6) Quelles sont les variables intermédiaires qui relient la VI et la VD ?

Pour établir une relation causale entre deux variables, on doit introduire une ou plusieurs variables supplémentaires dans l’analyse.

Expérimentation

Analyse multivariée

Le chercheur détermine aléatoirement (au hasard) quels sujets feront partie du groupe expérimental et lesquels feront partie du groupe de contrôle.

Le groupe expérimental et le groupe de contrôle seront équivalents ou presque quant à toutes les variables qui pourraient influencer la relation entre la VI et la VD.

Plus l’effectif de sujets est important, plus le groupe expérimental et le groupe de contrôle seront parfaitement équivalents.

Une fois que la VI est introduite dans l’expérimentation, les différences que le chercheur observe dans la VD entre le groupe expérimental et le groupe de contrôle ne pourront être attribuées à une autre variable que la VI.

L’utilisation de variables de contrôle remplace l’assignation aléatoire des sujets au groupe expérimental et au groupe de contrôle.

L’introduction d’une variable de contrôle (VC) élimine l’effet de cette variable sur la relation entre la VI et la VD. L’analyse multivariée procède beaucoup plus lentement en contrôlant l’effet des autres variables à tour de rôle, ou au mieux quelques-unes à la fois.

Limites des fichiers de données en termes de variables. D’ailleurs, il se peut qu’on ne sache pas quelle est la VC appropriée.

À l’aide des théories, on essaie d’inclure autant de VC plausibles et disponibles dans notre fichier de données. On doit accepter l’impossibilité de contrôler les effets de toutes les VC possibles.

La causalité est centrale dans la démarche scientifique. Comment peut-on déterminer s’il existe une relation causale entre deux variables ?

Une relation causale est habituellement asymétrique avec une variable qui influence une autre : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋→𝑌}

Si on pense qu’une variable est la cause d’une autre, il faut que trois conditions soient remplies :

une association entre les variables Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} ;
une séquence temporelle appropriée ;
il faut éliminer les explications alternatives.

Si une des trois conditions n’est pas remplie, on ne peut pas conclure à une relation causale. Les variables Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} doivent être corrélées. Les différentes techniques d’analyse bivariée visent à vérifier cette condition de la causalité comme la régression, la corrélation, l’analyse de tableau croisé, l’analyse de variance, etc. Ces techniques permettent de déterminer si les variables 𝑋 et 𝑌 sont associées. Par exemple, un diagramme de dispersion, un coefficient de corrélation ou de régression permet d’établir un tel diagnostic d’association entre deux variables d’intervalles

La VI doit se produire avant la VD : la cause doit précéder l’effet. Parfois c’est simplement une question de logique comme par exemple l’âge ou le sexe d’une personne qui est antérieur à ses attitudes.

La direction causale peut être moins évidente. Le fait de faire du scoutisme (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑆} ) peut réduire la tendance à la délinquance Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle (𝐷): 𝑆 → 𝐷} . Il est aussi possible que les jeunes délinquants évitent le scoutisme mais non pas les non-délinquants : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐷 → 𝑆} . L’ordre temporel n’est pas clair et les deux possibilités sont plausibles car Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑆 → 𝐷} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐷 → 𝑆} .

L’ordonnancement temporel n’est pas un problème statistique, c’est un problème de l’ordre de la théorie ou de la méthode de recherche. Notre théorie peut soutenir que les variables sont ordonnées d’une manière particulière.

Si deux variables sont associées et ont une séquence temporelle satisfaisant une relation causale, c’est encore insuffisant pour signifier une causalité. Il pourrait y avoir une explication alternative pour cette association. L’association entre les variables Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} ne doit pas être due à une troisième variable Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒁} ou à un ensemble de variables additionnelles. Par exemple, il se pourrait qu’une variable Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑍} cause à la fois Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} . Dans ce cas, la relation entre Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} est fallacieuse. Une explication alternative pour une association est responsable du rejet de beaucoup d’hypothèses portant sur une relation causale. Dans des études médicales, on a trouvé une association entre la quantité de café bu et la probabilité d’avoir une attaque cardiaque. Dès le moment où on prend en compte d’autres variables associé a la quantité de café bu tel que le pays de résidence ou la profession, le niveau de stress, cette association initiale entre la quantité de café bu et la probabilité d’avoir une attaque s’est fortement affaiblie voir à même complètement disparue. Cette condition pour la causalité d’éliminer les explications alternatives est la plus difficile à atteindre.

L’association entre le fait de fumer et le cancer du poumon est considéré généralement comme ayant un lien de causalité. L’association est modérément forte, il y a une séquence temporelle (le cancer vient après avoir fumé) et aucunes explications alternatives ont été trouvées pour expliquer la relation. De plus, le lien causal a été renforcé par des théories biologiques qui expliquent comment la fumée cause un cancer du poumon. Parfois on peut entendre quelqu’un qui donne une preuve anecdotique tentant de réfuter cette relation causale comme par exemple, « mon grand-père a 90 ans, il fume deux paquets de cigarettes par jour et il est encore en très bonne santé ». Une association n’a pas besoin d’être parfaite pour être causale. Pas toutes les personnes qui fument deux paquets de cigarettes par jour auront un cancer du poumon. Un plus grand pourcentage de ces fumeurs aura un cancer que les non-fumeurs. Une preuve anecdotique n’est pas suffisante pour réfuter une relation causale sauf si elle remet en question une des trois conditions de la causalité.

En fin de compte, on ne peut jamais prouver qu’une variable est la cause d’une autre. On peut réfuter des hypothèses causales en montrant que des évidences empiriques contredisent au moins une de ces trois conditions mais on ne peut pas prouver une relation causale. On va essayer de prouver par les explications alternatives.

La composante principale pour évaluer si Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿} pourrait causer Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} est dans la recherche pour une explication alternative. On examine si l’association entre Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} reste après avoir contrôlé les effets des autres variables sur cette relation. Avec des données individuelles la classe sociale, l’éducation, le revenu, l’âge et le sexe sont des variables de contrôle souvent utilisées. Par exemple, pour contrôler par le niveau d’éducation une relation causale, on pourrait diviser l’échantillon selon les différents niveaux de formation et on regarde si à l’intérieur de chacun des niveaux de formation on observe la même relation causale.

Ce diagramme de dispersion est un exemple de contrôle par le niveau scolaire : on se pose la question de savoir si les étudiant de grande taille sont meilleur que les petits étudiants en mathématique. La corrélation pourrait être par exemple de 0,8 entre la taille des élèves et leurs notes en mathématique signifiant qu’il y a une relation positive : les grands étudiants ont des notes élevé en mathématique à l’inverse des petits étudiants.

On se pose la question de savoir si la taille influence les notes en mathématique. Une explication alternative pour cette observation est que cette échantillon comporte des étudiants d’un niveau scolaire différent et donc d’âge scolaire différent. Donc, quand le niveau scolaire augmente, la taille et le résultat en mathématique augmente étant donné que plus on monte en niveau scolaire et plus on est grand parce qu’on prend de l’âge. On peut éliminer les effets du niveau scolaire sur cette association par un contrôle statistique qui étudie la progression entre la taille et la note en mathématique pour des étudiant d’un niveau scolaire identique. À ce moment, on dit qu’on a contrôlé pour un niveau d’éducation en analysant la relation à chaque niveau scolaire séparément.

Dans ce graphique, les chiffres représentent des étudiants, on a tracé la droite de régression en bleu, on voit une relation positive bivariée initiale. Sur l’axe Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} c’est la taille, et l’axe Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} est la note en mathématique qu’on cherche à expliquer. Si on prend en compte la taille des étudiants d’un district donné, on aurait une relation positive : plus la taille augmente, plus la note en mathématique augmente. On a distingué chacun des individus selon son niveau scolaire, 2 indiquerait un bas niveau scolaire, 5 un niveau scolaire intermédiaire et 6 un plus haut niveau scalaire. Après, pour chacun de ces niveaux scolaires on a tracé un droit de régression qui sont les trois droite en rouge correspondant à la relation entre la note obtenue en mathématique et la taille des élèves. On voit que les trois droites sont plates indiquant l’absence de relation entre la note et la taille. Quand elle est plate, cela veut dire que quelque soit la taille des élèves, la note en mathématique est similaire. De ce point de vue, après avoir contrôlé la relation entre la relation initiale est la note obtenue en mathématique, on peut dire que la relation initiale est fallacieuse, la relation disparaît lorsqu’on a introduit la variable « niveau scolaire ». on pourrait remplacer la variable « niveau scolaire » par la variable « âge » et on obtiendrait exactement le même résultat.

En résumé, on contrôle par une variable en tenant ces valeurs constantes, c’est-à-dire qu’on va contrôler si la relation existe pour chaque valeur de la variable de contrôle. En tenant constant la variable de contrôle, on élimine l’influence de cette variable sur l’association $X$ et $Y$ . si la relation disparait, on a à faire à une relation causale fallacieuse. Si elle persisterait, on aurait contrôlé par le niveau scolaire et on pourrait dire qu’à ce stade, il y a une relation de causalité. On devrait contrôler par d’autres variables également et par d’autres explications alternatives. Pour chacune des droites en rouge correspondant à trois régressions, le coefficient de corrélation est de 0, il n’indique pas de relations.

Il n’est pas évident de savoir quelles variables doivent être utilisées comme des variables de contrôle (VC). La théorie et les travaux dans le domaine aident en général le chercheur à savoir quelles variables doivent être utilisées comme VC. Un potentiel piège de presque toute les recherche en sciences sociales est qu’une important variable n’a pas été inclue dans l’étude. Si on ne contrôle par cette variable qui influence fortement la relation entre Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿} et Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒀} , les résultats seront erronés. Cette variable non mesurée dans une étude ou inconnue des chercheurs mais qui influence l’association est parfois appelée variable cachée.

Il existe plusieurs types de relations multivariées qui s’observent dans la recherche en sciences sociales :

la relation fallacieuse ;
la chaîne de relations causales ;
les causes multiples : causes indépendantes ;
les causes multiples : effets directs et indirects ;
l’interaction statistique ;
la variable dissimulatrice.

relation fallacieuse

Une association entre Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿_1} et Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒀} est dite fallacieuse si les deux variables sont dépendantes d’une troisième variable Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿_𝟐} et si leur association disparaît quand on a contrôlé par Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿_𝟐} . Dans ce cas, l’hypothèse d’une relation causale entre Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿_𝟏} et Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝒀} est réfutée.

chaîne de relations causales

La relation fallacieuse n’est pas le seul type pour lequel l’association entre 𝑋! et Y disparaît lorsqu’on contrôle pour une troisième variable, 𝑋!. Un autre cas de figure est la chaîne de relation de causalité dans laquelle Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿_𝟏} affecte Échec de l’analyse (erreur de syntaxe): {\displaystyle 𝑿_𝟐} qui à son tour affecte Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} . Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} est une cause indirecte de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} , plutôt que directe et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} est une variable intermédiaire. En termes de temporalité, la variable intermédiaire 𝑿𝟐doit apparaître après Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟏} et avant Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} dans la chaîne causale.

Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1 → 𝑋_2 → 𝑌}

Par exemple, les études sur la longévité humaine montre qu’elle est associée à un niveau d’étude élevé. Certains chercheurs considèrent que l’éducation est la variable la plus importante pour expliquer la durée de vie d’une personne. Est-ce que c’est véritablement le fait d’avoir plus d’éducation qui favorise une longue vie ? À ce stade, établir une relation causale est difficile est beaucoup de chercheurs pensent qu’il y a une relation en chaine avec peut être le revenu comme variable intermédiaire. Pour de nombreuses raisons, le revenu favorise une longue vie. Dans ce schéma, le revenu joue un rôle de variable intermédiaire. Dans ce cas, l’éducation est une cause indirecte de la longue à travers le revenu et ce qu’on observe dans une chaine causale ou dans un relation fallacieuse, l’association entre Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} disparait lorsqu’on contrôle pour une troisième variable. Au niveau des tests statistiques, on obtient les mêmes résultats.

causes multiples : causes indépendantes

En sciences sociales, les VD ont presque toujours plus qu’une cause. Par exemple, un ensemble de facteurs ont probablement un effet causal sur la délinquance juvénile ou sur une vie longue. Les VI qui causent Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle Y} sont statistiquement indépendantes. Par exemple, le sexe et l’origine ethnique sont deux VI qui sont statistiquement indépendantes.

Ce schéma représente Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} qui influencent Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} .en d’autres termes, 𝑋!et 𝑋! sont des causes séparées de 𝑌 et on dit que 𝑌 à des causes multiples. Parfois les variables indépendantes qui causent 𝑌 sont statistiquement indépendantes.

Causes multiples : effets directs et indirects

En sciences sociales, la plupart des VI sont associées. En raison des liens complexes d’association, quand on contrôle par une variable Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟐} ou par un ensemble de variables Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟐} , Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟑} , ..., la relation entre Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟏} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} peut changer. Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} peut avoir un effet direct sur Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} et aussi des effets indirects à travers les autres variables. Dès lors qu’on introduit une variable indépendante, la relation initiale devrait changer. La plupart des phénomène qu’on observe en science sociale on des causes qui sont directes et indirectes.

On pourrait voir un fort effet du fait que d’être issu d’une famille monoparentale engendre de la délinquance. On introduit comme variable de contrôle la pauvreté et on verrait une diminution de la relation entre famille monoparental et délinquance mais il y a aurait toujours un effet qui persisterait.

Par exemple, ce serait le fait d’être une famille monoparentale qui favorise la pauvreté. Lorsque des couples divorces, cela créé une diminution des revenu autant chez le père que la mère mais notamment celui qui a la charge de l’enfant. Dans ce cas, provenir d’une famille monoparentale peut avoir un effet direct sur la délinquance. Mais provenir d’une famille monoparentale peut produire des effets indirects notamment être pauvre.

Interaction statistique

Quand l’effet de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟏} sur Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle Y} change aux différents niveaux de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟐} , la relation présente une interaction statistique. Quand l’effet de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle X} sur Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle Y} change pour différent niveau de la variable de contrôle, la relation présente une interaction statistique. Pour évaluer s’il y a une interaction, comparer l’effet de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} sur Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} aux différents niveaux de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} . Si l’effet est similaire à chaque niveau de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} , il n’y a pas d’interaction. L’interaction existe quand la variabilité des effets est grande.

Par exemple, la relation peut être positive à un niveau de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} et négative à un autre, ou forte à un niveau et faible ou inexistante à un autre. Quand on a à faire à une interaction, on dit que Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟐} affecte la relation entre Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑿_𝟏} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝒀} .

Par exemple, la relation entre le revenu annuel en milliers de dollars (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑌} ) et le nombre d’années d’études (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} ) selon le sexe (Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} ). Si on suppose que l’équation de régression est :

pour les hommes : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑦 = −10 + 4𝑥_1}
pour les femmes : Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑦 = −5 + 2𝑥_1}

En moyenne, le revenu pour les hommes augmente de 4000$ pour chaque année d’éducation, alors que pour les femmes, il augmente de 2000$ par année d’éducation. L’effet de l’éducation sur le revenu varie selon le sexe, avec un effet plus fort pour les hommes que pour les femmes. Il y a une interaction entre l’éducation et le sexe dans leurs effets sur le revenu. En l’absence d’un effet d’interaction entre Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} , cela ne signifie pas que Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} et Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} ne soient pas associés.

Variable dissimulatrice

Occasionnellement, deux variables peuvent n’avoir aucune relation au niveau bivarié (la relation bivariée est nulle), jusqu’à ce que l’on introduise une troisième variable qui met en exergue une relation. Dans ce cas, la variable de contrôle révèle une relation entre deux variables. Cette variable de contrôle est appelée variable dissimulatrice. Si par exemple on s’attendait à trouver une relation bivariée entre les données parce que la théorie le dit ou parce que l’expérience le suggérait, alors il faudrait peut être penser à une variable dissimulatrice.

Ces exemples ne sont pas exhaustifs. Il existe d’autres possibles structures d’association. Il est même possible qu’une relation bivariée montre une relation positive et qu’après avoir contrôlé par une variable, chaque relation aux différents niveaux de la VC présente une relation négative. Les choses sont souvent un petit peu plus nuancées et moins nettes (plus complexes) dans la réalité sociale, car elle est un réseau imbriqué de relations causales. Dans la réalité sociale, sont plus complexes.

Régression linéaire multiple

La régression linéaire multiple est un prolongement de la régression linéaire simple. Elle est une technique statistique qui cherche à modéliser l’effet de plusieurs VI (𝑋!, 𝑋!, 𝑋!, ...) sur la VD (Y). Elle permet de tester des relations causales dans lesquelles on fait l’hypothèse qu’une (ou plusieurs) VI affecte(nt) une VD.

La relation entre plusieurs variables d’intervalles peut s’écrire de la manière suivante :

𝑌!=𝑏!+𝑏!𝑋!! +𝑏!𝑋!! +𝑏!𝑋!!+𝑒!

L’équation de régression multiple prend la forme algébrique suivante :

𝑌=𝑏!+𝑏!𝑋!! +𝑏!𝑋!! +𝑏!𝑋!!

𝑌 = valeur estimée de la VD par le modèle 𝑏! = constante (valeur de 𝑌 quand 𝑋! = 𝑋! = 𝑋! = 0) 𝑏! = le coefficient de variable indépendante 𝑋! 𝑏! = le coefficient de régression pour la variable indépendante 𝑋! 𝑏! = le coefficient de régression pour la variable indépendante 𝑋!

Par exemple, on cherche à expliquer le conservatisme des individus. L’hypothèse est que le niveau individuel de conservatisme augmente avec la religiosité et l’auto-positionnement à droite, et diminue avec le niveau de formation. On peut résumer cette hypothèse sel on ce schéma théorique :

L’équation de régression du modèle est :

𝑌 = 𝑏! + 𝑏! 𝑟𝑒𝑙𝑖𝑔𝑖𝑜𝑠𝑖𝑡é + 𝑏! 𝑎𝑢𝑡𝑜𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑑𝑟𝑜𝑖𝑡𝑒 − 𝑏! 𝑛𝑖𝑣𝑒𝑎𝑢𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛

Pour tester la significativité statistique de la relation globale entre l’ensemble des variables de notre modèle, on vérifie si le 𝑹𝟐 est significatif avec la probabilité d’erreur du test de Fisher (Sig.). Dans cet exemple, il est significatif car la probabilité d’erreur est inférieure au seuil fixé par convention à 0.05 (p < 0.05). À ce stade, ce n’est pas parce que le test est significatif que toutes les variables exercent un effet significatif. Un modèle peut être significatif uniquement avec une seule variable alors qu’on a introduit trois variables. En général, dans un modèle de régression multiple ce qu’on regarde d’avantage est le test T.

La qualité du modèle est donnée par 𝑹𝟐 (puissance explicative du modèle) et l’erreur standard d'estimation (Std. Error of the Estimate) sont à interpréter de la même manière que dans une régression simple. Le 𝑹𝟐 ajusté (Adjusted R Square) est utilisé pour comparer le pouvoir explicatif de modèles construits sur des échantillons de taille différente et/ou avec un nombre de VI diffèrent. Dans une régression multiple, on ne commente pas le coefficient de corrélation 𝑟.

La colonne « Sig. » du tableau Coefficients présente les probabilités d’erreur du test t de Student pour chaque coefficient non standardisé. Une probabilité d’erreur inférieure au seuil de signification choisi indique un effet statistiquement significatif de la VI. Par convention, on fixe le seuil de signification à 0.05. Dans ce tableau, toutes les VI ont un effet significatif sur le niveau de conservatisme: 𝑝 < 0.05. on conclut que les trois variables indépendantes on un effet significatif sur le niveau de conservatisme.

Les intervalles de confiance permettent de déterminer avec un niveau de confiance de 95% la fourchette dans laquelle évoluent les coefficients non standardisés (𝐵). Si la valeur 0 est inclue dans l’intervalle de confiance, l’effet de la variable indépendante sur Y est non significatif (on ne peut pas rejeter𝐻!). Dans ce tableau, le coefficient non standardisé pour l’éducation mesurée en années varie entre −0.44 et −0.20 avec un niveau de confiance de 95%. Comme l’intervalle de confiance n’inclut pas le 𝟎, on peut rejeter 𝑯𝟎et conclure que l’éducation exerce un effet significatif et négatif sur le niveau de conservatisme.

Les coefficients non standardisés permet de réécrire l’équation avec ces coefficient. Le modèle de régression multiple peut être résumée par l’équation :

𝑌 = 𝑏! + 0.920 𝑟𝑒𝑙𝑖𝑔𝑖𝑜𝑠𝑖𝑡é + 0.964 𝑎𝑢𝑡𝑜𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑑𝑟𝑜𝑖𝑡𝑒 − 0.322 𝑛𝑖𝑣𝑒𝑎𝑢𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛

Pour une augmentation de 1 année de formation, le niveau de conservatisme diminue de 0.322 point. Pour une augmentation de 1 point sur l’échelle de religiosité, le niveau de conservatisme augmente de 0.92 point. Pour une augmentation de 1 point sur l’échelle de positionnement gauche- droite, le niveau de conservatisme augmente de 0.964 point.

Les coefficients standardisés (Beta) prennent sens dans une régression multiple. Ce sont des coefficients qu’on a standardisés. Cela permet de comparer les coefficients entre eux, les coefficients qui on une unité de mesure différente. Ainsi, ils sont utilisés pour estimer la contribution relative de chaque VI à la variable dépendante et ils permettent de comparer l’effet des VI qui n’ont pas la même unité de mesure. La VI qui a le coefficient beta avec la valeur absolue la plus élevée est le coefficient qui a le plus de poids dans l’explication du conservatisme. Dans notre modèle explicatif, la variable ayant la contribution la plus importante sur le niveau de conservatisme est le niveau de religiosité.

On peut résumer notre modèle par ce graphique. Notre hypothèse est vérifiée. Le niveau individuel de conservatisme augmente avec la religiosité et l’auto- positionnement à droite, et diminue avec le niveau de formation. Si un variable n’exerce pas d’effet significatif, il ne faut pas l’insérer dans le modèle final.

La corrélation simple (Zero-order) correspond à la corrélation entre la VI et la VD (indépendamment des autres VI). La corrélation semi-partielle (Part) représente la part de variation commune entre une VI et une VD qui n’est partagée par aucune des autres VI.

Le carré de la corrélation semi-partielle (𝑠𝑝!) représente la proportion de la variation de la VD expliquée uniquement par la VI. Il indique contribution unique de la VI au 𝑹𝟐.

Chaque cercle représente la variation d’une variable. Le cercle qui se chevauche indique qu’il y a une corrélation ou une variation commune entre les différentes variables. Par exemple, la variable eduyrs et rlgdgr ne se chevauchent pas. Si on examine les corrélations simples entre ces deux variables, elles ne sont pas liées. On a une surface et le 𝑅! indique la part de cette surface qu’on explique avec les autres variables. L’objectif est d’en expliquer un maximum.

Cette équation explique tout ce qui est expliqué par les trois variables indépendantes :

𝑅! =𝑎+𝑏+𝑐+𝑑+𝑒

𝑓 = 1 – 𝑅! (variation de ccon100 non expliquée par le modèle) Surface 𝑎 = contribution unique de eduyrs. Surface 𝑒 = contribution unique de lrscale. Surface 𝑑 = contribution unique de rlgdgr. Surface de chevauchement b = contribution conjointe/commune au 𝑅! de eduyrs et lrscale. Surface de chevauchement c = contribution conjointe/commune au 𝑅! de lrscale et rlgdgr.

Le carré de la corrélation semi-partielle pour eduyrs indique la proportion de variation de ccon100 uniquement expliquée par eduyrs.

La multicolinéarité constitue un problème dans un modèle de régression multiple. La multicolinéarité survient lorsque, dans un modèle de régression, deux ou plusieurs VI sont trop fortement corrélées entre elles. Il existe une relation linéaire parfaite ou presque parfaite entre deux ou plusieurs variables explicatives lorsque la colinéarité est très forte corrélation entre deux VI ou lorsque la multicolinéarité est très forte corrélation entre trois ou plus VI. La conséquence de la multicolinéarité est un problème d’estimation des paramètres du modèle (instabilité des coefficients estimés) et une forte variance des paramètres estimés, intervalles de confiance autour des paramètres importants, tests t de Student peu significatifs. Lorsqu’il y a de la multicolinéarité, tous les paramètres estimés peuvent être biaisés. Il faut toujours procéder à un diagnostic de multicolinéarité qui est indispensable.

Voici deux coefficients de multicolinéarité produits par SPSS. La tolérance est une coefficient qui varie de 0 à 1 est 1 correspond à l’absence de multicolinéarité. C’est l’idée que pour un variable indépendante, cela correspond à la proportion de variance non partagée avec les autres variables indépendante.

Pour une VI, proportion de la variance non-partagée avec les autres VI, 𝑒𝑑𝑢𝑦𝑟𝑠 = 0.991 correspondant à la variation spécifique de la variable eduyrs. Seul 1% (1 – 0.991 = 0.009) de la variance de eduyrs est commune avec lrscale et rlgdgr. La tolérance est ce qu’on appel le complémentaire à 1 du 𝑅! de la régression de la variable indépendante par les autres variables intendantes. L’idée est que si la tolérance est faible ou très faible, il y a un risque de multicolinéarité et une des variables intendantes est redondantes et il faut réexaminer le rôle de la variable dans le modèle.

Le facteur d’inflation de la variance (VIF) est l’inverse de la tolérance soit VIF = ! . Si le VIF est de 1 cela indique une absence de multicolinéarité.

Selon l’interprétation par la tolérance, une valeur proche de 1.0 signale l’absence de (multi)colinéarité, alors que des valeurs proches de 0.0 signalent l’existence d’un problème de (multi)colinéarité.

Selon une interprétation du facteur d’inflation de la variance (VIF), une valeur proche de 1.0 signale l’absence de (multi)colinéarité, alors que des valeurs proches de l’infini signalent l’existence d’un problème de (multi)colinéarité.

Que faire en cas de multicolinéarité ? Il est possible de supprimer les variables qui causent problème, néanmoins, il y a un problème si cela concerne une variable centrale de votre modèle. On peut combiner les variables fortement corrélées (construction d’échelle) et revoir le modèle, si aucune solution n’est satisfaisante. La réflexion théorique est importante parce que c’est elle qui va indiquer quelle variable on va introduire dans le modèle et si on obtient des seuils qui indique que deux variables peuvent présenter des problèmes potentiels de multicolinéarité, il faut faire primer la réflexion théorique.

Corrélation et régression linéaire : les droits de l’homme

Tableaux bivariés et multivariés

Tableaux croisés

Tableaux de moyennes

Tableaux croisés multivariés

Tableaux de moyennes multivariés

Tableaux croisés : les droits de l’homme

Tableaux croisés : la paix libérale

La régression logistique

La régression logistique binomiale

La régression logistique binomiale : la paix libérale

La régression logistique binomiale : les droits de l’homme

Construction d’un modèle de régression

La construction d’échelles

Introduction à la construction et d’échelles additives

L’analyse factorielle

Notes

Références

@@ Ligne 717 : / Ligne 717 : @@
 Par exemple, on cherche à expliquer le conservatisme des individus. L’hypothèse est que le niveau individuel de conservatisme augmente avec la religiosité et l’auto-positionnement à droite, et diminue avec le niveau de formation. On peut résumer cette hypothèse sel on ce schéma théorique :
+[[File:Example.jpg|thumb|center]]
 L’équation de régression du modèle est :
 :𝑌 = 𝑏! + 𝑏! 𝑟𝑒𝑙𝑖𝑔𝑖𝑜𝑠𝑖𝑡é + 𝑏! 𝑎𝑢𝑡𝑜𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑑𝑟𝑜𝑖𝑡𝑒 − 𝑏! 𝑛𝑖𝑣𝑒𝑎𝑢𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛
+[[File:Example.jpg|thumb|center]]
 Pour tester la significativité statistique de la relation globale entre l’ensemble des variables de notre modèle, on vérifie si le 𝑹𝟐 est significatif avec la probabilité d’erreur du test de Fisher (Sig.). Dans cet exemple, il est significatif car la probabilité d’erreur est inférieure au seuil fixé par convention à 0.05 (p < 0.05). À ce stade, ce n’est pas parce que le test est significatif que toutes les variables exercent un effet significatif. Un modèle peut être significatif uniquement avec une seule variable alors qu’on a introduit trois variables. En général, dans un modèle de régression multiple ce qu’on regarde d’avantage est le test T.
+[[File:Example.jpg|thumb|center]]
 La qualité du modèle est donnée par 𝑹𝟐 (puissance explicative du modèle) et l’erreur standard d'estimation (Std. Error of the Estimate) sont à interpréter de la même manière que dans une régression simple. Le 𝑹𝟐 ajusté (Adjusted R Square) est utilisé pour comparer le pouvoir explicatif de modèles construits sur des échantillons de taille différente et/ou avec un nombre de VI diffèrent. Dans une régression multiple, on ne commente pas le coefficient de corrélation 𝑟.
+[[File:Example.jpg|thumb|center]]
 La colonne « Sig. » du tableau Coefficients présente les probabilités d’erreur du test t de Student pour chaque coefficient non standardisé. Une probabilité d’erreur inférieure au seuil de signification choisi indique un effet statistiquement significatif de la VI. Par convention, on fixe le seuil de signification à 0.05. Dans ce tableau, toutes les VI ont un effet significatif sur le niveau de conservatisme: 𝑝 < 0.05. on conclut que les trois variables indépendantes on un effet significatif sur le niveau de conservatisme.
+[[File:Example.jpg|thumb|center]]
 Les intervalles de confiance permettent de déterminer avec un niveau de confiance de 95% la fourchette dans laquelle évoluent les coefficients non standardisés (𝐵). Si la valeur 0 est inclue dans l’intervalle de confiance, l’effet de la variable indépendante sur Y est non significatif (on ne peut pas rejeter𝐻!). Dans ce tableau, le coefficient non standardisé pour l’éducation mesurée en années varie entre −0.44 et −0.20 avec un niveau de confiance de 95%. Comme l’intervalle de confiance n’inclut pas le 𝟎, on peut rejeter 𝑯𝟎et conclure que l’éducation exerce un effet significatif et négatif sur le niveau de conservatisme.
+[[File:Example.jpg|thumb|center]]
 Les coefficients non standardisés permet de réécrire l’équation avec ces coefficient. Le modèle de régression multiple peut être résumée par l’équation :
@@ Ligne 733 : / Ligne 745 : @@
 Pour une augmentation de 1 année de formation, le niveau de conservatisme diminue de 0.322 point. Pour une augmentation de 1 point sur l’échelle de religiosité, le niveau de conservatisme augmente de 0.92 point. Pour une augmentation de 1 point sur l’échelle de positionnement gauche- droite, le niveau de conservatisme augmente de 0.964 point.
+[[File:Example.jpg|thumb|center]]
 Les coefficients standardisés (Beta) prennent sens dans une régression multiple. Ce sont des coefficients qu’on a standardisés. Cela permet de comparer les coefficients entre eux, les coefficients qui on une unité de mesure différente. Ainsi, ils sont utilisés pour estimer la contribution relative de chaque VI à la variable dépendante et ils permettent de comparer l’effet des VI qui n’ont pas la même unité de mesure. La VI qui a le coefficient beta avec la valeur absolue la plus élevée est le coefficient qui a le plus de poids dans l’explication du conservatisme. Dans notre modèle explicatif, la variable ayant la contribution la plus importante sur le niveau de conservatisme est le niveau de religiosité.
+[[File:Example.jpg|thumb|right]]
 On peut résumer notre modèle par ce graphique. Notre hypothèse est vérifiée. Le niveau individuel de conservatisme augmente avec la religiosité et l’auto- positionnement à droite, et diminue avec le niveau de formation. Si un variable n’exerce pas d’effet significatif, il ne faut pas l’insérer dans le modèle final.
+[[File:Example.jpg|thumb|center]]
 La corrélation simple (Zero-order) correspond à la corrélation entre la VI et la VD (indépendamment des autres VI). La corrélation semi-partielle (Part) représente la part de variation commune entre une VI et une VD qui n’est partagée par aucune des autres VI.
 Le carré de la corrélation semi-partielle (𝑠𝑝!) représente la proportion de la variation de la VD expliquée uniquement par la VI. Il indique contribution unique de la VI au 𝑹𝟐.
+[[File:Example.jpg|thumb|left]]
 Chaque cercle représente la variation d’une variable. Le cercle qui se chevauche indique qu’il y a une corrélation ou une variation commune entre les différentes variables. Par exemple, la variable eduyrs et rlgdgr ne se chevauchent pas. Si on examine les corrélations simples entre ces deux variables, elles ne sont pas liées. On a une surface et le 𝑅! indique la part de cette surface qu’on explique avec les autres variables. L’objectif est d’en expliquer un maximum.
@@ Ligne 757 : / Ligne 777 : @@
 La multicolinéarité constitue un problème dans un modèle de régression multiple. La multicolinéarité survient lorsque, dans un modèle de régression, deux ou plusieurs VI sont trop fortement corrélées entre elles. Il existe une relation linéaire parfaite ou presque parfaite entre deux ou plusieurs variables explicatives lorsque la colinéarité est très forte corrélation entre deux VI ou lorsque la multicolinéarité est très forte corrélation entre trois ou plus VI. La conséquence de la multicolinéarité est un problème d’estimation des paramètres du modèle (instabilité des coefficients estimés) et une forte variance des paramètres estimés, intervalles de confiance autour des paramètres importants, tests t de Student peu significatifs. Lorsqu’il y a de la multicolinéarité, tous les paramètres estimés peuvent être biaisés. Il faut toujours procéder à un diagnostic de multicolinéarité qui est indispensable.
+[[File:Example.jpg|thumb|center]]
 Voici deux coefficients de multicolinéarité produits par SPSS. La tolérance est une coefficient qui varie de 0 à 1 est 1 correspond à l’absence de multicolinéarité. C’est l’idée que pour un variable indépendante, cela correspond à la proportion de variance non partagée avec les autres variables indépendante.
@@ Ligne 766 : / Ligne 788 : @@
 Selon l’interprétation par la tolérance, une valeur proche de 1.0 signale l’absence de (multi)colinéarité, alors que des valeurs proches de 0.0 signalent l’existence d’un problème de (multi)colinéarité.
-elon une interprétation du facteur d’inflation de la variance (VIF), une valeur proche de 1.0 signale l’absence de (multi)colinéarité, alors que des valeurs proches de l’infini signalent l’existence d’un problème de (multi)colinéarité.
+[[File:Example.jpg|thumb|center]]
+Selon une interprétation du facteur d’inflation de la variance (VIF), une valeur proche de 1.0 signale l’absence de (multi)colinéarité, alors que des valeurs proches de l’infini signalent l’existence d’un problème de (multi)colinéarité.
+[[File:Example.jpg|thumb|center]]
 Que faire en cas de multicolinéarité ? Il est possible de supprimer les variables qui causent problème, néanmoins, il y a un problème si cela concerne une variable centrale de votre modèle. On peut combiner les variables fortement corrélées (construction d’échelle) et revoir le modèle, si aucune solution n’est satisfaisante. La réflexion théorique est importante parce que c’est elle qui va indiquer quelle variable on va introduire dans le modèle et si on obtient des seuils qui indique que deux variables peuvent présenter des problèmes potentiels de multicolinéarité, il faut faire primer la réflexion théorique.