Analyse bivariée

De Baripedia


Complexité du monde réel[modifier | modifier le wikicode]

Il est très rare qu’une variable soit totalement indépendante de son environnement. Chaque variable est probabilité liée à d’autres variables, voire même influencée par celles-ci. La statique bivariée a pour but de mettre en relation deux informations différentes afin de vérifier si elles sont ou non liées. La mise en évidence d’un tel lien peut notamment servir à faire des prédictions sur la valeur prise par une variable en fonction de celle prise par une autre. L’analyse bivariée donne aussi des informations utiles permettant ensuite de construire un modèle multivarié.

Objectifs et outils[modifier | modifier le wikicode]

Concrètement, les objectifs de l’analyse bivariée sont :

  • Déterminer si une relation existe entre deux variable d’un échantillon.
  • Si une relation existe, quantifier la force de cette relation.
  • Vérifier si la relation observée sur un échantillon est dû au hasard ou si elle est aussi valide au niveau de l’ensemble de la population considérée.

Les outils utilisés en statistique bivariée dépendent fortement du type de variables analysées :

  • 2 variables qualitatives : tables de contingence (représenter dans un tableau croisé les quantités de chacun des deux variables et leurs modalités), chi-2 (distribution de chi-2) et V de Cramer (score calculé à partir du chi-2)
  • 2 variables quantitatives : diagramme de dispersion (pour voir la forme que prennent ces deux variables), corrélation de Pearson (score calculé)
  • 2 variables ordinales : corrélation de Spearman (corrélation s’attache au rang de ces variables et à partir d’eux, on va calculer une corrélation de Spearman)
  • On peut mélanger les variables, on peut rendre une variable qualitative en une variable quantitative

Variables qualitative[modifier | modifier le wikicode]

Fréquences absolues conjointes[modifier | modifier le wikicode]

Une table de contingence est l’équivalent d’une distribution de fréquence mais pour deux variables simultanément. Il y a un croisement entre ces deux variables.

Fréquences relatives[modifier | modifier le wikicode]

Ces 4 valeurs divisées par le nombre de personnes (=3377). Le pourcentage est indiqué en bas (9.061% par exemple).

Fréquences conditionnelles par ligne[modifier | modifier le wikicode]

On fixe une modalité (genre) à homme, puis on dit des choses sur la variable travail. Donc je me situe comme si j’étais avec 1812 personnes. Quelle est la distribution variable travail sachant que les personnes que j’ai à disposition sont des hommes ? Il y aurait environ 17% d’hommes qui auraient un travail contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17% n’ont pas de travail et les autres oui. Cela revient à restreindre notre échantillon puisqu’on considère qu’une seule des deux modalités du genre. On peut aussi regarder la distribution de la variable genre (par colonne) ; je prends uniquement ceux qui n’ont pas de travail et je regarde la distribution de la variable genre.

Autre exemple : COL BLANC et DOC_4c, On a le total (3377), les répartitions (table de contingence) et ici, on analyse par ligne (=100 dans le total).

Question : en regardant ce tableau, si on a une personne issue de ce panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir la répartition des visites de médecin ou pas ? Est-ce que l’information donnée (COL BLANC) nous apporte quelque chose ? Quasi pas ! Quelle est la probabilité qu’une personne soit allée plus de deux fois chez le médecin ? 44.120% ! Si on prend une personne au hasard, quelle est la probabilité que cette personne soit allée deux fois chez le médecin ? Le calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce qu’il faut comprendre, c’est que si les deux variables col blanc et nombre de visite sont liées, a priori, le lien est extrêmement faible.

  • Ce « lien » est la dépendance ou pas.

Indépendance[modifier | modifier le wikicode]

Deux variables A et B sont indépendantes si la connaissance de la modalité prise par A n’influence pas la distribution de B et vice versa. Sur une table de contingence, cela implique que :

  • Les distributions conditionnelles par ligne sont toutes identiques
  • Les distributions conditionnelles par colonne sont toutes identiques.

Indépendance et information marginale[modifier | modifier le wikicode]

En cas d’indépendance des 2 variables, toute l’information de la table de contingence est résumée par les distributions séparées (margines) des deux variables. On peut alors reconstituer la distribution conjointe de la manière suivant :

Exemple de situation d’indépendance parfait

On a fait les totaux par ligne et par colonne, on regarde les fréquences absolues (nij) et les fréquences relatives (fij). (On divise 16/80=0.2).

Dépendance et degré d’association[modifier | modifier le wikicode]

Lorsque deux variables ne sont pas indépendantes, elles sont dépendantes. Il est utile de mesurer leur degré d’association. Plus le degré d’association est élevé, plus il devient possible d’utiliser une variable pour prédire l’autre. Sauf qu’association ≠ causalité !

Chi-2[modifier | modifier le wikicode]

Une façon d’estimer la force de la relation entre les deux variables d’un tableau croisé consiste à comparer les données observées avec la situation que l’on aurait en cas d’indépendance. La statistique du chi-2, notée K2 est définie comme :

  • Est la fréquence de la case d’indices ij sous l’hypothèse d’indépendance.

Cette statistique du chi-2 est comprise entre 0 et une certaine valeur. La valeur maximale est la taille de l’échantillon (n) x le minimum nombre de ligne -1 et le nombre de colonne -1. [[File:./media/image109.emf]]

  • Si K2 vaut zéro, nous sommes dans la situation d’indépendance.
  • Si K2 est supérieur à zéro, il y a dépendance ou association.
  • Plus K2 est grand, plus l’association est forte mais attention, K2 dépend de la taille de la table de contingence

Exemple : fréquences observées et attendues

Sur ce tableau, on voit la distribution conjointe de deux variables différentes : homme/femme et travail/pas de travail. La distribution conjointe représente la relation entre les deux variables. Ici, c’est en nombre d’individus que la table se présente. On voit que parmi les hommes, 83% ont un emploi alors que chez les femmes, seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre échantillon, les hommes occupent plus fréquemment un emploi que les femmes. Ces fréquences conditionnelles peuvent aussi être calculées par colonnes. Ce que l’on remarque alors c’est que parmi les individus n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui est des personnes occupant un emploi, seules 37% des femmes On voit, sur la base de ces tableaux, que les hommes et les femmes ne sont pas égaux face au travail. Toutefois, on ne peut pas conclure à une causalité ni spéculer sur la force de cette différence dans la population totale.

La distribution des deux variables sont parfaitement identiques : elles sont donc parfaitement indépendantes l’une de l’autre. Ainsi, il est possible de retrouver la distribution en se basant uniquement sur les totaux des lignes et des colonnes en suivant la formule (total de i x total de j)/total.

A partir du moment que l’on ne se trouve pas dans une situation d’indépendance parfaite, c’est une situation de dépendance. Toutefois, cette dépendance peut être plus au moins forte. Plus la force d’association entre deux variables est élevée, plus il devient possible de prédire l’une par rapport à l’autre. Mais attention, dépendance ne signifie pas causalité !

Normalisation du chi-2[modifier | modifier le wikicode]

La valeur maximale du chi-2 dépend de la taille de la table de contingence ainsi que de l’effectif total. Il est donc difficile d’évaluer le résultat. Une solution consiste à normaliser le résultat afin qu’il évolue entre des bornes finies et connues. La mesure de V de Cramer est définie comme :

où K2 est la statistique du chi-2, n est le nombre de données, () est le nombre de ligne et c est le nombre de colonnes.

La mesure V a pour bornes :

  • 0 signifie l’indépendance parfaite entre les variables
  • 1 signifie une association maximale
  • Le V de Cramer est facile à comparer entre des tables de dimensions différentes et comportant un nombre d’observations différent.

Test du chi-2[modifier | modifier le wikicode]

Tous les calculs précédents (chi-2 et V de Cramer) concernant l’échantillon de données utilisé. Pour déterminer s’il y a dépendance ou indépendance au niveau de la population, il faut effectuer un test d’hypothèses :

  • H0 : indépendance entre les 2 variables
  • H1 : Dépendance entre les 2 variables

Le même test permet aussi de savoir si le V de Cramer prend une valeur égale ou supérieure à zéro dans la population.

Exemple :

On considère un risque de première espèce à () = 5%.

Degrés de liberté[modifier | modifier le wikicode]

En statistique, les degrés de liberté (degrees of freedom) représentent le nombre de données ou d’éléments d’un problème qui peuvent être fixés sans contrainte, indépendamment les uns des autres.

Exemples :

  • Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi que leur moyenne, alors il y a 4 degrés de liberté car la valeur de la 5ème observation peut être retrouvée en utilisant la moyenne.
  • Pour un test d’indépendance sur une table de contingence pour () ligles et c colonnes, il y a (()-1) x (c-1) degrés de liberté car les autres éléments de la distribution d’indépendance peuvent être retrouvés en utilisant les totaux connus des lignes et des colonnes.

A retenir :

Lorsqu’on a affaire des variables de type catégorielles ou qualitatives, on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut calculer la force de dépendance via le V de Cramer et on associe un test dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et la dépendance.

Exemple : le niveau de mathématiques avec la taille des pieds (plus on a des grands pieds, plus on est bons en mathématique

Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus qu’on ne connaît pas la population. Il est possible d’avoir deux variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause de l’autre. Ainsi, il n’y a pas toujours de cause à effet ! On peut trouver des relations fortes entre deux variables mais cela ne signifie pas nécessairement qu’il y a une relation de cause à effet ! Par contre, le nombre d’années d’apprentissage pourrait être la cause d’avoir de meilleurs résultats en mathématique !

  • Même si deux variables sont fortement corrélées, il faut toujours remettre en question la cause à effet.
  • Pour connaître la dépendance, on peut faire une représentation graphique mais on utilise des tables de contingence. On regarde les valeurs conjointes entre ces deux variables. Une fois qu’on a ces valeurs conjointes, on pourra expliciter la dépendance ou l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est une valeur qui explique la différence entre la situation d’indépendance et la situation que j’ai. Si elle est égale à 0, c’est l’indépendance complète. L’autre formule est le V de Cramer qui se situe entre 0 et 1. Pour des variables qualitatives, on les compare en utilisant le V de Cramer.

Variables quantitatives[modifier | modifier le wikicode]

Diagramme de dispersion[modifier | modifier le wikicode]

Le diagramme de dispersion permet la mise en relation de deux variables numériques. La relation est-elle linéaire ?

On a deux variables numériques. La relation est-elle linéaire ? Graphiquement, on fait un diagramme de dispersion.

Intérêt des relations linéaires[modifier | modifier le wikicode]

Les relations linéaires sont simples à analyser et comprendre (proportionnalité linéaire (=immédiate) entre variable explicative et variable expliquée). Il existe de nombreux outils pour les analyser (corrélation linéaire (coefficient), régression linéaire (fonction explicative par rapport à une autre)…). En cas de non-linéarité :

  • Transformation des données (linéarisation de la relation)
  • Méthodes non-linéaires

Covariance[modifier | modifier le wikicode]

La covariance de deux variables X et Y est définie comme la moyenne des produits des écarts à la moyenne des deux variables :

C’est une différence par rapport à la moyenne et on multiplie les différences par rapport à la moyenne de l’autre valeur. La covariance peut prendre n’importe quelle valeur comprise entre - () à + (). Mais comment savoir s’il y a un lien entre les deux variables si les valeurs vont de l’infini à l’infini.

Si toutes les valeurs sont égales pour la variable X et toutes égales pour la variable Y (sans variation) ; si la covariante est égale à 0, toutes les valeurs sont proches de la moyenne et on n’a qu’une seule valeur. Par contre, avec une différence, la covariance peut prendre des valeurs négatives ou positives.

Interprétation de la covariance[modifier | modifier le wikicode]

La covariance permet de déterminer le sens de la relation entre les deux variables :

  • COV (X,Y) > 0 les variables évoluent dans le même sens. Les deux variables ont tendance à prendre simultanément des valeurs grandes ou petites.
  • COV (X,Y) < 0 les variables évoluent en sens contraire. Si une variable prend une valeur élevée, l’autre variable a tendance à prendre une petite valeur, et vice verse.
  • En l’absence de relation linéaire, la covariance vaut zéro.

Limites de la covariance[modifier | modifier le wikicode]

La covariance souffre de deux défauts :

  1. Elle dépend de l’unité de mesure des variables (avoir la même unité pour les variables)
  2. Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
  • Difficile de l’interpréter

Exemples :

Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a d’éducation, plus le revenu est élevé puisque la covariance est élevée.

Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme ça parce que les unités ne sont pas les mêmes.

Santé et visites chez le médecin : cov = -3.54. Plus le nombre de visites augmente, moins on a bon état de la santé. Ce qui est important, c’est que c’est négatif et cela est logique ; l’état de santé est moins bon.

Corrélation linéaire de Pearson[modifier | modifier le wikicode]

Le coefficient de corrélation linéaire de Pearson entre deux variables X et Y est défini comme :

où COV (X,Y) est la covariance des deux variables et Sx et Sy sont les deux écarts-types. La corrélation ne mesure qu’une association linéaire à l’exclusion de tout autre type de relation entre les deux variables.

Interprétation de la corrélation[modifier | modifier le wikicode]

Le coefficient de corrélation linéaire de Pearson mesure l’ajustement des données à une droite. Il évolue entre -1 et +1 :

On voit sur ces graphiques que la linéarité peut être plus au moins parfaite. En effet, les deux graphiques de gauche illustrent une situation de linéarité parfaite avec en haut, une pente positive et en bas, une pente négative. Le graphique en haut à droite illustre le cas où une corrélation linéaire est forte sans toutefois être parfaite, les points n’étant pas parfaitement alignés sur la même droite. Enfin, le graphique en bas à droite illustre un cas éloigné de la corrélation linéaire bien que l’on puisse identifier une tendance linéaire discrète.

R =1 : tous les points sont situés sur une droite et la relation est linéaire (=droite). Si la valeur x augmente, la valeur y augmente également.

R = 0.95 : petite variation mais je peux prédire en connaissant x avec une petite marge d’erreur.

R = -1 : si j’augmente x, y diminue.

R = 0.39 : la variabilité autour de la droite est beaucoup plus grande. La relation linéaire est ici positive (j’augmente x donc y aussi) mais c’est beaucoup moins fort.

On est capable d’indiquer une intensité linéaire mais ce n’est pas suffisant ! Par exemple, on prend un échantillon de 2 individus pour deux variables de type quantitative. Le coefficient de corrélation linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si petit échantillon, c’est difficile de déterminer la signification.

Test de la corrélation[modifier | modifier le wikicode]

Du point de vue inférentiel, la première question est de savoir s’il y a oui ou non corrélation. Les hypothèses testées sont alors les suivantes :

L’acceptation de H0 signifie une absence de relation linéaire entre les deux variables, pas l’absence totale de relation !

Exemple : éducation et revenu

Difficile de trouver une relation linéaire. Si on augmente le niveau d’éducation, il semble que le revenu augmente avec de grosses variations donc on aurait un semblant de linéarité. Si j’effectue le teste statistique, on aura des éléments. Il compare la variable « éducation » avec la variable « revenu ». L’hypothèse alternative est qu’elle est différente de 0. On obtient un coefficient de relation de 0.445. Cela signifie que c’est positif donc si l’une variable augmente, l’autre variable augmente aussi. Quelle est la force de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un peu de linéarité. De plus, a-t-on raison d’appliquer à la population ? Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse H0. Donc oui effectivement il existe une relation linéaire entre ces deux variables. La valeur du coefficient de relation qui l’exprime est de 0.445.

Exemple : âge et revenu

Les éléments du test indiquent que la valeur du coefficient de relation est très faible (0.0242) donc une faible relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.

Exemple : santé et visites chez le médecin

On constate que le coefficient de relation est égal à -0.389. La p-valeur est faible donc inférieur au seuil de 5% et dans la population, le coefficient de relation est négatif et on peut l’estimer avec le coefficient de relation. Si on augmente la valeur de l’un, je diminue l’autre.

Corrélation de variable ordinales[modifier | modifier le wikicode]

De par sa formule, la corrélation de Pearson ne concerne que les variables numériques. Il est cependant possible d’appliquer un concept similaire à des variables ordinales. On parle alors de corrélation de Spearman ou de corrélation non-paramétrique, notée () (rho). Le principe consiste à numéroter indépendamment pour chaque variable, les observations de la plus petite à la plus grande (selon l’ordre des modalités). Ces numéros sont appelés les rangs des observations. On calcule alors la corrélation entre ces deux séries de rangs.

La corrélation non-paramétrique s’interprète de la même façon que la corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y a toujours le même écart entre deux modalités successives d’une variable. Lorsque la corrélation non-paramétrique est appliquée sur des variables numériques, elle rend égaux les écarts successifs entre les valeurs réellement observées.

Exemple : santé et doc_4c

Ici, entre la santé et le nombre de visites, on a un coefficient de corrélation de Spearman égal à -0.363 où si le nombre de visites augments, la santé diminue. La p-valeur est faible et donc on a raison d’inférer où notre échantillon est significatif par rapport à la population. On n’a plus d’intervalle de confiance mais les mêmes caractéristiques sont présentes.

Causalité[modifier | modifier le wikicode]

Pour qu’il y ait causalité d’une variable A vers une variable B, les 3 conditions suivantes doivent être vérifiées :

  • A et B doivent être corrélées.
  • Il doit y avoir une relation temporelle entre A et B, à savoir que A doit avoir lieu avant B.
  • Toutes les autres raisons pouvant valablement expliquer l’influence observée de A sur B doivent avoir été écartées.

Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies que l’on peut parler d’influence causale d’une variable sur une autre !

  • Ici, le terme de corrélation doit se comprendre comme une association au sens large, linéaire ou non.

La corrélation n’implique pas la causalité[modifier | modifier le wikicode]

La corrélation n’implique pas automatiquement la causalité : ce n’est pas parce que deux variables sont fortement corrélées l’une à l‘autre que l’une est forcément la cause de l’autre. Il arrive fréquemment que deux variables soit corrélées car elles dépendant toutes deux d’une même troisième variable. Il peut aussi arriver que deux variables s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse, si la valeur prise par une variable dépend de celle d’une autre variable (causalité) alors les deux variables sont corrélées.