« Analyse bivariée » : différence entre les versions

De Baripedia
(Page créée avec « Principe Généraux On formule une hypothèse sur la population étudiée. On vérifie si l’échantillon utilisé provient bien (avec un certain degré de confiance) de… »)
 
 
(Une version intermédiaire par un autre utilisateur non affichée)
Ligne 1 : Ligne 1 :
Principe Généraux
<br />


On formule une hypothèse sur la population étudiée. On vérifie si l’échantillon utilisé provient bien (avec un certain degré de confiance) de la population étudiée. Le test statistique lui-même correspond à la règle de décision. Que tester ? :
== Complexité du monde réel ==
Il est très rare qu’une variable soit totalement indépendante de son environnement. Chaque variable est probabilité liée à d’autres variables, voire même influencée par celles-ci. La statique bivariée a pour but de mettre en relation deux informations différentes afin de vérifier si elles sont ou non liées. La mise en évidence d’un tel lien peut notamment servir à faire des prédictions sur la valeur prise par une variable en fonction de celle prise par une autre. L’analyse bivariée donne aussi des informations utiles permettant ensuite de construire un modèle multivarié.


    La valeur d’un paramètre (notamment son égalité à 0 = test de significativité)
== Objectifs et outils ==
    L’égalité de deux ou plusieurs paramètres
Concrètement, les objectifs de l’analyse bivariée sont :
    La forme de la distribution d’une ou plusieurs variables


Hypothèses nulles et alternatives
* Déterminer si une relation existe entre deux variable d’un échantillon.
* Si une relation existe, quantifier la force de cette relation.
* Vérifier si la relation observée sur un échantillon est dû au hasard ou si elle est aussi valide au niveau de l’ensemble de la population considérée.


Un test consiste à choisir entre deux hypothèses en fonction d’un échantillon :
Les outils utilisés en statistique bivariée dépendent fortement du type de variables analysées :


    L’hypothèse nulle, notée H0 est l’hypothèse de base du test, celle qui est considérée comme vraie jusqu’à preuve du contraire. (= status quo)
* 2 variables ''qualitatives'' : tables de contingence (représenter dans un tableau croisé les quantités de chacun des deux variables et leurs modalités), chi-2 (distribution de chi-2) et V de Cramer (score calculé à partir du chi-2)
    L’hypothèse alternative, notée H1, est son « contraire ». (= ce que l’on aimerait montrer)
* 2 variables ''quantitatives'' : diagramme de dispersion (pour voir la forme que prennent ces deux variables), corrélation de Pearson (score calculé)
* 2 variables ''ordinales'' : corrélation de Spearman (corrélation s’attache au rang de ces variables et à partir d’eux, on va calculer une corrélation de Spearman)
 
* On peut mélanger les variables, on peut rendre une variable qualitative en une variable quantitative
 
*
 
== Variables qualitative ==
 
=== Fréquences absolues conjointes ===
Une table de contingence est l’équivalent d’une distribution de fréquence mais pour deux variables simultanément. Il y a un croisement entre ces deux variables.
 
=== Fréquences relatives ===
Ces 4 valeurs divisées par le nombre de personnes (=3377). Le pourcentage est indiqué en bas (9.061% par exemple).
 
=== Fréquences conditionnelles par ligne ===
On fixe une modalité (genre) à homme, puis on dit des choses sur la variable travail. Donc je me situe comme si j’étais avec 1812 personnes. Quelle est la distribution variable travail sachant que les personnes que j’ai à disposition sont des hommes ? Il y aurait environ 17% d’hommes qui auraient un travail contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17% n’ont pas de travail et les autres oui. Cela revient à restreindre notre échantillon puisqu’on considère qu’une seule des deux modalités du genre. On peut aussi regarder la distribution de la variable genre (par colonne) ; je prends uniquement ceux qui n’ont pas de travail et je regarde la distribution de la variable genre.
 
Autre exemple : COL BLANC et DOC_4c, On a le total (3377), les répartitions (table de contingence) et ici, on analyse par ligne (=100 dans le total).
 
Question : en regardant ce tableau, si on a une personne issue de ce panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir la répartition des visites de médecin ou pas ? Est-ce que l’information donnée (COL BLANC) nous apporte quelque chose ? Quasi pas ! Quelle est la probabilité qu’une personne soit allée plus de deux fois chez le médecin ? 44.120% ! Si on prend une personne au hasard, quelle est la probabilité que cette personne soit allée deux fois chez le médecin ? Le calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce qu’il faut comprendre, c’est que si les deux variables col blanc et nombre de visite sont liées, a priori, le lien est extrêmement faible.
 
* Ce « lien » est la dépendance ou pas.
 
=== Indépendance ===
Deux variables A et B sont ''indépendantes'' si la connaissance de la modalité prise par A n’influence pas la distribution de B et vice versa. Sur une table de contingence, cela implique que :
 
* Les distributions conditionnelles par ligne sont toutes identiques
* Les distributions conditionnelles par colonne sont toutes identiques.
 
=== Indépendance et information marginale ===
En cas d’indépendance des 2 variables, toute l’information de la table de contingence est résumée par les distributions séparées (margines) des deux variables. On peut alors reconstituer la distribution conjointe de la manière suivant :
 
Exemple de situation d’indépendance parfait
 
On a fait les totaux par ligne et par colonne, on regarde les fréquences absolues (n<sub>ij</sub>) et les fréquences relatives (f<sub>ij</sub>). (On divise 16/80=0.2).
 
=== Dépendance et degré d’association ===
Lorsque deux variables ne sont pas indépendantes, elles sont dépendantes. Il est utile de mesurer leur degré d’association. Plus le degré d’association est élevé, plus il devient possible d’utiliser une variable pour prédire l’autre. Sauf qu’association ≠ causalité !
 
=== Chi-2 ===
Une façon d’estimer la force de la relation entre les deux variables d’un tableau croisé consiste à comparer les données observées avec la situation que l’on aurait en cas d’indépendance. La statistique du chi-2, notée K<sup>2</sup> est définie comme :
 
* Est la fréquence de la case d’indices ''ij'' sous l’hypothèse d’indépendance.
 
Cette statistique du chi-2 est comprise entre 0 et une certaine valeur. La valeur maximale est la taille de l’échantillon (n) x le minimum nombre de ligne -1 et le nombre de colonne -1. [[File:./media/image109.emf]]
 
* Si K<sup>2</sup> vaut zéro, nous sommes dans la situation d’indépendance.
* Si K<sup>2</sup> est supérieur à zéro, il y a dépendance ou association.
* Plus K<sup>2</sup> est grand, plus l’association est forte mais attention, K<sup>2</sup> dépend de la taille de la table de contingence
*
 
Exemple : fréquences observées et attendues
 
Sur ce tableau, on voit la distribution conjointe de deux variables différentes : homme/femme et travail/pas de travail. La distribution conjointe représente la relation entre les deux variables. Ici, c’est en nombre d’individus que la table se présente. On voit que parmi les hommes, 83% ont un emploi alors que chez les femmes, seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre échantillon, les hommes occupent plus fréquemment un emploi que les femmes. Ces fréquences conditionnelles peuvent aussi être calculées par colonnes. Ce que l’on remarque alors c’est que parmi les individus n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui est des personnes occupant un emploi, seules 37% des femmes On voit, sur la base de ces tableaux, que les hommes et les femmes ne sont pas égaux face au travail. Toutefois, on ne peut pas conclure à une causalité ni spéculer sur la force de cette différence dans la population totale.
 
La distribution des deux variables sont parfaitement identiques : elles sont donc parfaitement indépendantes l’une de l’autre. Ainsi, il est possible de retrouver la distribution en se basant uniquement sur les totaux des lignes et des colonnes en suivant la formule (total de i x total de j)/total.
 
A partir du moment que l’on ne se trouve pas dans une situation d’indépendance parfaite, c’est une situation de dépendance. Toutefois, cette dépendance peut être plus au moins forte. Plus la force d’association entre deux variables est élevée, plus il devient possible de prédire l’une par rapport à l’autre. Mais attention, dépendance ne signifie pas causalité !
 
=== Normalisation du chi-2 ===
La valeur maximale du chi-2 dépend de la taille de la table de contingence ainsi que de l’effectif total. Il est donc difficile d’évaluer le résultat. Une solution consiste à normaliser le résultat afin qu’il évolue entre des bornes finies et connues. La mesure de V de Cramer est définie comme :
 
où K<sup>2</sup> est la statistique du chi-2, ''n'' est le nombre de données, () est le nombre de ligne et ''c'' est le nombre de colonnes.
 
La mesure V a pour bornes :
 
* 0 signifie l’indépendance parfaite entre les variables
* 1 signifie une association maximale
* Le V de Cramer est facile à comparer entre des tables de dimensions différentes et comportant un nombre d’observations différent.
 
=== Test du chi-2 ===
Tous les calculs précédents (chi-2 et V de Cramer) concernant l’échantillon de données utilisé. Pour déterminer s’il y a dépendance ou indépendance au niveau de la population, il faut effectuer un test d’hypothèses :
 
* H<sub>0</sub> : indépendance entre les 2 variables
* H<sub>1</sub> : Dépendance entre les 2 variables
 
Le même test permet aussi de savoir si le V de Cramer prend une valeur égale ou supérieure à zéro dans la population.


Exemple :
Exemple :


H0 est rejetée dès lors que la valeur de la statistique de test observée dans l’échantillon est trop différente de la valeur théorique postulée sous H0 pour la population. Grâce au calcul, on veut savoir si c’est plausible d’avoir H0.
On considère un risque de première espèce à () = 5%.
 
=== Degrés de liberté ===
En statistique, les degrés de liberté (''degrees of freedom'') représentent le nombre de données ou d’éléments d’un problème qui peuvent être fixés sans contrainte, indépendamment les uns des autres.
 
Exemples :
 
* Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi que leur moyenne, alors il y a 4 degrés de liberté car la valeur de la 5<sup>ème</sup> observation peut être retrouvée en utilisant la moyenne.
* Pour un test d’indépendance sur une table de contingence pour () ligles et c colonnes, il y a (()-1) x (c-1) degrés de liberté car les autres éléments de la distribution d’indépendance peuvent être retrouvés en utilisant les totaux connus des lignes et des colonnes.
 
'''A retenir''' :
 
Lorsqu’on a affaire des variables de type catégorielles ou qualitatives, on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut calculer la force de dépendance via le V de Cramer et on associe un test dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et la dépendance.
 
Exemple : le niveau de mathématiques avec la taille des pieds (plus on a des grands pieds, plus on est bons en mathématique
 
Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus qu’on ne connaît pas la population. Il est possible d’avoir deux variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause de l’autre. Ainsi, il n’y a pas toujours de cause à effet ! On peut trouver des relations fortes entre deux variables mais cela ne signifie pas nécessairement qu’il y a une relation de cause à effet ! Par contre, le nombre d’années d’apprentissage pourrait être la cause d’avoir de meilleurs résultats en mathématique !
 
* Même si deux variables sont fortement corrélées, il faut toujours remettre en question la cause à effet.
* Pour connaître la dépendance, on peut faire une représentation graphique mais on utilise des tables de contingence. On regarde les valeurs conjointes entre ces deux variables. Une fois qu’on a ces valeurs conjointes, on pourra expliciter la dépendance ou l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est une valeur qui explique la différence entre la situation d’indépendance et la situation que j’ai. Si elle est égale à 0, c’est l’indépendance complète. L’autre formule est le V de Cramer qui se situe entre 0 et 1. Pour des variables qualitatives, on les compare en utilisant le V de Cramer.
 
== Variables quantitatives ==
 
=== Diagramme de dispersion ===
Le diagramme de dispersion permet la mise en relation de deux variables numériques. La relation est-elle linéaire ?
 
On a deux variables numériques. La relation est-elle linéaire ? Graphiquement, on fait un diagramme de dispersion.
 
=== Intérêt des relations linéaires ===
Les relations linéaires sont simples à analyser et comprendre (proportionnalité linéaire (=immédiate) entre variable explicative et variable expliquée). Il existe de nombreux outils pour les analyser (corrélation linéaire (coefficient), régression linéaire (fonction explicative par rapport à une autre)…). En cas de non-linéarité :
 
* Transformation des données (linéarisation de la relation)
* Méthodes non-linéaires
 
=== Covariance ===
La covariance de deux variables X et Y est définie comme la moyenne des produits des écarts à la moyenne des deux variables :
 
C’est une différence par rapport à la moyenne et on multiplie les différences par rapport à la moyenne de l’autre valeur. La covariance peut prendre n’importe quelle valeur comprise entre - () à + (). Mais comment savoir s’il y a un lien entre les deux variables si les valeurs vont de l’infini à l’infini.
 
Si toutes les valeurs sont égales pour la variable X et toutes égales pour la variable Y (sans variation) ; si la covariante est égale à 0, toutes les valeurs sont proches de la moyenne et on n’a qu’une seule valeur. Par contre, avec une différence, la covariance peut prendre des valeurs négatives ou positives.
 
=== Interprétation de la covariance ===
La covariance permet de déterminer le sens de la relation entre les deux variables :
 
* COV (X,Y) > 0 les variables évoluent dans le même sens. Les deux variables ont tendance à prendre simultanément des valeurs grandes ou petites.
* COV (X,Y) < 0 les variables évoluent en sens contraire. Si une variable prend une valeur élevée, l’autre variable a tendance à prendre une petite valeur, et vice verse.
* En l’absence de relation linéaire, la covariance vaut zéro.
 
=== Limites de la covariance ===
La covariance souffre de deux défauts :
 
# Elle dépend de l’unité de mesure des variables (avoir la même unité pour les variables)
# Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
 
* Difficile de l’interpréter


L’hypothèse nulle porte généralement sur une seule valeur ou sur une égalité entre paramètres. On parle d’hypothèse simple :
Exemples :


L’hypothèse alternative regroupe généralement un très grand nombre de situations différentes. C’est une hypothèse composite avec 3 variantes :
Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a d’éducation, plus le revenu est élevé puisque la covariance est élevée.


Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme ça parce que les unités ne sont pas les mêmes.


Exemple : au tribunal
Santé et visites chez le médecin : cov = -3.54. Plus le nombre de visites augmente, moins on a bon état de la santé. Ce qui est important, c’est que c’est négatif et cela est logique ; l’état de santé est moins bon.


== Corrélation linéaire de Pearson ==
Le coefficient de corrélation linéaire de Pearson entre deux variables X et Y est défini comme :


Une personne est jugée. Les hypothèses suivantes sont formulées :
où COV (X,Y) est la covariance des deux variables et S<sub>x</sub> et S<sub>y</sub> sont les deux écarts-types. La corrélation ne mesure qu’une association '''linéaire''' à l’exclusion de tout autre type de relation entre les deux variables.


    P (condamner un innocent) = () Erreur de type I
=== Interprétation de la corrélation ===
    P (acquitter un coupable) = () Erreur de type II
Le coefficient de corrélation linéaire de Pearson mesure l’ajustement des données à une droite. Il évolue entre -1 et +1 :


Ne pas condamner un innocent est prioritaire par rapport à acquitter un coupable !
On voit sur ces graphiques que la linéarité peut être plus au moins parfaite. En effet, les deux graphiques de gauche illustrent une situation de linéarité parfaite avec en haut, une pente positive et en bas, une pente négative. Le graphique en haut à droite illustre le cas où une corrélation linéaire est forte sans toutefois être parfaite, les points n’étant pas parfaitement alignés sur la même droite. Enfin, le graphique en bas à droite illustre un cas éloigné de la corrélation linéaire bien que l’on puisse identifier une tendance linéaire discrète.
Risques, puissance


() = Erreur de première espèce (type I) => risque de rejeter faussement H0
R =1 : tous les points sont situés sur une droite et la relation est linéaire (=droite). Si la valeur x augmente, la valeur y augmente également.


() = Erreur de deuxième espèce (type II) => risque de rejeter faussement H1
R = 0.95 : petite variation mais je peux prédire en connaissant x avec une petite marge d’erreur.


1 – () = puissance du test (probabilité de ne pas se tromper en rejetant H0 )
R = -1 : si j’augmente x, y diminue.
Risque d'erreurs


    Risque ():
R = 0.39 : la variabilité autour de la droite est beaucoup plus grande. La relation linéaire est ici positive (j’augmente x donc y aussi) mais c’est beaucoup moins fort.
        Spécifié par le chercheur avant d’effectuer le test
        Fixé généralement à 5%.
    Risque () :
        N’est pas choisi librement mais dépend des autres éléments de l’analyse (risque (,) taille de l’échantillon, écart entre les 2 hypothèses du test…)
        Plutôt que (), on considère souvent la notion de puissance du test, à savoir la probabilité d’accepter (lorsqu’elle doit l’être) l’hypothèse alternative H1 : 1 – () = P(accepter H1 / H1 vraie)


    Risque de première et de deuxième espèce sont liés puisque si j’augmente un, je diminue l’autre et vice versa
On est capable d’indiquer une intensité linéaire mais ce n’est pas suffisant ! Par exemple, on prend un échantillon de 2 individus pour deux variables de type quantitative. Le coefficient de corrélation linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si petit échantillon, c’est difficile de déterminer la signification.


Exemple d’un test unilatéral à droite :
=== Test de la corrélation ===
Du point de vue inférentiel, la première question est de savoir s’il y a oui ou non corrélation. Les hypothèses testées sont alors les suivantes :


Situations problématiques :
L’acceptation de H<sub>0</sub> signifie '''une absence de relation linéaire entre les deux variables''', pas l’absence totale de relation !


() est trop petit -> () est grand
Exemple : éducation et revenu


H1 peut différent de H0 -> () est grand
Difficile de trouver une relation linéaire. Si on augmente le niveau d’éducation, il semble que le revenu augmente avec de grosses variations donc on aurait un semblant de linéarité. Si j’effectue le teste statistique, on aura des éléments. Il compare la variable « éducation » avec la variable « revenu ». L’hypothèse alternative est qu’elle est différente de 0. On obtient un coefficient de relation de 0.445. Cela signifie que c’est positif donc si l’une variable augmente, l’autre variable augmente aussi. Quelle est la force de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un peu de linéarité. De plus, a-t-on raison d’appliquer à la population ? Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse H<sub>0</sub>. Donc oui effectivement il existe une relation linéaire entre ces deux variables. La valeur du coefficient de relation qui l’exprime est de 0.445.


Sur ce graphique, on peut observer deux lois normales, chacune correspondant à une hypothèse. A gauche, on a la distribution de H0 (notre hypothèse nulle) si elle est vraie. A droite, on a la distribution H1 si c’est l’hypothèse alternative qui est vraie. Ces deux intervalles découpent l’ensemble des possibles en matière de moyenne en deux zones, celle proche de H0 et celle proche de H1. « r » représente la zone de rejet, c’est-à-dire que selon où on se situe par rapport à elle, on acceptera l’une ou l’autre des hypothèses. Ainsi, la surface de la zone orange représente la probabilité de rejeter faussement l’hypothèse nulle alors que la surface de la zone verte représente le risque de rejeter faussement l’hypothèse alternative.
Exemple : âge et revenu


Si on souhaite non pas avoir un alpha à 5% comme généralement accepté, mais un alpha à 1%, la courbe se déplacera sur la droite si bien que c’est bêta qui deviendra plus grand. Cela correspond à rapprocher notre hypothèse nulle de notre hypothèse alternative faisant par la même grandir bêta. De plus, comme nous l’avons vu, deux hypothèses proches sont difficilement distinguables pour le test d’hypothèse ! La seule solution pour réduire le risque alpha et bêta, c’est d’augmenter la taille de l’échantillon. Ainsi, c’est au terme d’une réflexion préalable que l’on peut voir si l’étude projetée en vaut la peine et sous quelles conditions.
Les éléments du test indiquent que la valeur du coefficient de relation est très faible (0.0242) donc une faible relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.
P- valeur et son utilisation


La p-valeur ( ou degré de signification), notée p, est la probabilité d’avoir observé l’échantillon utilisé sachant que l’hypothèse nulle H0 est vraie. La p-valeur s’interprète aussi comme la probabilité d’obtenir à partir d’un autre échantillon tiré de la même population une valeur du paramètre testé plus extrême (plus éloignée de H0) que la valeur réellement observée.
Exemple : santé et visites chez le médecin


Après avoir fixé le niveau du risque de première espèce, alpha, le résultat du test s’obtient à l’aide de la règle de décision suivant :
On constate que le coefficient de relation est égal à -0.389. La p-valeur est faible donc inférieur au seuil de 5% et dans la population, le coefficient de relation est négatif et on peut l’estimer avec le coefficient de relation. Si on augmente la valeur de l’un, je diminue l’autre.


Pour un test unilatéral à droite, la situation décrite par le graphique suivant conduit au rejet de H0, car la p-valeur (zone hachurée verticalement) est plus petite que le risque alpha (zone hachurée horizontalement)
== Corrélation de variable ordinales ==
De par sa formule, la corrélation de Pearson ne concerne que les variables numériques. Il est cependant possible d’appliquer un concept similaire à des variables ordinales. On parle alors de '''corrélation de Spearman''' ou de '''corrélation non-paramétrique''', notée () (rho). Le principe consiste à numéroter indépendamment pour chaque variable, les observations de la plus petite à la plus grande (selon l’ordre des modalités). Ces numéros sont appelés les '''rangs''' des observations. On calcule alors la corrélation entre ces deux séries de rangs.


La corrélation non-paramétrique s’interprète de la même façon que la corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y a toujours le même écart entre deux modalités successives d’une variable. Lorsque la corrélation non-paramétrique est appliquée sur des variables numériques, elle rend égaux les écarts successifs entre les valeurs réellement observées.


Sur ce schéma, on voit que la p-valeur représente la probabilité d’être à droite de Z0. Ainsi, si le test prouve, pour la p-valeur, une valeur supérieure à la zone de rejet, la p-valeur sera plus petite qu’alpha et H0 sera affirmer. Mais comme on voit sur le graphique, la p-valeur est plus petite qu’alpha si bien qu’H0 est rejetée.
Exemple : santé et doc_4c


    Pour conclure par rapport à un test statistique, on observe la p-valeur, si elle supérieure au risque alpha, le status quo demeure (H0). Par contre on rejette H0 si p est inférieure ou égale à alpha. Si p est supérieure à alpha, on accepte H0 parce que la probabilité est supérieure à 0.05.
Ici, entre la santé et le nombre de visites, on a un coefficient de corrélation de Spearman égal à -0.363 où si le nombre de visites augments, la santé diminue. La p-valeur est faible et donc on a raison d’inférer où notre échantillon est significatif par rapport à la population. On n’a plus d’intervalle de confiance mais les mêmes caractéristiques sont présentes.


Exemple : le niveau d’activité physique
=== Causalité ===
Pour qu’il y ait causalité d’une variable A vers une variable B, les 3 conditions suivantes doivent être vérifiées :


    Hypothèse nulle : H0 : () = 2.5
* A et B doivent être corrélées.
    Hypothèse alternative : H1 : () ≠ 2.5
* Il doit y avoir une relation temporelle entre A et B, à savoir que A doit avoir lieu avant B.
    Le risque () est fixé à 5%.
* Toutes les autres raisons pouvant valablement expliquer l’influence observée de A sur B doivent avoir été écartées.


Ces données sont rentrées dans R. On voit que la p-valeur est égale à 0.151 donc 15.1% ! Ce résultat est plus grand qu’() (5%) si bien que l’on se trouve dans la zone d’acceptation de l’hypothèse nulle H0. On peut donc continuer de dire qu’en moyenne, les jeunes de moins de 18 ans pratiquent une activité physique 2.5 jours par semaine. Cet histogramme représente l’activité physique de l’échantillon sur la dernière semaine. De cette manière, on voit que l’on est éloigné d’une loi normale puisque la répartition ne se fait pas de manière symétrique autour d’un axe unique.
Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies que l’on peut parler '''d’influence causale''' d’une variable sur une autre !
Conslusion


Statistiquement, il y a suffisamment d’évidences pour rejeter H0 mais on ne va jamais dire qu’on l’accepte. Avec l’exemple de la machine à sou, on va dire que si on joue 100 fois et qu’on perd à chaque fois, on va dire qu’on va rejeter l’hypothèse H0. De ce fait, on arrive à un rejet de l’hypothèse nulle. A chaque fois, on essaie de montrer une relation et de ce fait, on aimerait avoir suffisamment d’évidences pour montrer quelque chose qui se trouve dans l’hypothèse alternative. Les raisons pour ne pas rejeter l’hypothèse nulle sont multiples : elle peut être vraie, l’échantillon n’est pas assez grand…. Dans ces tests, on a l’hypothèse nulle (=status quo) et l’hypothèse alternative (ce qu’on veut montrer). Pour conclure un test, il y a une règle : avant d’effectuer le test, on se fixe une marge d’erreur (=erreur de première espèce notée alpha qui se trouve avec une probabilité à 5%) puis là, on peut faire le test. Le test nous donne pleins d’indications mais entre autres, la p-valeur qui est une probabilité comprise en 0 et 1. Puis on compare cette probabilité à notre seuil critique qui est alpha. Si c’est plus petit que 5%, on rejette l’hypothèse nulle sinon on ne la rejette pas. La p-valeur est la probabilité basée sur un échantillon d’être éloigné de H0. Avec le jeu, c’est la probabilité d’avoir 5 fois de suite un échec sachant qu’on a 1/10 de gagner. La probabilité d’avoir un résultat aussi éloigné de ce que l’on s’attend ; si on perd 10 fois, la probabilité d’avoir un tel score est la p-valeur (probabilité théorique d’avoir un tel résultat). C’est ce qui nous permet de conclure par rapport au risque pris préalablement.
* Ici, le terme de corrélation doit se comprendre comme une association au sens large, linéaire ou non.


    Tout ceci pour faire un test statistique. Il nous permet d’indiquer si oui ou non on a suffisamment de preuves pour affirmer quelque chose. Par contre, pour l’instant, on n’a pas encore l’intensité de l’effet. Si statistiquement on peut dire que oui, peut-être que cet effet est très petit.
=== La corrélation n’implique pas la causalité ===
La corrélation n’implique pas automatiquement la causalité : ce n’est pas parce que deux variables sont fortement corrélées l’une à l‘autre que l’une est forcément la cause de l’autre. Il arrive fréquemment que deux variables soit corrélées car elles dépendant toutes deux d’une même troisième variable. Il peut aussi arriver que deux variables s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse, si la valeur prise par une variable dépend de celle d’une autre variable (causalité) alors les deux variables sont corrélées.

Version actuelle datée du 4 avril 2022 à 10:38


Complexité du monde réel[modifier | modifier le wikicode]

Il est très rare qu’une variable soit totalement indépendante de son environnement. Chaque variable est probabilité liée à d’autres variables, voire même influencée par celles-ci. La statique bivariée a pour but de mettre en relation deux informations différentes afin de vérifier si elles sont ou non liées. La mise en évidence d’un tel lien peut notamment servir à faire des prédictions sur la valeur prise par une variable en fonction de celle prise par une autre. L’analyse bivariée donne aussi des informations utiles permettant ensuite de construire un modèle multivarié.

Objectifs et outils[modifier | modifier le wikicode]

Concrètement, les objectifs de l’analyse bivariée sont :

  • Déterminer si une relation existe entre deux variable d’un échantillon.
  • Si une relation existe, quantifier la force de cette relation.
  • Vérifier si la relation observée sur un échantillon est dû au hasard ou si elle est aussi valide au niveau de l’ensemble de la population considérée.

Les outils utilisés en statistique bivariée dépendent fortement du type de variables analysées :

  • 2 variables qualitatives : tables de contingence (représenter dans un tableau croisé les quantités de chacun des deux variables et leurs modalités), chi-2 (distribution de chi-2) et V de Cramer (score calculé à partir du chi-2)
  • 2 variables quantitatives : diagramme de dispersion (pour voir la forme que prennent ces deux variables), corrélation de Pearson (score calculé)
  • 2 variables ordinales : corrélation de Spearman (corrélation s’attache au rang de ces variables et à partir d’eux, on va calculer une corrélation de Spearman)
  • On peut mélanger les variables, on peut rendre une variable qualitative en une variable quantitative

Variables qualitative[modifier | modifier le wikicode]

Fréquences absolues conjointes[modifier | modifier le wikicode]

Une table de contingence est l’équivalent d’une distribution de fréquence mais pour deux variables simultanément. Il y a un croisement entre ces deux variables.

Fréquences relatives[modifier | modifier le wikicode]

Ces 4 valeurs divisées par le nombre de personnes (=3377). Le pourcentage est indiqué en bas (9.061% par exemple).

Fréquences conditionnelles par ligne[modifier | modifier le wikicode]

On fixe une modalité (genre) à homme, puis on dit des choses sur la variable travail. Donc je me situe comme si j’étais avec 1812 personnes. Quelle est la distribution variable travail sachant que les personnes que j’ai à disposition sont des hommes ? Il y aurait environ 17% d’hommes qui auraient un travail contre 83% qui auraient un travail. Parmi les hommes uniquement, les 17% n’ont pas de travail et les autres oui. Cela revient à restreindre notre échantillon puisqu’on considère qu’une seule des deux modalités du genre. On peut aussi regarder la distribution de la variable genre (par colonne) ; je prends uniquement ceux qui n’ont pas de travail et je regarde la distribution de la variable genre.

Autre exemple : COL BLANC et DOC_4c, On a le total (3377), les répartitions (table de contingence) et ici, on analyse par ligne (=100 dans le total).

Question : en regardant ce tableau, si on a une personne issue de ce panel qui est un col blanc ; est-ce qu’on a plus d’informations d’avoir la répartition des visites de médecin ou pas ? Est-ce que l’information donnée (COL BLANC) nous apporte quelque chose ? Quasi pas ! Quelle est la probabilité qu’une personne soit allée plus de deux fois chez le médecin ? 44.120% ! Si on prend une personne au hasard, quelle est la probabilité que cette personne soit allée deux fois chez le médecin ? Le calcul immédiat c’est de se dire 983+499 / 3377. Le fait de savoir que la personne est un col blanc ou pas, on n’a qu’une légère différence. Ce qu’il faut comprendre, c’est que si les deux variables col blanc et nombre de visite sont liées, a priori, le lien est extrêmement faible.

  • Ce « lien » est la dépendance ou pas.

Indépendance[modifier | modifier le wikicode]

Deux variables A et B sont indépendantes si la connaissance de la modalité prise par A n’influence pas la distribution de B et vice versa. Sur une table de contingence, cela implique que :

  • Les distributions conditionnelles par ligne sont toutes identiques
  • Les distributions conditionnelles par colonne sont toutes identiques.

Indépendance et information marginale[modifier | modifier le wikicode]

En cas d’indépendance des 2 variables, toute l’information de la table de contingence est résumée par les distributions séparées (margines) des deux variables. On peut alors reconstituer la distribution conjointe de la manière suivant :

Exemple de situation d’indépendance parfait

On a fait les totaux par ligne et par colonne, on regarde les fréquences absolues (nij) et les fréquences relatives (fij). (On divise 16/80=0.2).

Dépendance et degré d’association[modifier | modifier le wikicode]

Lorsque deux variables ne sont pas indépendantes, elles sont dépendantes. Il est utile de mesurer leur degré d’association. Plus le degré d’association est élevé, plus il devient possible d’utiliser une variable pour prédire l’autre. Sauf qu’association ≠ causalité !

Chi-2[modifier | modifier le wikicode]

Une façon d’estimer la force de la relation entre les deux variables d’un tableau croisé consiste à comparer les données observées avec la situation que l’on aurait en cas d’indépendance. La statistique du chi-2, notée K2 est définie comme :

  • Est la fréquence de la case d’indices ij sous l’hypothèse d’indépendance.

Cette statistique du chi-2 est comprise entre 0 et une certaine valeur. La valeur maximale est la taille de l’échantillon (n) x le minimum nombre de ligne -1 et le nombre de colonne -1. [[File:./media/image109.emf]]

  • Si K2 vaut zéro, nous sommes dans la situation d’indépendance.
  • Si K2 est supérieur à zéro, il y a dépendance ou association.
  • Plus K2 est grand, plus l’association est forte mais attention, K2 dépend de la taille de la table de contingence

Exemple : fréquences observées et attendues

Sur ce tableau, on voit la distribution conjointe de deux variables différentes : homme/femme et travail/pas de travail. La distribution conjointe représente la relation entre les deux variables. Ici, c’est en nombre d’individus que la table se présente. On voit que parmi les hommes, 83% ont un emploi alors que chez les femmes, seules 59% ont un emploi. Ainsi, on peut affirmer que dans notre échantillon, les hommes occupent plus fréquemment un emploi que les femmes. Ces fréquences conditionnelles peuvent aussi être calculées par colonnes. Ce que l’on remarque alors c’est que parmi les individus n’occupant pas un emploi, 67% d’entre eux sont des femmes. Pour ce qui est des personnes occupant un emploi, seules 37% des femmes On voit, sur la base de ces tableaux, que les hommes et les femmes ne sont pas égaux face au travail. Toutefois, on ne peut pas conclure à une causalité ni spéculer sur la force de cette différence dans la population totale.

La distribution des deux variables sont parfaitement identiques : elles sont donc parfaitement indépendantes l’une de l’autre. Ainsi, il est possible de retrouver la distribution en se basant uniquement sur les totaux des lignes et des colonnes en suivant la formule (total de i x total de j)/total.

A partir du moment que l’on ne se trouve pas dans une situation d’indépendance parfaite, c’est une situation de dépendance. Toutefois, cette dépendance peut être plus au moins forte. Plus la force d’association entre deux variables est élevée, plus il devient possible de prédire l’une par rapport à l’autre. Mais attention, dépendance ne signifie pas causalité !

Normalisation du chi-2[modifier | modifier le wikicode]

La valeur maximale du chi-2 dépend de la taille de la table de contingence ainsi que de l’effectif total. Il est donc difficile d’évaluer le résultat. Une solution consiste à normaliser le résultat afin qu’il évolue entre des bornes finies et connues. La mesure de V de Cramer est définie comme :

où K2 est la statistique du chi-2, n est le nombre de données, () est le nombre de ligne et c est le nombre de colonnes.

La mesure V a pour bornes :

  • 0 signifie l’indépendance parfaite entre les variables
  • 1 signifie une association maximale
  • Le V de Cramer est facile à comparer entre des tables de dimensions différentes et comportant un nombre d’observations différent.

Test du chi-2[modifier | modifier le wikicode]

Tous les calculs précédents (chi-2 et V de Cramer) concernant l’échantillon de données utilisé. Pour déterminer s’il y a dépendance ou indépendance au niveau de la population, il faut effectuer un test d’hypothèses :

  • H0 : indépendance entre les 2 variables
  • H1 : Dépendance entre les 2 variables

Le même test permet aussi de savoir si le V de Cramer prend une valeur égale ou supérieure à zéro dans la population.

Exemple :

On considère un risque de première espèce à () = 5%.

Degrés de liberté[modifier | modifier le wikicode]

En statistique, les degrés de liberté (degrees of freedom) représentent le nombre de données ou d’éléments d’un problème qui peuvent être fixés sans contrainte, indépendamment les uns des autres.

Exemples :

  • Si l’on connait les valeurs d’un échantillon de n=5 personnes ainsi que leur moyenne, alors il y a 4 degrés de liberté car la valeur de la 5ème observation peut être retrouvée en utilisant la moyenne.
  • Pour un test d’indépendance sur une table de contingence pour () ligles et c colonnes, il y a (()-1) x (c-1) degrés de liberté car les autres éléments de la distribution d’indépendance peuvent être retrouvés en utilisant les totaux connus des lignes et des colonnes.

A retenir :

Lorsqu’on a affaire des variables de type catégorielles ou qualitatives, on a un moyen de déterminer si elles sont dépendantes ou pas ; on peut calculer la force de dépendance via le V de Cramer et on associe un test dont l’hypothèse nulle est l’indépendance et l’hypothèse alternative et la dépendance.

Exemple : le niveau de mathématiques avec la taille des pieds (plus on a des grands pieds, plus on est bons en mathématique

Par rapport à cet exemple, il n’y pas de logique selon moi d’autant plus qu’on ne connaît pas la population. Il est possible d’avoir deux variables dépendantes l’une de l’autre sauf que l’une n’est pas la cause de l’autre. Ainsi, il n’y a pas toujours de cause à effet ! On peut trouver des relations fortes entre deux variables mais cela ne signifie pas nécessairement qu’il y a une relation de cause à effet ! Par contre, le nombre d’années d’apprentissage pourrait être la cause d’avoir de meilleurs résultats en mathématique !

  • Même si deux variables sont fortement corrélées, il faut toujours remettre en question la cause à effet.
  • Pour connaître la dépendance, on peut faire une représentation graphique mais on utilise des tables de contingence. On regarde les valeurs conjointes entre ces deux variables. Une fois qu’on a ces valeurs conjointes, on pourra expliciter la dépendance ou l’indépendance. Pour ce faire, on avait introduit ce chi-2. C’est une valeur qui explique la différence entre la situation d’indépendance et la situation que j’ai. Si elle est égale à 0, c’est l’indépendance complète. L’autre formule est le V de Cramer qui se situe entre 0 et 1. Pour des variables qualitatives, on les compare en utilisant le V de Cramer.

Variables quantitatives[modifier | modifier le wikicode]

Diagramme de dispersion[modifier | modifier le wikicode]

Le diagramme de dispersion permet la mise en relation de deux variables numériques. La relation est-elle linéaire ?

On a deux variables numériques. La relation est-elle linéaire ? Graphiquement, on fait un diagramme de dispersion.

Intérêt des relations linéaires[modifier | modifier le wikicode]

Les relations linéaires sont simples à analyser et comprendre (proportionnalité linéaire (=immédiate) entre variable explicative et variable expliquée). Il existe de nombreux outils pour les analyser (corrélation linéaire (coefficient), régression linéaire (fonction explicative par rapport à une autre)…). En cas de non-linéarité :

  • Transformation des données (linéarisation de la relation)
  • Méthodes non-linéaires

Covariance[modifier | modifier le wikicode]

La covariance de deux variables X et Y est définie comme la moyenne des produits des écarts à la moyenne des deux variables :

C’est une différence par rapport à la moyenne et on multiplie les différences par rapport à la moyenne de l’autre valeur. La covariance peut prendre n’importe quelle valeur comprise entre - () à + (). Mais comment savoir s’il y a un lien entre les deux variables si les valeurs vont de l’infini à l’infini.

Si toutes les valeurs sont égales pour la variable X et toutes égales pour la variable Y (sans variation) ; si la covariante est égale à 0, toutes les valeurs sont proches de la moyenne et on n’a qu’une seule valeur. Par contre, avec une différence, la covariance peut prendre des valeurs négatives ou positives.

Interprétation de la covariance[modifier | modifier le wikicode]

La covariance permet de déterminer le sens de la relation entre les deux variables :

  • COV (X,Y) > 0 les variables évoluent dans le même sens. Les deux variables ont tendance à prendre simultanément des valeurs grandes ou petites.
  • COV (X,Y) < 0 les variables évoluent en sens contraire. Si une variable prend une valeur élevée, l’autre variable a tendance à prendre une petite valeur, et vice verse.
  • En l’absence de relation linéaire, la covariance vaut zéro.

Limites de la covariance[modifier | modifier le wikicode]

La covariance souffre de deux défauts :

  1. Elle dépend de l’unité de mesure des variables (avoir la même unité pour les variables)
  2. Elle n’est pas bornée (elle peut prendre n’importe quelle valeur)
  • Difficile de l’interpréter

Exemples :

Education et revenu : cov = 0.248. On peut dire qu’a priori, plus on a d’éducation, plus le revenu est élevé puisque la covariance est élevée.

Age et revenu : cov = 0.0519. On ne peut pas comparer les chiffres comme ça parce que les unités ne sont pas les mêmes.

Santé et visites chez le médecin : cov = -3.54. Plus le nombre de visites augmente, moins on a bon état de la santé. Ce qui est important, c’est que c’est négatif et cela est logique ; l’état de santé est moins bon.

Corrélation linéaire de Pearson[modifier | modifier le wikicode]

Le coefficient de corrélation linéaire de Pearson entre deux variables X et Y est défini comme :

où COV (X,Y) est la covariance des deux variables et Sx et Sy sont les deux écarts-types. La corrélation ne mesure qu’une association linéaire à l’exclusion de tout autre type de relation entre les deux variables.

Interprétation de la corrélation[modifier | modifier le wikicode]

Le coefficient de corrélation linéaire de Pearson mesure l’ajustement des données à une droite. Il évolue entre -1 et +1 :

On voit sur ces graphiques que la linéarité peut être plus au moins parfaite. En effet, les deux graphiques de gauche illustrent une situation de linéarité parfaite avec en haut, une pente positive et en bas, une pente négative. Le graphique en haut à droite illustre le cas où une corrélation linéaire est forte sans toutefois être parfaite, les points n’étant pas parfaitement alignés sur la même droite. Enfin, le graphique en bas à droite illustre un cas éloigné de la corrélation linéaire bien que l’on puisse identifier une tendance linéaire discrète.

R =1 : tous les points sont situés sur une droite et la relation est linéaire (=droite). Si la valeur x augmente, la valeur y augmente également.

R = 0.95 : petite variation mais je peux prédire en connaissant x avec une petite marge d’erreur.

R = -1 : si j’augmente x, y diminue.

R = 0.39 : la variabilité autour de la droite est beaucoup plus grande. La relation linéaire est ici positive (j’augmente x donc y aussi) mais c’est beaucoup moins fort.

On est capable d’indiquer une intensité linéaire mais ce n’est pas suffisant ! Par exemple, on prend un échantillon de 2 individus pour deux variables de type quantitative. Le coefficient de corrélation linéaire est égal à 1 mais est-ce significatif ? Sauf qu’avec un si petit échantillon, c’est difficile de déterminer la signification.

Test de la corrélation[modifier | modifier le wikicode]

Du point de vue inférentiel, la première question est de savoir s’il y a oui ou non corrélation. Les hypothèses testées sont alors les suivantes :

L’acceptation de H0 signifie une absence de relation linéaire entre les deux variables, pas l’absence totale de relation !

Exemple : éducation et revenu

Difficile de trouver une relation linéaire. Si on augmente le niveau d’éducation, il semble que le revenu augmente avec de grosses variations donc on aurait un semblant de linéarité. Si j’effectue le teste statistique, on aura des éléments. Il compare la variable « éducation » avec la variable « revenu ». L’hypothèse alternative est qu’elle est différente de 0. On obtient un coefficient de relation de 0.445. Cela signifie que c’est positif donc si l’une variable augmente, l’autre variable augmente aussi. Quelle est la force de cette relation ? 0.445 est une force dite moyenne. Ainsi, il y a un peu de linéarité. De plus, a-t-on raison d’appliquer à la population ? Si on prend un risque alpha de 5%, est-ce significatif ou pas ? La p-valeur est très petite et par conséquent, on peut rejeter l’hypothèse H0. Donc oui effectivement il existe une relation linéaire entre ces deux variables. La valeur du coefficient de relation qui l’exprime est de 0.445.

Exemple : âge et revenu

Les éléments du test indiquent que la valeur du coefficient de relation est très faible (0.0242) donc une faible relation linéaire. Est-elle significative ? Au seuil, alpha = 5%, la p-valeur est plus élevée donc on ne peut rejeter l’hypothèse nulle.

Exemple : santé et visites chez le médecin

On constate que le coefficient de relation est égal à -0.389. La p-valeur est faible donc inférieur au seuil de 5% et dans la population, le coefficient de relation est négatif et on peut l’estimer avec le coefficient de relation. Si on augmente la valeur de l’un, je diminue l’autre.

Corrélation de variable ordinales[modifier | modifier le wikicode]

De par sa formule, la corrélation de Pearson ne concerne que les variables numériques. Il est cependant possible d’appliquer un concept similaire à des variables ordinales. On parle alors de corrélation de Spearman ou de corrélation non-paramétrique, notée () (rho). Le principe consiste à numéroter indépendamment pour chaque variable, les observations de la plus petite à la plus grande (selon l’ordre des modalités). Ces numéros sont appelés les rangs des observations. On calcule alors la corrélation entre ces deux séries de rangs.

La corrélation non-paramétrique s’interprète de la même façon que la corrélation de Pearson. La corrélation non-paramétrique suppose qu’il y a toujours le même écart entre deux modalités successives d’une variable. Lorsque la corrélation non-paramétrique est appliquée sur des variables numériques, elle rend égaux les écarts successifs entre les valeurs réellement observées.

Exemple : santé et doc_4c

Ici, entre la santé et le nombre de visites, on a un coefficient de corrélation de Spearman égal à -0.363 où si le nombre de visites augments, la santé diminue. La p-valeur est faible et donc on a raison d’inférer où notre échantillon est significatif par rapport à la population. On n’a plus d’intervalle de confiance mais les mêmes caractéristiques sont présentes.

Causalité[modifier | modifier le wikicode]

Pour qu’il y ait causalité d’une variable A vers une variable B, les 3 conditions suivantes doivent être vérifiées :

  • A et B doivent être corrélées.
  • Il doit y avoir une relation temporelle entre A et B, à savoir que A doit avoir lieu avant B.
  • Toutes les autres raisons pouvant valablement expliquer l’influence observée de A sur B doivent avoir été écartées.

Ce n’est qu’après avoir vérifié que ces trois conditions sont remplies que l’on peut parler d’influence causale d’une variable sur une autre !

  • Ici, le terme de corrélation doit se comprendre comme une association au sens large, linéaire ou non.

La corrélation n’implique pas la causalité[modifier | modifier le wikicode]

La corrélation n’implique pas automatiquement la causalité : ce n’est pas parce que deux variables sont fortement corrélées l’une à l‘autre que l’une est forcément la cause de l’autre. Il arrive fréquemment que deux variables soit corrélées car elles dépendant toutes deux d’une même troisième variable. Il peut aussi arriver que deux variables s’influencent mutuellement sans qu’il n’y ait causalité. A l’inverse, si la valeur prise par une variable dépend de celle d’une autre variable (causalité) alors les deux variables sont corrélées.