Analyse univariée

De Baripedia
Révision datée du 5 mai 2020 à 14:43 par Blob (discussion | contributions)
(diff) ◂ Version précédente | Voir la version actuelle (diff) | Version suivante ▸ (diff)


Caractéristiques d’une distribution[modifier | modifier le wikicode]

  • Les deux caractéristiques essentielles d’une distribution univariée sont :
    • La tendance centrale
    • La dispersion

D’autres caractéristiques peuvent se révéler importantes :

  • La symétrie
  • L’aplatissement

Les résumés numériques sont l’outil le plus utilisé pour analyser ces caractéristiques (minimum, maximum, milieu). Comment jouer là-dessus pour mieux décrire la distribution ?

Relation entre centre et dispersion[modifier | modifier le wikicode]

Les notions de tendance centrale et de dispersion sont indissociables, car la connaissance de l’une sans l’autre peut amener à des confusions et des erreurs d’interprétation.

Résumés numériques[modifier | modifier le wikicode]

Un résumé numérique (ou chiffre clé) est une statistique résumant par une seule valeur une notion complexe. Un bon résumé numérique devrait avoir les caractéristiques suivantes (conditions de Yule) :

  • Etre objectif
  • Tenir compte de toutes les observations
  • Avoir une signification concrète, être simple à interpréter.
  • Etre simple à calculer
  • Etre peu sensible aux fluctuations de l’échantillonnage : si on prend deux échantillons différents, on aura des valeurs différentes. Comment faire pour qu’elles soient moins différentes ?
  • Se prêter à des calculs algébriques ultérieures : on aime bien travailler avec la variance mais en termes d’interprétation, on préfère travailler avec l’écart-type.

Tendance centrale[modifier | modifier le wikicode]

Mode d’une distribution[modifier | modifier le wikicode]

Le mode d’une distribution est la modalité la plus fréquente de celle-ci. Le mode peut se calculer sur n’importe quel type de variable. Il n’est pas intéressant pour des variables prenant un grand nombre de modalités différentes.

Le mode n’est pas forcément unique et il ne représente pas forcément le centre !

Exemple : échantillon de 30 personnes (4, 4, 8, 12, 15, 32, 40 etc). Le mode de la distribution est la valeur de 40 heures, c’est-à-dire la plus grande valeur observée !

Médiane[modifier | modifier le wikicode]

Dans le cas des salaires, une moyenne a l’habitude d’être sensible aux données extrêmes et donc elle aurait la tendance d’aller vers les salaires élevés.

La médiane d’une distribution est la valeur telle que 50% des données sont plus petites qu’elle et 50% des données sont plus grande qu’elle. Elle ne se calcule que sur des variables dont les modalités ont un ordre (ordinales ou numérique).

Trois étapes pour le calcul :

  1. Classer les observations par ordre croissant
  2. Calculer le rang (position) de la médiane :

    rang (med(x)) = n + 1

  1. Trouver la médiane Si le rang n’est pas entier, la médiane est la moyenne de deux observations entourant le rang de la médiane !

Exemple : nombre d’heures hebdomadaires de travail

Moyenne arithmétique[modifier | modifier le wikicode]

La moyenne arithmétique se calcule comme :

Pour toute liste (x1, ..., xn) de réels, on définit sa moyenne arithmétique par la formule , qui ne dépend pas de l’ordre des termes et est toujours comprise entre les valeurs minimale et maximale de la liste. Pour les personnes qui ne sont pas à l'aise avec cette notation, elle veut simolement dire que l'on additionne tout les termes les uns avec les autres, et qu'on divise le tout par le nombre de termes que nous avons additionné.

  • La moyenne ne se calcule que sur de vraies variables numériques. Une variable catégorielle recodée sous forme numérique n’est une vraie variable numérique !

Exemple : nombre d’heures hebdomadaires de travail

Médiane VS moyenne[modifier | modifier le wikicode]

La médiane est une notion de centre par rapport au nombre de données, alors que la moyenne est une notion d’équilibre.

Par ailleurs, la médiane est robuste (insensible aux données extrêmes = ne change pas), alors que la moyenne est non-robuste (facilement influencée par les données extrêmes).

Dispersion[modifier | modifier le wikicode]

Qu’est-ce que la dispersion ?[modifier | modifier le wikicode]

La dispersion est une notion de répartition des observations les unes par rapport aux autres. Plus la dispersion est grande, plus observations différentes les unes des autres. Telle que vue dans ce cours, la dispersion s’applique avant tout aux variables numériques, mais il existe une mesure de dispersion adaptée aux données catégorielles : l’entropie. C’est un terme venant de la théorie de l’information.

L’étendue d’une dispersion[modifier | modifier le wikicode]

Le minimum et le maximum représentent les valeurs limites d’une variable. Ils n’existent pas lorsqu’une variable peut prendre des valeurs allant jusqu’à plus au moins l’infini. On peut distinguer entre le minimum et le maximum théoriques d’une variable et les valeurs minimales et maximales réellement observées.

Exemple : nombre d’heures hebdomadaires de travail

Sur l’échantillon considéré, le minimum vaut 4 heures et le maximum 40 heures. Sur un plan théorique, le minimum possible pour cette variable est de 0 heure et le maximum est de 168 (nombres d’heures possibles par semaine), même si cette dernière valeur ne sera que difficilement atteinte. Dans cet exemple, la valeur maximale théorique peut aussi dépendre des lois en vigueur dans le pays considéré.

Quartiles[modifier | modifier le wikicode]

Les quartiles complètent la médiane en divisant le nombre de données en 4 groupes plutôt que 2. Le premier quartile noté q1 et tel que 25% des données sont plus petites que lui. Le troisième quartile noté q3 est tel que 75% des données sont plus petites que lui. Le calcul des quartiles se fait comme celui de la médiane, mais les rangs (positions) se calculent comme suit :

Si les rangs ne sont pas des nombres entiers, on approxime la valeur des quartiles par interpolation linéaire.

Définitions[modifier | modifier le wikicode]

Pour l’interpolation linéaire, il faut introduire de nouvelles définitions :

Considérons une seule variable mesurée sur n observations

Définition : La statistique d’ordre d’un échantillon est donnée par les valeurs de l’échantillon ordonnées de la plus petite à la plus grande. Elle est notée :

Définition : Le quantile d’ordre...

Les quartiles sont donc les quantiles d’ordre 25 (1er quartile), 50 (médiane) et 75 (3ème quartile)

Calcul d’un quantile

  1. Ranger les données par ordre croissant (=statistiques d’ordre)
  2. Calculer le rang r = [
  3. Trouver la valeur correspondante au rang :
    1. Si r est entier, il s’agit de la r-ième valeur (des statistiques d’ordre)
    2. Si r n’est pas entier, la valeur est : [

Notation : Si [r] et [r] désignent respectivement la partie entière inférieure et supérieure de r.

Boxplot[modifier | modifier le wikicode]

Le boxplot, ou résumé à 5 valeurs, est un graphique simplifié de la distribution d’une variable.

Entendue : différence entre maximum et minimum (sur quelle plage nos données sont distribuées)

Ecart interquartile : différence entre le 1er et le 3ème quartile : lorsque j’ai éliminé de mes données les 25% des plus petites et grandes, j’ai toutes les données comprises entre le 1er et le 3ème quartile.

Schematic plot[modifier | modifier le wikicode]

C’est une variante du boxplot dans laquelle les données extrêmes (petites et grandes) ne sont pas intégrées dans le graphique, mais sont représentées séparément. Dans certains cas, les données extrêmes sont même totalement absentes du graphique.

Variance[modifier | modifier le wikicode]

La variance est la moyenne de la somme des carrées des écarts à la moyenne.

La variance est calculée comme :

.

.

Population Echantillon

La variance prend des valeurs allant de 0 à l’infini. La valeur 0 indique une totale absence de variation : toutes les valeurs observées sont identiques. Plus la variance est grande, plus les valeurs sont dispersées, c’est-à-dire différentes les unes des autres. La variance ne s’exprime pas dans la même unité que les données observées.

  • Elle est difficilement à interpréter / trouver mathématiquement mais difficile à interpréter empiriquement.

Ecart-type[modifier | modifier le wikicode]

L’écart type est défini comme la racine carrée de la variance :

Dans le cas d'une dont les valeurs sont notées , avec , l'écart type s'écrit comme pour une série statistique , où est l'espérance de la loi de

Population Echantillon

Il s’interprète de manière similaire à la variance mais avec l’avantage de s’exprimer dans la même unité que les données observées. L’écart-type représente la distance typique que l’on s’attend à observer entre n’importe quelle donné de l’échantillon et la moyenne de celui-ci.

Coefficient de variation[modifier | modifier le wikicode]

Le coefficient de variation est une mesure de dispersion relative, utilisée pour décrire la précision d’une valeur estimative.

  • La valeur et l’écart-type ont le désavantage d’être influencés par l’ordre de grandeur des données observées.
  • Le coefficient de variation est une mesure de dispersion relative, indépendant de l’unité de mesure :
  • Il permet de comparer la dispersion de variables mesurées dans des unités totalement différents les unes des autres.

Exemple : nombre d’heures hebdomadaires de travail

Vu comme Une population Un échantillon
Moyenne
Variance
Ecart-type
Coefficient variation