Inférence statistique

De Baripedia


Statistique inférentielle[modifier | modifier le wikicode]

Jugement sur l’échantillon[modifier | modifier le wikicode]

Un échantillon a du sens dans l’interprétation où on tire des choses de l’échantillon pour les inférer dans la population. Le centre d’intérêt n’est pas vraiment l’échantillon mais bien la population. On part d’un échantillon pour avoir des caractéristiques et elles vont être similaires à celles de la population si notre échantillon est bien formé. Il va ainsi représenter la population.

L’objectif : de déterminer les caractéristiques / paramètres / estimations / valeurs d’une population à partir d’un échantillon issu de celle-ci. On a deux outils principaux pour l’inférence statistique :

  • Estimation (ponctuelle (une seule valeur) ou par intervalle (intervalle de valeur)
  • Tests d’hypothèses (on se fixe certaines hypothèses et on regarde si elles sont vraies ou fausses. On va parler d’un faisceau de preuves qui vont nous permettre de valider / réfuter nos hypothèses).
  • Ces outils sont utilisés dans presque tous les modèles statistiques. L’estimation par intervalle et les tests sont basés sur des lois de probabilité continues théoriques.

Exemple : le niveau d’activité physique

Nous voulons étudier le niveau d’activité physique des jeunes de 18 ans en Suisse. Ce niveau d’activité physique est défini comme le nombre de jours par semaine où l’on effectue une activité physique soutenue. Nous disposons d’un échantillon de n = 77 personnes (37 hommes et 40 femmes) alors que la population étudiée est d’environ 80’000 personnes.

  • Question : comment obtenir à partir de l’échantillon des résultats qui s’appliquent fiablement à l’ensemble de la population ?

Les lois continues[modifier | modifier le wikicode]

Les données observées d’une variable ou certaines caractéristiques en découlant (moyenne, variance…) peuvent souvent prendre une quasi-infinité de valeurs. On s’intéresse alors à la distribution de ces quantités et l’on utilise pour cela des lois de probabilité continues dont les principales sont :

  • Loi normal (loi de Laplace-Gauss)
  • Loi du chi-2 (comparaison bivariante entre 2 populations avec variables de type qualitative ; variable dépendante d’une autre ?)
  • Loi de Student (si on ne connaît pas grand-chose sur la population ; avec échantillon suffisamment grand)
  • Loi de Fisher-Snedecor (comparaison de variance de deux ou plusieurs variances)
  • Ces lois sont parfaitement connues et des tables statistiques permettent de déterminer les probabilités qui leurs sont associées.

La loi normale[modifier | modifier le wikicode]

Soit une variable X représentant la somme de nombreux effets dont aucun ne domine les autres. Alors, C’est une écriture considérant une variable aléatoire nommé X (donnée continue tel que la quantité en gramme de yogourt) suivant les valeurs d’une loi dont les paramètres sont la moyenne et la variance au carré. C’est une distribution symétrique puisque les valeurs de l’infini à l’infini.

Elle se caractérise par deux paramètres, à savoir la moyenne et la variance.

Dans le graphique à gauche, on disperse les valeurs. On l’interprète à droite en tant que valeurs possibles pour l’axe des X et en ordonnées (axe des Y) ce sont des probabilités. La probabilité devient plus faible en s’éloignant des 0.

Loi normale centrée- réduite[modifier | modifier le wikicode]

Il est toujours possible de passer d’une loi normale X de moyenne () et de variance (^{2}) à une autre loi normale ayant d’autres caractéristiques. En particulier, la loi normale de moyenne 0 et de variance 1 est appelée la loi normale centrée-réduite. Elle est notée Z est défini comme :

  • Cela revient à soustraire la moyenne et diviser par l’écart-type de la loi normale X d’origine.

Les probabilités sont représentées par la surface comprise entre la fonction de densité de la loi et l’axe horizontal :

Cette loi normale, comme toute loi de distribution, permet de faire des calculs de probabilité. La probabilité qu’un cas apparaissent est représenté par la surface sous la courbe formée à l’aide du jeu de données. Ainsi, lorsque l’on calcule des probabilités, on ne s’intéresse qu’à une partie spécifique du graphique : entre – 1.96 et + 1. 96 pour avoir 95% de la surface sous la courbe. Mais le plus important est de savoir que tout calcul de probabilité provient d’une loi normale.

Les probabilités les plus importantes en fonction d’un seuil z :

  • Pour toute fonction de probabilité, l’air sous la courbe = 1 et cela signifie qu’on a le 100% de toutes les valeurs. La fonction de densité est la courbe de la fonction. Si on s’écarte de 1.96, la probabilité d’être dans cette zone est de 0.95.

Théorème central-limite[modifier | modifier le wikicode]

Soit une suite (X1, X2… Xn) de n variables aléatoires ((), (^{2})). Lorsque n -> (), la distribution de tend vers la loi N ((), (^{2})). Quelle que soit la distribution d’une variable numérique dans la population, la distribution de la moyenne de la variable suit une loi normale.

Estimation[modifier | modifier le wikicode]

Concepts[modifier | modifier le wikicode]

L’estimation consiste à assigner une valeur à un paramètre de la population sur la base de ce qui a été trouvé au sein d’un échantillon issu de celle-ci.

Estimation ponctuelle : on assigne une valeur précise au paramètre.

Estimation par intervalle : on assigne un intervalle de valeurs au paramètre.

  • Lorsqu’on a une estimation et non la vraie valeur (généralement inconnue) du paramètre, on surmonte le nom du paramètre d’un chapeau : () au lieu de ().

Principe de l’estimation ponctuelle[modifier | modifier le wikicode]

Si l’échantillon utilisé est de bonne qualité, il doit représenter fidèlement la population. Par conséquent, les paramètres estimés dans l’échantillon doivent prendre des valeurs proches de celles de la population. L’estimation ponctuelle consiste donc à estimer la valeur d’un paramètre de la population sur la base de la valeur calculée sur l’échantillon. Elle est notée à l’aide du paramètre surmonté d’un accent circonflexe (un chapeau)

Propriété : absence de biais[modifier | modifier le wikicode]

Le biais d’un estimateur est la différence entre l’espérance de cet estimateur et la vraie valeur du paramètre estimé. Un estimateur est non-biaisé si son espérance (valeur moyenne) est égale à la vraie valeur de la population.

Propriété : convergence[modifier | modifier le wikicode]

Un estimateur est dit convergent si, lorsque la taille n de l’échantillon devient grande, le biais disparaît :

Et la variance devient nulle :

  • Cela revient à dire que lorsque la taille de l’échantillon augmente, l’estimation devient de plus en plus précise.

Estimateur absolument correct[modifier | modifier le wikicode]

Un estimateur non-biaisé et convergent est dit absolument correct. Souvent, la valeur du paramètre calculée à partir de l’échantillon est une estimation valable de la valeur de ce même paramètre au sein de la population.

Estimateur de la moyenne[modifier | modifier le wikicode]

La moyenne est un estimateur absolument correct : non biaisé et convergent :

Exemple : niveau d’activité physique

() = 2.75 est l’estimation ponctuelle de la moyenne pour la population.

Estimateur de la variance[modifier | modifier le wikicode]

La formule de la variance d’une population ne définit pas un estimateur sans biais. C’est pourquoi, un estimateur absolument correct de la variance est :

Exemple au niveau de l’activité physique :

(^{2}) = 2.35 est l’estimation ponctuelle de la variance pour la population.

Principe de l’estimation par intervalle[modifier | modifier le wikicode]

Un échantillon n’est pas toujours une image parfaitement fidèle de la population. En faisant une estimation ponctuelle, on attribue une valeur précise à un paramètre mais on court le risque que la valeur ainsi obtenue soit éloignée de la réalité. Au lieu de fournir une estimation, on construit un intervalle de valeurs de la forme : dans lequel la vraie valeur du paramètre a une certaine probabilité fixée à l’avance, notée [[File:./media/image79.emf]] de se trouver.

degré de confiance

risque de première espèce

Choix du risque de première espèce[modifier | modifier le wikicode]

Le choix du risque de première espèceest déterminant car il influence directement l’utilité des résultats :

  • Si est très petit, l’intervalle est très fiable, mais il devient tellement large qu’il ne nous renseigne plus de façon utile sur la vraie valeur du paramètre.
  • Si est très grand, l’intervalle est très précis (=étroit) mais la probabilité qu’il recouvre effectivement la vraie valeur du paramètre est faible.
  • On choisit généralement un risque de [[File:./media/image82.emf]] de 5%.

Exemple : le niveau d’activité physique

Au seuil = 5%

Intervalle de confiance pour l’échantillon [2.42 ; 3.10].

Femmes seulement : [2.10 ; 3.10]

Hommes seulement : [2.41 ; 3.42]

Y a-t-il des pruves attestant que le niveau d’activité physique dans la population est différent entre les femmes et les hommes ?

On ne peut pas l’estimer précisément puisque le seuil de l’[[File:./media/image82.emf]] est de 5%, on aurait donc que 95% de probabilité et on est faiblement renseigné sur la vraie valeur du paramètre. Comme les deux intervalles entre hommes et femmes ont des valeurs communes, on ne peut pas déterminer avec justesse qu’il y a des différences entre les deux catégories.

La véritable valeur se trouve quelque part dans l’intervalle ! Est-ce qu’on peut avoir une identique pour les deux intervalles ? Les deux intervalles se superposent et ici, avec une probabilité d’erreur de 5%, il n’est pas possible de dire que statistiquement, le taux d’activité des femmes est différent de celui des hommes. Il n’y a pas suffisamment de preuves que c’est distinct.

Intervalle de confiance et taille de l’échantillon[modifier | modifier le wikicode]

L’intervalle de confiance pour une moyenne () s’écrit :

On prend la moyenne de notre échantillon et on s’écarte un petit peu vers la gauche et la droite. Cette précision s’exprime mathématiquement par un quantile qui est le Z d’ordre 1- ()(risque de se tromper) / 2. Donc l’intervalle recherchée ne se retrouve pas dans l’intervalle de confiance.

La précision de l’estimation correspond au demi intervalle de confiance

Il en découle que :

  • La taille de l’échantillon n ainsi calculée représente la taille minimale nécessaire pour atteindre la précision d recherchée. Si je connais la variance d’une population et de la précision voulue, je peux calculer la taille de l’échantillon.

Exemple : le niveau d’activité physique

L’échantillon utilisé comporte n = 77 personnes (données valides). Au niveau global, l’intervalle de confiance pour= 5% vaut [2.41 ; 3.10] et la précision obtenue est

Pour obtenir une précision d=0.1, toutes choses étant égales par ailleurs, il aurait fallu un échantillon de taille :

soit au minimum 903 personnes. En pratique, il est aussi nécessaire jongler avec le budget qui va influencer la taille de l’échantillon et la précision qu’on pourrait obtenir.