Actions

Méthodes statistique : introduction

From Baripedia

Les méthodes statistiques sont mobilisées lorsqu’ils s’agissent de faire une analyse avec de nombreux éléments à analyser, que ce soit des caractéristiques ou des éléments. Elles peuvent être utilisées autant pour des données numériques, comme l’âge, mais également en transformant des catégories qu’on « traduit » en nombres. Nous reviendrons sur cela plus tard dans ce cours. En somme, l’utilisation de statistique possède deux types d’utilisation particulières les statistiques descriptives et les inférences statistiques :

  • Statistiques descriptives : Simplifier, donner des informations en un coup d’œil, permet de faire des graphiques
  • Les inférences : Depuis les données que l’on a à disposition on essaie de généraliser et de tirer des lois générales.
La statistique exploratoire ou descriptive[edit | edit source]

Le but de l'utilisation de ces méthodes est d'offrir un appercu rapide des données analysées.

Elles sont :

  • Simples à comprendre
  • S’appliquent à n'importe quelles tailles d'échantillons de données, petit et grand
  • Représentables graphiquement.

En somme la statistique exploratoire étudie la « structure » de groupe de données, détecte les tendances, les formes, les observations atypique etc... Elle suggère des hypothèses de travail, des pistes qui peuvent être creusées et des modèles qui peuvent être formalisées et vérifiées dans un second temps, par l'inférence statistique.

L’inférence statistique[edit | edit source]

Linférence statistique permet comme son nom l'indique de

Elle conduit à des conclusions statistiques à partir de données en utilisant des notions de la théorie des probabilités. Cette partie s’occupe des méthodes de test et d’estimation.

Nous en tant qu’étudions, on est un échantillon de la population qui est l’ensemble de la population de l’université de Lausanne. La statistique référentiel part de l’échantillon puis on se demande si on peut l’extrapoler à tous les étudiants mais dans une certaine mesure. Il faut faire attention en indiquant la marge d’erreur (fiabilité de passer à un sous-ensemble (échantillon) à une population complète). L’inférence statistique, on va donner des notions de fiabilités, une mesure de confiance, quelle est la confiance qu’on apporte dans l’extrapolation.

L’Analyse des données et leur interprétation[edit | edit source]

L’analyse quantitative offre une multitude d’outils mais il faut sélectionner les outils en fonction de notre recherche. De la même manière qu’on choisit un outil particulier pour une tâche particulière. C’est sur la composition de cette boite à outil que nous allons nos atteler, en essayant de décrire chaque élément qui la compose, et bien sûr, ce n’est pas exhaustif.

D’autant plus, il est possible aujourd’hui de récolter tellement des données qu’il est d’autant plus important de devenir rigoureux. Ce n’est pas parce qu’on peut voir que quelqu’un a utilisé des « Big Data » et des millions de d’individus analysé que l’étude est meilleure ou plus représentative. Faire bien avec peu, est mieux que faire n’importe quoi avec un grand volume.

Finalement, l’important c’est toujours de revenir à la question à laquelle nous souhaitons répondre si il s’agit de notre recherche, ou voir si ce que nous présente un article de presse permet effectivement d’étayer et d’illustrer un argument. Le sujet définit un cadre de complexité, que nous essayons de réduire en fonction des données à dispositions, et des méthodes d’analyses que nous pouvons maitriser.

Dans cette idée de découpage de complexité, une analyse suit finalement un schéma simple : On va du plus simple au plus compliqué. On va voir des petits groupes de données et ce qu’on peut dire dessus, et on essaie de dire quelque chose sur un plus grand groupe, puis sur tout le groupe. A chaque niveau il est possible de tirer des conclusions.

Quand on regarde une seule variable, on parle d’analyse univariée. On regarde les notes des élèves à un examen, on peut dire combien ont eu la moyenne, combien ont eu un, combien ont eu 6.

Lorsqu’on combine deux variables, on parle d’analyse bivariée. On regarde une variable en fonction d’une autre. Si un groupe a passé un examen le matin, et l’autre l’après-midi, on peut comparer les notes des deux groupes et voir si le fait d’avoir passé l’examen le matin ou l’après-midi, a eu une répercussion sur la note des élèves.

Quand on essaie d’analyser une multitude de variables, on parle de modèle multivarié. Peut-être que ce n’est pas seulement de passer le test le matin ou l’après-midi qui a un impact sur la note, mais c’est dû à diverses causes : Les étudiants de l’après-midi on eut accès aux questions du groupe du matin pendant la pause de midi et ont eu des meilleures notes, ils sont mieux révisé, manger à midi permet de mieux se concentrer. En prenant en compte une multitude de facteurs, on essaie d’avoir une explication plus précise, mais bien sûr, pas forcément complète.

Comme on le voit, pour un même cas, on va donc d’une description semple, puis on monte en complexité, en vue d’essayer de mieux comprendre. On essaie de comprendre un élément en fonction des autres, et d’essayer de maximiser cette compréhension en continu.

Vocabulaire[edit | edit source]

Unité statistique Le plus petit sur lequel on porte l’analyse statistique
Variable statistique Caractéristique d’une unité statistique
Modalités Valeurs distinctes que prend une variable statistique ; différentes valeurs possibles prises par une variable statistiques. Par exemple la variable statistique cheveu et unité étudiant, on peut avoir plusieurs couleurs pas en fonction de la couleur de cheveux de notre échantillon.
Population Ensemble sur lequel on porte une étude statistique ; ce sur quoi porte l’étude
Echantillon Sous-ensemble de la population
Paramètre Une mesure calculée sur la population entière
Statistique Une mesure calculée sur un échantillon (tiré d’une population)

Variables et modalités[edit | edit source]

Comme son nom l’indique, une variable peut avoir différentes valeurs. Les différentes valeurs qu’elle peut prendre sont nommées modalités. Si on demande à un nombre d’individus ce qu’ils vont voter à la prochaine votation populaire, ils répondront surement : Oui, non, vote blanc, je ne sais pas. Il y aurait donc 4 modalités. Mais si vous n’avez pas définit les modalités à priori, et que vous laissez répondre une personne ce que bon lui semble, il se peut qu’il dise : C’est pas faux, car il n’avait pas compris la question mais n’osait pas le dire. Si vous analysez vos réponses par la suite, vous aurez alors 5 modalités.

Les modalités dépendent donc de ce qu’on a défini a priori, si on remplit un questionnaire on ne peut que cocher des cases, ou simplement de toutes les possibilités possibles que l’on a récoltées ou observées.

Types de variables[edit | edit source]

Il existe différents types de variables. Une classification habituelle utilise les 4 catégories suivantes :

Il existe différents types de variables. Une classification habituelle utilise les 4 catégories suivantes :

A.   Variables qualitatives – catégorielles :

a.     Nominales : Des catégories qu’on ne peut pas compter, comme le type d’ordinateur que quelqu’un utilise.

b.     Ordinales : On peut classer ces variables dans un ordre. Si je demande de personnes sur un film je peux ordonner les réponses. Nul, Bien, Excellent.

B.    Variables quantitatives – numériques :

a.     Discrètes : On peut les compter. Le nombre d’heures de minutes passées à lire ce ce document.

b.     Continues : Elle se situent dans un intervalle. Le nombre de pas que j’ai effectué chaque jours de la semaine si situe entre 0 et le maximum que j’ai fait. Je ne peux pas faire 1 000 000 de pas par jours, ni - 4. Les valeurs sont donc dans un intervalle.

Les analyses qui sont faites en méthodes quantitatives dépendant grandement du type de variables. Il est important de toujours bien savoir avec quelles mesures on travaille en vue de pouvoir en tirer des informations pertinentes. Nous verrons en plus tard que nous pouvons « traduire » des variables d’un type à un autre en vue de pouvoir utiliser des outils d’analyse. Par exemple, Oui, Non ne permet pas d’être mis dans une formule mais Oui = 1 et Non = 0, est déjà plus mobilisable. Ces traductions sont communes mais il est important qu’elle soit explicites et de se souvenir d’où on est parti.

Echelles d’intervalle et de rapport[edit | edit source]

Les variables numériques sont parfois aussi catégorisées comme échelles d’intervalle et échelles de rapport. Les variables ne disent rien en soit, elles dépendent d’un cadre, d’un référentiel de comparaison. On n’est pas petit ou grand de manière absolue, on peut seulement le définir en comparaison. Pour les fourmis nous sommes des géants, pour l’univers, nous sommes des fourmis.

La différence entre intervalle et rapport réside dans le rôle du zéro, qui sert donc de référentiel pour une comparaison :

-       Echelle intervalle : Il n’y a pas de zéro absolu : son choix est une convention arbitraire.

Exemple : Température en degrés Celsius.

-       Echelle de rapport : Il y a un zéro absolu, non-arbitraire.

Exemple : Température en degrés Kelvin (température par rapport à la température la plus froide dans l’univers, -273.15 degrés Celsius

Distributions et fréquence[edit | edit source]

-       La distribution d’une variable est la liste de toutes les modalités (ou catégories de modalités) d’une variable avec leurs fréquences respectives. Les résultats de votations pour un scrutin.

-        

-       La fréquence d’une modalité (ou effectif) est le nombre de personnes prenant cette modalité dans l’échantillon ou dans la population. Le nombre de personne qui a voté oui au scrutin.

-       La fréquence relative d’une modalité est la proportion des données prenant cette modalité. Elle est exprimée soit sur une base de 100 (pourcentage) soit sur une base de 1. Le pourcentage de gens qui ont voté non.

Analyse univariée[edit | edit source]

L’analyse univariée cherche avant tout à déterminer deux caractéristiques de la distribution d’une variable, c’est donc pour nous informer sur celle-ci que nous la faisons :

-       On peut savoir qu’est-ce qu’il est « normal » dans ce qu’on a mesuré : La tendance centrale

-       On peut savoir si finalement nos mesures sont homogènes ou non : La dispersion

Pour cela, deux catégories on peut soit faire un graphique pour avoir un outil visuel comme base, ou alors on fait des calculs, qu’on appelle des résumés numériques.