Echantillonage

De Baripedia


Plans d’échantillonnage à plusieurs niveaux[modifier | modifier le wikicode]

La population est d’abord divisée en plusieurs sous-populations en fonction d’une variable de contrôle, puis des procédures d’échantillonnage sont appliquées à chaque sous-population. Les sous-populations peuvent elles-mêmes être redivisées sur la base d’un autre critère. Ces procédures s’appliquent lorsque la population étudiée n’est pas homogène et que l’on veut s’assurer que toutes les composantes de l’échantillon se retrouveront dans l’échantillon.

  • Deux cas limite : les tirages par strates et les tirages par grappes.

Tirages par strates[modifier | modifier le wikicode]

Un échantillon aléatoire est sélectionné dans chacun des sous-populations :

C’est utilisé lorsque les données sont supposées être homogènes au sein de chaque sous-population mais hétérogènes entre ces mêmes sous-populations (Exemples de strates : cantons, genres…)

Tirages par grappes[modifier | modifier le wikicode]

Un échantillon de sous-populations est sélectionné aléatoirement puis chacune des sous-populations sélectionnée est étudiée de façon exhaustive :

Utilisé lorsque les données sont homogènes d’une sous-population à l’autre mais hétérogènes au sein de chaque sous-population. (Exemples de grappes : ménages, classes d’écoles)

Les 3 logiques des méthodes multi-niveaux[modifier | modifier le wikicode]

  1. Au niveau de l’ensemble de la population étudiée, les estimations des paramètres intéressants doivent être exactes (sans biais) et précises.
  2. Au niveau des sous-populations que l’on veut pouvoir étudier, on doit disposer de suffisamment de données pour obtenir des résultats exacts et précis.
  3. L’échantillon total doit être réparti entre les sous-populations de manière à prendre en compte et à exploiter la variabilité de chacune d’entre-elles.

Avantages des méthodes probabilistes[modifier | modifier le wikicode]

  • Permettent de collecter un échantillon vraiment représentatif de la population.
  • Autorisent la prise en compte lors des analyses statistiques de sous-population sur ou sous-représentées.
  • Permettent de faire l’inférence statistique et de déterminer les caractéristiques de la population sur la base de celles de l’échantillon.

Désavantages des méthodes probabilistes[modifier | modifier le wikicode]

  • Plus difficiles à mettre en œuvre que les méthodes empiriques -> il faut penser à plus de choses !
  • Nécessitent une base de sondage exhaustive de la population étudiée.
  • Sensibles à des problèmes imprévus : questionnaire non-transmis à certains membres de l’échantillon

Traitement préalable des données[modifier | modifier le wikicode]

Saisie des données[modifier | modifier le wikicode]

Les données doivent être saisies dans une base de données que ce soit durant la collecte des données ou après :

  • Saisie manuelle (clavier d’ordinateur)
  • Saisie automatique (code barre, scanner, questionnaire informatisé sur internet)
  • Toute saisie de données implique des risques d’erreurs.

Données manquantes[modifier | modifier le wikicode]

Les données manquantes sont des données dont la récolte avait été planifiée mais qui n’ont pas pu être récoltées :

  • Non-réponses totales : un répondant n’a pas du tout répondu à l’enquête.
  • Non-réponses partielles : un répondant n’a pas répondu à une partie des questions.

Simplement ignorées ? Non car il y a des conséquences sur les analyses statistiques :

  • Biais : la valeur estimée ne correspond pas à la réalité
  • Manque de précision : marge d’erreur et variabilité des résultats élevées.

Non-réponses totales[modifier | modifier le wikicode]

3 types de non-répondants :

  1. Non-valides : impossibilité de réponse (décédés, déménagés, ne faisant pas réellement partie de la population cible.
  2. Non-contacts : impossibilité de contacter
  3. Refus : refus de répondre

L’impact sur les résultats dépend de la catégorie de non-répondants. Dans le cas d’enquêtes longitudinales, on parle d’attrition lorsqu’une personne arrête de répondre à l’enquête après une certaine vague de celle-ci.

Non-réponses partielles[modifier | modifier le wikicode]

Causes aux non-réponses partielles :

  • Questionnaire trop long
  • Manque d’intérêt
  • Questions sensibles
  • Bug lors de la sauvegarde des données

Dans le cas de questionnaires formatisés, il est possible de rendre obligatoire les réponses. La présence de non-réponses partielles implique que les calculs statistiques ne se feront peut-être pas toujours sur le même échantillon.

Traitement des données manquantes[modifier | modifier le wikicode]

Les données manquantes traitées :

  • Durant la collecte : incitations à répondre (cadeau, tirage au sort…)
  • Après la collecte : Imputation, reconstitution de la vraie valeur à partir d’un autre fichier de données.

Dans certains cas, il n’y malheureusement pas de moyen pour traiter les données manquantes et il ne rste qu’à prendre en compte le fait que certaines données sont absentes.

Données aberrantes[modifier | modifier le wikicode]

Les données aberrantes sont les données dont la valeur est clairement fausse :

  • Valeurs trop grandes ou trop petites (personne de 3m)
  • Valeurs impossibles (âge négatif)
  • Incompatibilité entre les valeurs de deux variables (enfant ayant le permis de conduire)

Ces données doivent être détectées puis corrigées ou dans le pire des cas remplacées par des données manquantes.

Construction de nouvelles variables[modifier | modifier le wikicode]

Certains items d’un questionnaire forment une échelle et ne sont pas destinées à l’analyse séparément. Il est aussi possible de créer de nouvelles variables en combinant les variables existantes.