Introduction Enjeux de la collecte et types de données

De Baripedia

On laisse derrière nous le pôle méthodologique où on a établi un dessin de recherche adéquat et on a opérationnalisé nos concepts afin de le rendre réalisable. On va porter notre attention sur la récolte de données individuelles en passant par le sondage qui sera l’outil principal.

L’enjeu principal dans la récolte de données est d’arriver à être systématique. Les données sont des éléments d’information qui sont récoltés de façon systématique que ce soit sous forme quantitative ou qualitative. Ceci est également exprimé dans la citation de King et all. :

« Data are systematically collected elements of information about the world ». (1994)

Enjeux de la collecte de données[modifier | modifier le wikicode]

Récolte systématisée[modifier | modifier le wikicode]

Il est nécessaire de trouver des supports qui permettent une telle systématicité et d’éviter des biais potentiels. Par exemple, si on veut connaître le volume de participants aux manifestations de rue, on se rend compte que les chiffres varient selon la source (police, organisateurs de la manifestation, médias). Il existe toujours différentes stratégies possibles pour en rendre compte sauf qu’il est important de justifier notre choix de source de données.

Une stratégie pour faire une collecte systématique est de prendre systématiquement la même source d’information. Une autre serait de faire une moyenne des sources disponibles. Le point essentiel est d’avoir toujours le même indicateur dans l’espace et dans le temps sinon la collecte n’est pas systématique. Ceci est facile en théorie mais en pratique, ce n’est pas toujours possible. Dans la pratique, il faut essayer de minimiser deux types de biais :

  • Biais aléatoires ou structurels
  • Biais systématiques : variations structurelles

Exemple : nombres de participants dans une manifestation

Si on prend comme source les chiffres de la police, on est confronté à un biais systématique, c’est-à-dire une tendance à sous-estimer le nombre de participants. Si on prend comme source les chiffres des organisateurs d’une manifestation, on est aussi confronté à un biais systématique et il y a une surestimation du nombre de participants. Par contre, si on prend comme source les chiffres des médias, on risque d’avoir un biais aléatoire, c’est-à-dire une fois une sous et l’autre fois une surestimation. On est confronté à des variations aléatoires qui ne sont pas systématiques et qui sont dues à un problème de fiabilité de la mesure. Ainsi, il faut changer l’indicateur pour éviter des résultats non fiables.

Objectifs[modifier | modifier le wikicode]

Pour avoir des données de bonnes qualités, on doit se fixer comme objectifs de récolter des données de manière systématique. Il faut éviter les biais aléatoires puis identifier les biais systématiques et les prendre en compte dans l’analyse des résultats. Dans la recherche comparative, pour éviter les biais aléatoires, il faut garder le même support ou le même indicateur. On parle notamment de critères et indicateurs invariants, c’est-à-dire des indicateurs qui ne changent pas dans le temps et l’espace.

Pour évaluer la classe sociale dans laquelle un ménage se trouve, on peut utiliser plusieurs indicateurs. Certains indicateurs (possession d’une télévision en couleur) ont été créés vers 1980 sauf est-ce qu’il faut le garder, le supprimer ou le modifier ? Dans un panel, on veut toujours garder les mêmes indicateurs pour éviter des biais aléatoires mais ceci n’empêche pas l’introduction d’autres problèmes de mesure comme dans cet exemple. Les biais aléatoires et systématiques sont un enjeu dans le temps, comme dans le panel, mais d’autres exemples peuvent être trouvés dans la comparaison entre pays comme le taux de chômage qui peut être mesuré selon des critères différents dans l’espace. Particulièrement dans la recherche comparative, on est dans le besoin de combiner différentes bases de données pour comparer la population.

Exemple : la controverse autour du votant américain

Cette controverse se jouait par beaucoup de publications (1960-2000) mais notamment autour de deux ouvrages, à savoir The American Voter et The Changing American Voter. Le modèle de Michigan a été critiqué 16 ans après par le second ouvrage sauf que ce sont des différents indicateurs qui ont été pris pour formuler la critique. Donc le second ouvrage a lui-même été critiqué.

Qualité des données[modifier | modifier le wikicode]

Pour obtenir une qualité des données, il faut trouver les biais. Il est notamment nécessaire de cerner les biais potentiels. Il faut toujours être l’affût de ce problème sinon on pourrait être confronté à un artefact statistique qui est un faux résultat puisqu’on n’a pas utilisé les bons indicateurs ou on a oublié de regarder les relations avec des variables concurrentes.

La règle d’or est de maximiser la validité des mesures et de maximiser la fiabilité des mesures. Au moment de l’opérationnalisation, on peut maximiser la validité des mesures. Il est impératif d’être scrupuleux dans l’opérationnalisation de nos concepts et de prendre plusieurs indicateurs pour les concepts clés.

Par exemple : une mesure du chômage pour évaluer l’état de l’économie

Il faut être conscient et transparent sur les limites potentielles de nos mesures. Le taux de chômage peut être corrélé à l’état de l’économie sauf qu’ils ne sont pas synonymes.

Une fois que la validité est assurée, il faut également s’assurer que nos mesures sont fiables. Ce contrôle se fait au moment de la sélection des indicateurs et on évalue si la mesure produit le même résultat dans l’espace et dans le temps. Une technique pour s’en assurer est de reprendre des mesures existantes qui ont déjà été testées. On va également essayer de collecter un maximum de données, notamment pour les variables dépendantes et indépendantes centrales. Dans la réalité, ceci se fait toujours sous contrainte de temps et il faut trouver un équilibre dans l’idée de maximiser des informations sur les choses qui nous intéressent.

Dans une recherche sur l’opinion publique, 4 indicateurs sur l’environnement ont été choisis. Dans cet exemple, on peut s’imaginer que chaque indicateur mesure quelque chose de légèrement différent et cela pourrait générer des résultats différents. Pour augmenter la robustesse des analyses, il faut analyser chaque indicateur avant de développer des résultats. Généralement, plusieurs indicateurs nous permettent de renforcer la consistance de la recherche car plus d’indicateurs vont dans la même sens, plus notre résultat est robuste et le teste de notre analyse n’est pas due au hasard.

Anticiper les problèmes[modifier | modifier le wikicode]

Si on est systématique et qu’on veille à une bonne qualité de données, on devrait être capable d’anticiper les problèmes avant la collecte des données et donc de les déjoués en amont. Ces problèmes sont propres à chaque recherche.

Par exemple : il faut être conscient qu’on aurait pour chaque recherche des populations sous-représentées tel que les jeunes.

Un autre problème dont il faut être conscient est la fiabilité des codeurs, c’est-à-dire que si on analyse les articles dans la presse, on utilise plusieurs codeurs pour déterminer la chose dont ils parlent. Il faut s’assurer et mettre des stratégies en place pour que chaque personne identifiée les sujets de la même manière.

Il faut toujours voir s’il y a des différences linguistiques dans une variable (confidence – trust / pas de distinction en français).

Si on regarde dans la temporalité, on pourrait avoir des données manquantes comme c’est le cas lors de la 2ème guerre mondiale. Faut-il écarter ce temps de notre analyse ou en d’autres termes, comment le gérer ?

  • Si on anticipe les problèmes avant la collecte, on peut trouver les problèmes en amont.

Réplicabilité[modifier | modifier le wikicode]

Répliquer des études quantitatives est difficile mais en répliquant le processus de données, on diminue cette difficulté. C’est le cas avec The American Voter où on reprend les données actuellement mais on ne le réplique pas entièrement. Il est nécessaire de tenir un journal de bord sur le processus de récolte de données puisqu’on aura une transparence sur le processus de récolte. Cela va nous permettre d’expliquer comment on a procédé dans les détails et les problèmes qu’on a rencontré au fil de notre recherche. Cela nous permet aussi d’identifier les biais qui se sont introduits. Si on prend compte de ces biais au moment de l’analyse et de l’interprétation des résultats, on peut augmenter la qualité de nos résultats. Un journal de bord est aussi utile pour éviter les artefacts statistiques. Les métadonnées sont des données sur nos données comme par exemple expliquer comment s’est passé notre entretien. Le journal de bord et les métadonnées permettent d’expliciter le processus de récolte de données.

  • Pour avoir une bonne qualité de données, il faut :
  1. Etre systématique et éviter les biais
  2. S’assurer de la validité et de la fiabilité de nos données
  3. Essayer d’anticiper des problèmes
  4. Permettre la réplicabilité le plus possible

Différents types de supports[modifier | modifier le wikicode]

Beaucoup d’informations peuvent être trouvées sur des supports textuels comme des interventions parlementaires. Un support textuel majeur est la presse ou les médias plus généralement pour saisir les débats publics comme la migration pour évaluer la structure des débats avant des élections par exemple. Ces exemples devraient montrer qu’il existe pleins de données textuelles qui peuvent être converties en données chiffrées.

Ceci est également le cas pour des données orales pouvant venir de la TV, de la radio, d’internet etc.

En plus des supports textuels et oraux, il y a la technique d’enquêtes par questionnaire qui implique de récolter des données directement auprès des acteurs. C’est une technique fortement standardisée puisqu’elle est très utilisée en science sociale. Néanmoins, ce n’est pas la seule technique pour collecter des données.

Créativité et imagination[modifier | modifier le wikicode]

Il n’est pas facile de récolter des données en raison de la non-disponibilité ou de la difficulté d’accès à des supports de collecte. On nous apprend des outils de base dans ce cours mais il faut compter sur notre créativité et notre imagination. La recherche de Zuccato a proposé d’analyser les eaux usées pour déterminer le taux de cocaïne que les gens prennent.

Il existe différents processus de récolte de donnée et donc différents types de données qui ont par conséquent différentes types d’application.

Différents types de données[modifier | modifier le wikicode]

Primaires vs secondaires[modifier | modifier le wikicode]

Il faut toujours réfléchir si on veut récolter des données primaires ou utiliser des données secondaires. Les données primaires sont les données que le chercheur récolte lui-même et elles sont spécifiques à une recherche. Ses avantages sont nombreux et substantiels :

  • Elles sont le fruit d’un dessin de recherche qui correspond à la problématique de la recherche.
  • Ce sont des données dont la chercheuse a besoin et elles sont adaptées pour répondre à la question de recherche et pour tester les hypothèses.
  • On peut partir du postulat que la validité est bonne et que les indicateurs sont adéquats.

La raison pour laquelle les chercheurs n’utilisent pas ce type de données est qu’il y a des désavantages considérables. Ce type de données est coûteux en temps en argent. De plus, on peut ne pas avoir la formation requise pour bien récolter les données primaires.

A cause de ces désavantages, les chercheurs utilisent des données secondaires, à savoir des données récoltées par d’autres chercheurs. Leurs avantages sont qu’elles :

  • Soient disponibles et il n’y a pas de coût ni en temps, ni en argent ni en formation.
  • Elles permettent de faire des comparaisons plus facilement.

Sauf que leur désavantage est que ce sont des données qui :

  • Ne sont pas toujours adaptées à notre recherche.
  • On n’a pas toujours les bons indicateurs
  • On est plus confronté à des problèmes de validité.
  • La récolte de données peut comporter des biais qu’on ne connaît pas forcément.
  • Question : Comment choisir entre ces deux types de données ?

Avant de se lancer dans une collecte de données, il faut s’assurer qu’il n’existe pas des données secondaires utilisables. Et si c’est le cas, on peut essayer d’améliorer certains indicateurs en combinant les indices. On privilégie les données secondaires dans la mesure où elles sont adaptées. Sauf qu’il faut être attentif aux problèmes de validité des mesures. Il faut également bien regarder les métadonnées parce qu’elles nous donnent beaucoup d’informations.

Exhaustives vs échantillonnées[modifier | modifier le wikicode]

Les données exhaustives sont les données collectées par l’Etat. Ce sont des données sur l’ensemble de la population qui suppose une énumération complète comme pour les recensements de la population ou pour saisir le flux de migrants. L’avantage principale de ces données apparaît dans son nom puisque l’exhaustivité implique qu’il n’y a pas de bais en termes de représentativité donc il n’y aurait pas d’erreur d’échantillonnage. Toutefois, elles ne sont pas forcément de bonne qualité :

  • Par exemple, si c’est la police qui collecte des données sur la violence, ce sont eux qui déterminent les indicateurs et ce n’est pas forcément en cohérence par rapport à notre recherche. Donc l’exhaustivité n’est pas assurée !
  • De plus, ces données contiennent très peu de variables différentes.
  • Elles coûtent au niveau de l’argent et au niveau de la lourdeur de la collecte
  • Recensements sont en voie de disparition

Dans la plupart des cas, on travaille avec des données échantillonnées qui sont des données tirées d’une portion de la population appelée la « population mère ». Ce peut être la population suisse, des éditions de journaux etc. L’idée d’utilisée un échantillon à la place d’une population est une idée révolutionnaire. Cela consiste à prendre un échantillon représentatif de l’ensemble de la population. A partir de cet échantillon, on fait des inférences statistiques sur la population qu’elle représente. C’est Kiaer qui a eu cette idée au 19ème. Ce type de données ont des avantages puisqu’elles :

  • Augmentent les possibilités de collecte de données dans plusieurs domaines.
  • Augmentent la faisabilité des recherches
  • Rendent le travail de recherche plus facile.
  • En plus de cette flexibilité, elles nous donnent une plus grande importance en tant que chercheur puisqu’on dépend moins de l’Etat. Ceci ne veut pas dire qu’on est complètement indépendant puisque les recherches coûtent cher.
  • La majorité des outils techniques a été élaborés pour ce type de données. Finalement, ce type de données permet une gestion plus facile des données car on a un plus petit fichier de données.

Les désavantages sont que :

  • Les chercheurs nécessitent une expertise puisque la sélection de l’échantillon est un vrai enjeu car il faut assurer la qualité et la représentativité des inférences.
  • De plus, chaque échantillon est confronté à la question de la représentativité. Cela signifie qu’il y a généralement une structure dans les non-réponses qui rend l’échantillon non représentatif.
  • Question : comment choisir entre ces deux types de données ?

On privilégie les données échantillonnées à cause de leur flexibilité. On opte pour l’exhaustivité pour de petites populations. Dans les deux cas, il faut être attentif. Pour les données exhaustives, même si elles sont appelées comme ça, il faut toujours faire attention au biais de sélection. Ceci se fait par exemple sur les groupes qui sont sondées ; les migrants, oui mais lesquels ? Pour les données échantillonnées, il faut toujours analyser la qualité et le taux de non-réponse pour avoir une bonne représentativité.

Individuelles vs agrégées[modifier | modifier le wikicode]

La différence majeure est l’unité d’analyse sur laquelle on collecte des informations. Les données individuelles collectent des données sur les individus comme pour la participation politique, les valeurs ou les aptitudes. L’unité d’analyse sont les individus avec leurs caractéristiques. Cela permet d’analyser la variation, c’est-à-dire la différence entre les individus.

Les données agrégées sont des données sur des agrégats tels que des Etats, des villes, des quartiers, des organisations. Ces données sont utilisées au niveau macro comme pour l’analyse spatiale du politique. Ce sont les caractéristiques des régions par exemple et pas des individus qui y habitent. Par contre, la logique analytique des données agrégées est partagée avec celles des données individuelles ; la logique d’étude des variations sauf que c’est entre les agrégats et pas les individus : Est-ce que la taille des communes a une influence sur la participation électorale ?

Erreur écologique[modifier | modifier le wikicode]

Il est important de distinguer ces deux niveaux pour ne pas faire des erreurs écologiques.

Au niveau individuel, on peut trouver empiriquement que les individus avec des difficultés financières tendent à voter à gaucher mais cela ne signifie pas qu’en période de crise, les partis de gauche ont les scores les plus élevés. Si on confond le niveau macro et micro, on fait une erreur écologique.

On peut distinguer entre hypothèses et données. Les deux peuvent être de niveau individuel ou agrégé. Tant qu’on teste les hypothèses avec les données récoltés au même niveau, il n’y a pas de problème. L’erreur écologique consiste à analyser les hypothèses avec les données récoltes qui ne sont pas du même niveau (agrégé avec individuel). En d’autres termes, c’est le fait de tester des hypothèses au niveau individuel avec des données agrégées. Ou encore, le fait d’analyser des propriétés individuelles inférées sur la base d’observations faites au niveau agrégé.

Exemple : l’étude de Pisa a trouvé que la Suisse est forte en mathématique mais cela ne signifie pas que tout écolier est fort en mathématique. Il y a ainsi une forte variance et donc pas d’homogénéité !

A l’origine de cette erreur, il y a l’étude de W. Robinson qui s’intéresse au lien entre le taux d’analphabétisme et le taux d’immigré dans un Etat américain.

Conclusion[modifier | modifier le wikicode]

Il faut faire attention à l’unité d’analyse de la recherche ! On peut agréger des données individuelles mais l’inverse n’est pas possible ! Une manière pour combiner les deux niveaux sont les analyses multiniveaux qui est une analyse poussée mais même ici, on conserve chaque niveau séparément. On analyse la relation à un niveau en étant sous le contrôle de l’autre. Néanmoins, on analyse toujours les interactions entre les différents niveaux.