« Procesamiento de datos » : différence entre les versions

De Baripedia
Aucun résumé des modifications
Aucun résumé des modifications
 
(11 versions intermédiaires par le même utilisateur non affichées)
Ligne 7 : Ligne 7 :
  | assistants =   
  | assistants =   
  | enregistrement =  
  | enregistrement =  
  | cours = [[Introduction aux méthodes de la science-politique]]
  | cours = [[Introducción a los métodos de la ciencia política]]
  | lectures =
  | lectures =
* [[Cours introductif aux méthodes de la science-politique]]
* [[Curso de introducción a los métodos de la ciencia-política]]
* [[Le paradigme positiviste et le paradigme interprétatif]]
* [[El paradigma positivista y el paradigma interpretativo]]
* [[Les méthodes scientifiques fondamentales]]
* [[Los métodos científicos fundamentales]]
* [[De la théorie aux données]]
* [[De la teoría a los datos]]
* [[Le recueil des données]]
* [[Recolección de datos]]
* [[Le traitement des données]]
* [[Procesamiento de datos]]
}}El análisis de los datos cuantitativos es muy diferente del análisis de los datos cualitativos; son dos prácticas de investigación muy diferentes, si no opuestas.
}}
 
El análisis de los datos cuantitativos es muy diferente del análisis de los datos cualitativos; son dos prácticas de investigación muy diferentes, si no opuestas.
 
Nos centraremos en el análisis cuantitativo, que en realidad es más fácil que el análisis cualitativo de datos, aunque sólo sea porque hay rutinas institucionalizadas.


Nos centraremos en el análisis cuantitativo, que en realidad es más fácil que el análisis cualitativo de datos, aunque sólo sea porque hay rutinas institucionalizadas.{{Translations
{{Translations
| en = The processing of data
| en = The processing of data
| fr = Le traitement des données
| fr = Le traitement des données
| it = Trattamento dei dati
}}
}}


= Matriz de datos =
= Matriz de datos =
[[Fichier:Matrice des données.png|500px|vignette|centré]]
[[Fichier:Matrice des données.png|500px|vignette|centré]]Es una matriz que cruza los casos estudiados con una serie de variables, a saber, variables de columna y casos de fila.
C’est une matrice qui croise les cas étudiés avec un certain nombre de variables à savoir les variables en colonne et les cas en ligne.
 
Se debe asignar un código para excluir del análisis a los que no respondieron y para diferenciarlos de los que sí respondieron.
Il faut attribuer un code qui permette d’exclure de l’analyse ceux qui n’ont pas répondu et les différencier de ceux qui ont répondu.
 
Hay tres análisis que corresponden a tres objetivos diferentes:
Il y a trois analyses qui correspondent à trois objectifs différents :
*'''análisis univariados''': análisis que se realizan sobre una sola variable o característica.
*'''analyses univariées''' : analyses qui se font sur une seule variable ou une seule caractéristique.
*'''análisis bivariables''': vinculando dos variables, queremos cruzar datos para analizar variaciones más sutiles como el interés de la política según la ciudad o la edad.
*'''analyses bivariées''' : mise en relation de deux variables, on veut croiser des données pour analyser les variations plus subtilement comme l’intérêt de la politique selon la ville ou l’âge.
*'''análisis multivariados''': pensamos que un fenómeno explicado nunca se explica por una sola variable independiente; por otro lado queremos introducir controles para controlar las relaciones a través de la técnica de purificación.
*'''analyses multivariées''' : on pense qu’un phénomène expliqué n’est jamais expliqué par une seule variable indépendante ; d’autre part on veut introduire des contrôles afin de contrôler les relations à travers la technique de la dépuration.
   
   
Il faut faire une distinction entre une analyse descriptive qui veut décrire un « état de fait » que l’on fait univariée ou bivariée.
Hay que distinguir entre un análisis descriptivo que pretende describir una "situación de hecho" univariada o bivariada.


= Types d’analyses univariées =
= Tipos de análisis univariados =
[[Fichier:Types d’analyses univariées.png|500px|vignette|centré]]
[[Fichier:Types d’analyses univariées.png|500px|vignette|centré]]


== Types de variables et opérations entre modalités ==
== Tipos de variables y operaciones entre modalidades ==
Il y a différents types d’analyses univariées, ces techniques dépendent du type de variable :
Existen diferentes tipos de análisis univariados, estas técnicas dependen del tipo de variable:
*'''variables nominales''' : on peut faire seulement des opérations d’équivalence ou de différence.
*'''variables nominales''': sólo se pueden realizar operaciones de equivalencia o diferencia.
*'''variables ordinales''' : permet d’ordonner c’est-à-dire catégoriser selon un ordre du plus petit au plus grand.
*'''variables ordinales''': permite ordenar, es decir, categorizar según un orden desde el más pequeño hasta el más grande.
Nota bene : les variables ordinales et cardinales sont catégorielles, relevant de données discrètes, on ne peut voir les distances.
Nota: las variables ordinales y cardinales son categóricas, se basan en datos discretos, las distancias no se pueden ver.
*'''variables cardinales''' : permettent en plus des opérations précédentes de faire les quatre opérations arithmétiques de base.
*'''variables cardinales''': además de las operaciones anteriores, permiten realizar las cuatro operaciones aritméticas básicas.
 
== Medición central de tendencias ==
Al realizar un análisis cuantitativo, es necesario considerar el tipo de variables y luego elegir la herramienta a utilizar. Podemos distinguir entre dos tipos principales de medidas, es decir, entre dos tipos de información que queremos que tengan variables únicas:
* medidas de tendencia central
* medidas de dispersión.
Nota: dependiendo de la variable, las medidas son diferentes.
 
La media es una medida de valor de tendencia central que puede aplicarse a variables cardinales, pero no a variables categóricas. La mediana es la categoría que separa las series estadísticas en dos con el mismo número de casos por un lado y por el otro.
 
Esta es una información importante que constituye el punto de partida para este tipo de descripción de datos para determinar qué hacer a continuación en el caso de análisis más sofisticados.
 
== Medición de dispersión ==
También se distinguen las medidas de dispersión: la medida básica es la desviación estándar, que es una medida estandarizada que varía de -1 a +1 de la varianza, que es la medida que indica cómo se distribuyen los individuos.
 
La varianza es muy importante para calcular la probabilidad de error. Se requieren diferentes medidas dependiendo de la unidad de medida de la variable y la medida de la tendencia central y la dispersión, como la desviación estándar, que es el coeficiente clave, debe tenerse en cuenta a lo largo del análisis cuantitativo.
 
= Tipos de análisis bivariados =
[[Fichier:Types d’analyses bivariées.png|500px|vignette|centré]]En este contexto, deseamos cruzar características en una perspectiva descriptiva o explicativa. Dependiendo del tipo de variable, existen diferentes técnicas para analizar y procesar los datos.


== Mesure de tendance centrale ==
Se deben considerar tanto las variables dependientes como las independientes. Al cruzar, debemos mirar la variable dependiente e independiente para ver si se trata de variables categóricas u ordinales que permiten distinguir tres familias principales de tipos de análisis:
Lorsqu’on fait une analyse quantitative, il faut s’interroger sur le type de variables et ensuite on choisit l’outil à utiliser. On peut distinguer entre deux grands types de mesures c’est-à-dire entre deux types d’informations qu’on veut avoir des variables uniques :
*'''variables categóricas / nominales - nominales''': se realizan tablas de contingencia, no se pueden utilizar otras técnicas. La mayor parte del tiempo en la ciencia política se trata de este tipo de variables, porque las respuestas dan lugar a variables ordinales. Existen coeficientes que nos permiten dar una medida única de la relación entre estas dos variables, como la V de Cramer, que nos permite ver la asociación entre variables categóricas. Para interpretar, es importante que el porcentaje total se refiera siempre a las categorías de la variable independiente; queremos ver cómo la distribución de la variable dependiente depende de las funciones de la variable independiente. La indicación del número de casos muestra si el proceso es estadísticamente representativo, ya que el tamaño de la muestra afecta a la medición.
*mesures de tendance centrale
*'''variables cardinales - cardinales''': ya no hacemos una tabulación cruzada, utilizamos otras herramientas y en particular la herramienta de regresión y correlación:
*mesures de dispersion.  
**'''covariable''': cuando hay dos variables continuas, cuando una aumenta la otra aumenta proporcional o inversamente proporcional, las dos variables están vinculadas en esta dirección.
Nota bene : selon la variable les mesures sont différentes.
**'''correlación''': es simplemente un covariable estandarizado, es decir, está entre -1 y +1. Estandarizamos para asegurar que se comparen las variables que se miden de manera diferente en la base; si, por ejemplo, tenemos escalas de 0 a 10 y escalas de 0 a 5, no podemos comparar estas variables, entonces debemos asegurarnos de que esta información esté estandarizada. Las variables pueden repetirse en la misma escala o software que calcula una correlación estandarizada.
**'''regresión''': en una correlación estamos en una perspectiva descriptiva, no intentamos ver una dirección de causalidad en una regresión queremos ver si dos variables están asociadas, vinculadas, correlacionadas.
   
   
La moyenne est une mesure de valeur de tendance centrale que l’on peut appliquer aux variables cardinales, mais on ne peut l’appliquer aux variables catégorielles. La médiane est la catégorie qui sépare la série statistique en deux avec un même nombre de cas d’un côté et de l’autre.
*'''variables independientes nominales - variables dependientes cardinales''': no se pueden aplicar tabulaciones cruzadas, correlaciones y regresiones; se realiza un análisis de varianza o covarianza, cuyo caso más simple es una comparación de promedios, que podría ser, por ejemplo, el número de veces que los individuos participan en una elección según el cantón.
 
Ce sont des informations importantes qui forment le point de départ de ce type de description des données permettant de savoir quoi faire ensuite dans le cas d’analyses plus sophistiquées
= Regresión lineal =
[[Fichier:Régression linéaire.png|500px|vignette|centré]]Es un conjunto de herramientas muy variado y a veces complejo, pero es la herramienta principal. La regresión lineal es el elemento principal; gran parte del análisis cuantitativo en las ciencias sociales se basa en la regresión lineal.
 
Hablamos de linealidad, porque suponemos que hay una relación lineal entre las variables que estudiamos, es decir, que hay una función lineal detrás de esta relación; sin embargo, también podemos considerar regresiones que no son sólo lineales.
 
Se asume que lo que queremos explicar es una función lineal de una o más variables independientes. Esto es crucial, porque la regresión lineal es sólo un subconjunto de una familia más amplia de análisis de regresión que no se basa en una idea de linealidad entre las dos variables.
 
El modelo más sencillo es con una variable explicativa como, por ejemplo, la participación política según el interés político.
 
En términos descriptivos existe una fuerte correlación entre estas dos variables; si una hipótesis dice que es el interés político lo que influye en la participación, entonces se hace un análisis de regresión.
 
Siempre tenemos el problema de la endogeneidad en este tipo de análisis, postulamos que el interés por la política determina la participación; también podríamos postular que cuanto más participamos, más desarrollamos un interés por la política.
 
La participación política es una función lineal de interés político "más" un factor constante, es decir, el valor de Y cuando X es igual a 0, es decir, cuál es mi nivel de participación cuando el interés político es cero. En la parte inferior es donde la línea de regresión cruza el eje y.
 
En el análisis multivariado siempre hay un margen de error; una cosa está relacionada si tenemos datos de encuestas relacionados con el margen de error entre población y muestra, pero independientemente de si estamos trabajando con muestras o con una población en general; siempre hay un término de error involucrado, porque siempre hay algo que influye en lo que queremos explicar y que no está incluido en el modelo de regresión como, por ejemplo, la educación, la edad, el contexto social, institucional, etc.
 
De hecho, la E agrupa la varianza no explicada, es decir, todo lo que podría explicar la Y, pero no se introduce en el modelo, es el problema de la subespecificación del modelo, es decir, la cuestión relativa a la especificación del modelo; cuantas más variables tenga un modelo, más probable es que se subespecifique y se expliquen menos variaciones en la Y, y cuanto más alta sea la E en términos de error, más se reducirá a un mínimo la E.
 
Esto sugiere que no incluir algunas variables en un modelo explicativo tiene dos consecuencias principales:
*el modelo está subespecificado, hay poca explicación de la variabilidad de Y con este modelo, es decir, los factores fuertemente correlacionados con lo que queremos estudiar.
*la segunda razón está relacionada con el control de las variables, porque si se introduce el interés en la política, una tercera variable puede influir en el interés en la política y la participación en la política; la asociación es engañosa.
Queremos incluir tantas variables como sea posible que pensamos pueden influir directamente en Y o indirectamente haciendo que la relación entre X e Y sea falsa o sólo aparente.
 
La B es el coeficiente de regresión, es decir, la pendiente de la línea de regresión que da la fuerza del efecto X porque se multiplica por X, es decir, cuanto más fuerte es el efecto X, más alta es la B.
 
La B puede ser no estandarizada o estandarizada. "Estandarización" significa normalizar y el propósito es poder comparar diferentes coeficientes.
 
Estamos en una lógica aditiva, hay "+"; suponemos que la variación de Y es una función lineal es aditiva o acumulativa del efecto de todas las demás variables introducidas en el modelo.
 
= Línea de regresión =
[[Fichier:Droite de régression.png|500px|vignette|centré]]La línea de regresión representa la función de regresión lineal. Queremos ver cuánto aumenta Y cuando aumentamos X. Supongamos que los (0; 12) son el interés en la política y la otra participación política; podemos ver que hay una correlación bastante fuerte entre los dos, cuando tenemos un aumento en el interés en la política aumentamos la participación política.
 
Los puntos azules representan los casos, la línea de regresión es la estimación de los valores, por lo que veremos hasta dónde y cómo esta línea se encuentra con una nube de puntos.
 
La calidad del modelo tiene que ver con la calidad de la estimación, que depende mucho de cómo se distribuyen los puntos. Es posible que la nube de puntos se estime para una línea que tiene la misma pendiente, sin embargo la calidad de este efecto es la misma mientras que es diferente porque la línea sólo hace una aproximación mucho más precisa de la nube de puntos o los puntos están cerca de la línea.
 
Cabe señalar que es uno de los principales instrumentos preferidos para el análisis cuantitativo cuando se trata de variables de intervalo o cardinales y de análisis de correlación o regresión.
 
La idea de regresión lineal, que es un subconjunto de un conjunto mayor, se basa en la idea de una función lineal entre X e Y; tratamos de estimar una nube de puntos que represente la intersección entre las dos variables de la muestra, por lo que analizaremos la línea de regresión y su pendiente. Si la pendiente es 0 entonces Y no cambia cuando cambias X, puedes estar muy interesado en la política, pero siempre participas en el mismo nivel.
 
= Análisis multivariados =


== Mesure de dispersions ==
== Análisis de regresión ==
On distingue aussi des mesures de dispersions : la mesure de base est l’écart-type qui est une mesure standardisée qui varie de -1 à +1 de la variance qui est la mesure qui indique de quelle manière sont distribués les individus.
Dependiendo del tipo de variables que se quiera explicar, se puede o no aplicar la herramienta de regresión lineal, por ejemplo, hay regresión logística en el caso de variables ficticias, ya sea de ausencia o de presencia, no se puede aplicar regresión lineal, porque los supuestos básicos no están garantizados.
La variance est très importante pour calculer la probabilité d’erreur. Il faut différentes mesures selon l’unité de mesure de la variable et il faut tenir compte de la mesure de tendance centrale et de dispersion comme l’écart-type qui est le coefficient clef dans toute l’analyse quantitative.


= Types d’analyses bivariées =
== Análisis de las vías causales (path analysis) ==
[[Fichier:Types d’analyses bivariées.png|500px|vignette|centré]]
Uno de los problemas del análisis de regresión es que asumimos que Y es una función lineal de la suma de todas las variables independientes o cuando observamos los efectos directos de las variables en un modelo; sin embargo, ¿qué sucede cuando queremos observar los efectos indirectos?


Dans ce cadre on souhaite croiser des caractéristiques soit dans une optique descriptive soit dans une optique explicative. En fonction du type de variable, on a des techniques différentes pour analyser et traiter les données.
Hacemos un análisis de "caminos causales"; hay coeficientes de regresión que pueden o no ser significativos, pero podemos ver caminos causales, es decir, podemos ver cómo los valores de la izquierda influyen en la participación no directa, sino indirectamente, es decir, que el hecho de estar en la izquierda hace que sea más probable que nos integremos en ciertos tipos de redes desarrolla una Internet para un determinado tema que nos permite desarrollar un sentimiento de eficacia individual que nos hace tener una mayor intensidad de participación. Se introducen variables intermedias.
Il faut s’intéresser à la fois aux variables dépendantes et aux variables indépendantes. En croisant, il faut regarder du côté de la variable dépendante et indépendante si on a affaire à des variables catégorielles ou ordinales permettant de distinguer trois grandes familles de types d’analyses :
*'''variables catégorielles / nominale - nominale''' : on fait des tableaux de contingence, on ne peut utiliser les autres techniques. La plupart du temps en science politique on a affaire à ce type de variables, car les réponses donnent lieu à des variables ordinales. Il y a des coefficients qui permettent de donner une mesure unique de la relation entre ces deux variables comme le V de Cramer qui permet de voir l’association entre variables catégorielles. Pour interpréter, il est important que le pourcentage total doit toujours se référer aux catégories de la variable indépendante ; on veut voir comment la distribution sur la variable dépendante dépend des fonctions dans la variable indépendante. L’indication du nombre de cas permet de voir si le processus est statistiquement représentatif, car la taille de l’échantillon affecte la mesure.
*'''variables cardinales - cardinales''': on ne fait plus un tableau croisé, on à d’autres outils et en particulier l’outil de la régression et de la corrélation :
**'''covariation''' : lorsqu’on a deux variables continues, lorsqu’une augmente l’autre augmente de manière proportionnelle ou inversement proportionnelle, les deux variables sont liées dans ce sens.
**'''corrélation''' : c’est simplement une covariation standardisée c’est-à-dire qui se situe entre -1 et +1. On standardise pour faire en sorte de comparer des variables qui à la base sont mesurées de manière différente ; si on a par exemple des échelles de 0 à 10 et des échelles allant de 0 à 5 on ne peut comparer ces variables alors il faut faire en sorte de standardiser ces informations. On peut reconduire les variables sur la même échelle ou un logiciel qui calcule une corrélation standardisée.
**'''régression''' : dans une corrélation on est dans une optique descriptive, on ne cherche pas à voir une direction de la causalité dans une régression on veut voir si deux variables sont associées, liées, corrélées.
*'''variables indépendantes nominales – variables dépendantes cardinales''' : on ne peut appliquer les tableaux croisés ni les corrélations et régressions ; on fait une analyse de la variance ou de la covariance dont le cas le plus simple est une comparaison de moyennes qui pourrait par exemple être le nombre de fois que les individus participent à une élection en fonction du canton.


= Régression linéaire =
En lugar de tener una indicación, tenemos varias porque cada variable puede o es una variable dependiente, hacemos una suma de ecuaciones.
[[Fichier:Régression linéaire.png|500px|vignette|centré]]


C’est un ensemble très varié et parfois complexe d’outils, mais c’est l’outil principal. La régression linéaire est l’élément principal ; une bonne partie des analyses quantitatives faites en science sociale s’appuient sur la régression linéaire.
== Análisis factorial ==
Es un análisis que busca reducir la complejidad que se puede lograr cuando se tiene una matriz de datos con muchas variables y casos y se desea un índice más sucinto.
On parle de linéarité, car on postule qu’il y a une relation linéaire entre les variables qu’on étudie, en d’autres termes il y a une fonction linéaire derrière cette relation ; cependant, on peut aussi envisager des régressions qui ne sont pas que linéaires.
On présuppose que ce qu’on veut expliquer est une fonction linéaire d’une ou plusieurs variables indépendantes. Cela est crucial, car la régression linéaire n’est qu’un sous-ensemble d’une famille plus large d’analyses de régressions qui ne se base pas sur une idée de linéarité entre les deux variables.
Le modèle le plus simple est avec une variable explicative comme, par exemple, la participation politique en fonction de l’intérêt pour la politique.
En terme descriptif il y a une forte corrélation entre ces deux variables ; si une hypothèse dit que c’est l’intérêt pour la politique qui influence la participation alors on fait une analyse de régression.
On a toujours le problème de l’endogénéité dans ce type d’analyse, on postule que l’intérêt pour la politique détermine une participation ; on pourrait aussi postuler que plus on participe plus on développe un intérêt pour la politique.
La participation politique est une fonction linéaire de l’intérêt pour la politique « plus » un facteur constant à savoir la valeur de Y lorsque X est égal à 0 c’est-à-dire quel est mon niveau de participation lorsque l’intérêt pour la politique est nul. Au fond c’est où la droite de régression croise l’axe des ordonnées.
Dans l’analyse multivariée, il y a toujours une marge d’erreur ; une chose est liée si on des données du sondage liées à la marge d’erreur entre population et échantillon, mais indépendamment qu’on soit en train de travailler sur des échantillons ou une population globale ; il y a un terme d’erreur qui intervient, car il y a toujours quelque chose qui influence ce qu’on veut expliquer et qui n’est pas inclus dans le modèle de régression comme, par exemple, l’éducation, l’âge, le contexte social, institutionnel, etc.
En fait, le E regroupe la variance non expliquée à savoir tout ce qui pourrait expliquer Y, mais n’est pas introduit dans le modèle, c’est le problème de la sous-spécification du modèle à savoir l’enjeu concernant la spécification du modèle ; plus un modèle a plus de variables plus il risque d’être sous-spécifié et moins on explique de variations dans le Y et plus le E en termes d’erreur est élevé, on veut réduire au maximum le E.
Ceci permet de dire que le fait de ne pas inclure certaines variables dans un modèle explicatif à deux conséquences majeures :
*le modèle est sous-spécifié, on explique peu la variabilité de Y avec ce modèle c’est-à-dire les facteurs fortement corrélés avec ce que l’on souhaite étudier.
*la deuxième raison est liée au contrôle des variables, car si on introduit l’intérêt pour la politique, une troisième variable peut influencer l’intérêt pour la politique et la participation pour la politique ; l’association est fallacieuse.
On veut inclure le maximum de variables dont on pense qu’elle peut influencer directement Y ou indirectement faisant que la relation entre X et Y soit fausse ou seulement apparente.
Le B est le coefficient de régression à savoir la pente de la droite de régression donnant la force de l’effet du X car il est multiplicatif par X c’est-à-dire que plus l’effet de X est fort plus B est élevé.
Le B peut être non standardisé ou standardisé. « Standardisation » signifie normaliser et le but est de pouvoir comparer des coefficients différents.
On est dans une logique additive, il y a des « + » ; on suppose que la variation de Y est une fonction linéaire est additive ou cumulée de l’effet de toutes les autres variables introduites dans le modèle.


= Droite de régression =
Cuando hablamos de operacionalizar conceptos complejos, llegamos a la última etapa de construcción; el análisis factorial nos permite construir índices mediante el análisis de los vínculos subyacentes que explican la variación en un conjunto múltiple de indicadores.
[[Fichier:Droite de régression.png|500px|vignette|centré]]


La droite de régression représente la fonction de régression linéaire. On veut regarder de combien augmente Y lorsqu’on augmente X. admettons que les (0 ; 12) sont l’intérêt pour la politique et l’autre la participation politique; on peut voir qu’il y a une corrélation assez forte entre les deux, lorsqu’on a une augmentation de l’intérêt pour la politique on augmente la participation politique.
Es una herramienta que se utiliza con frecuencia en la ciencia política y, en particular, en el estudio de los cambios de valores.
Les points bleus représentent les cas, la droite de régression est l’estimation des valeurs et donc on va regarder dans quelle mesure et comment cette droite rencontre un nuage de points.
La qualité du modèle a à voir à la qualité de l’estimation qui dépend beaucoup de la manière dont sont distribués les points. Il est possible que le nuage de point soit estimé pour une droite qui a la même pente, toutefois la qualité de cet effet est le même alors qu’il est diffèrent parce que la droite ne fait qu’une approximation beaucoup plus précise du nuage de points ou les points sont proches de la droite.
Il faut retenir que l’un des principaux instruments privilégiés pour l’analyse quantitative lorsqu’on a à faire à des variables intervalles ou cardinal et l’analyse de la corrélation ou de la régression.
L’idée de la régression linéaire qui est un sous-ensemble d’un ensemble plus vaste se base sur l’idée d’une fonction linéaire entre X et Y ; on essaie d’estimer un nuage de points qui représente le croisement entre les deux variables dans l’échantillon donc on va analyser la droite de régression et sa pente. Si la pente est de 0 alors Y ne change pas quand on change X, on peut être très intéressé à la politique, mais on y participe toujours au même niveau.


= Analyses multivariées =
== Análisis multinivel ==
Antes todas las medidas se referían a variables individuales, ahora hay propiedades de contexto que no son del individuo y que pueden influir en la participación política, como el sistema electoral o el tipo de sistema político.


== Analyse de régression ==
En una perspectiva de regresión normal hay maneras de evitar el problema, no se pueden integrar factores contextuales en el análisis que simplemente se puede comparar.
Selon le type de variables que l’on souhaite expliquer, on peut ou on ne peut pas appliquer l’outil de régression linéaire, il y a par exemple la régression logistique dans le cas de variables dummies soit absence ou présence, on ne peut appliquer la régression linéaire, car les présupposés de base ne sont pas garantis.


== Analyse des chemins causaux (path analysis) ==
El análisis multinivel permite el análisis de regresión multinivel, añadiendo propiedades de contexto y no sólo propiedades individuales; integrando propiedades individuales y contextuales. Existe este importante avance en la ciencia política.
Un des problèmes de l’analyse de la régression est qu’on suppose que Y est une fonction linéaire de la somme de toutes les variables indépendantes or se faisant on regarde que les effets directs des variables d’un modèle ; toutefois que se passe-t-il lorsqu’on veut regarder des effets indirects ?
On fait une analyse des « chemins causaux » ; il y a des coefficients de régression qui peuvent être significatif ou pas, mais on peut voir des chemins causaux c’est-à-dire qu’on peut voir de quelle manière les valeurs de gauche influence la participation non pas directement, mais indirectement à savoir que le fait d’être de gauche fait qu’on a plus de probabilités d’être intégré dans certains types de réseau développent un internet pour un certain enjeu qui permet de développer un sentiment d’efficacité individuel faisant qu’on a une intensité plus forte de participation. On introduit des variables intermédiaires.
Au lieu d’avoir une indication, on en a plusieurs parce que chaque variable peut ou est une variable dépendante, on fait une somme d’équations.


== Analyse factorielle ==
= Tipo de métodos cualitativos =
C’est une analyse qui a pour objectif de réduire la complexité qu’on peut avoir lorsqu’on a une matrice de données avec beaucoup de variables et de cas et que l’on veut avoir un index plus succinct.
Se puede hacer una distinción entre el análisis de contenido y el análisis del discurso. No hay consenso en la literatura sobre estos términos, algunos creen que el análisis del discurso es un tipo de análisis del contenido y otros no.
Lorsqu’on a parlé d’opérationnalisation des concepts complexes, on est arrivé à une dernière étape de construction ; l’analyse factorielle permet de construire des index par l’analyse des liens sous-jacents qui expliquent la variation sur un ensemble multiple d’indicateurs.
C’est un outil fréquemment utilisé en science politique et notamment lorsqu’on étudie les changements de valeurs.


== Analyse multiniveaux ==
== Análisis de contenido ==
Auparavant toutes les mesures concernaient les variables individuelles, maintenant il y a des propriétés du contexte qui ne sont pas de l’individu qui peuvent influencer la participation politique comme le système électoral ou le type de système politique.
El análisis de contenido se interesa por el peso, es más descriptivo, se interesa por las diferentes cuestiones planteadas por las personas. Se puede hacer otra distinción:
*'''temático''': se cuenta el número de veces que un tema de este tipo aparece en un discurso.
Dans une optique de régression normale il y a des manières de court-circuiter le problème, on ne peut intégrer les facteurs contextuels dans l’analyse on peut simplement comparer.
*'''léxico''': análisis basado en el análisis de ocurrencias o co-ocurrencias, es decir, un análisis cualitativo que tiene elementos de análisis cuantitativo.
L’analyse multiniveau permet de faire une analyse de régression multiniveau, on ajoute des propriétés du contexte et pas seulement des propriétés individuelles ; on intègre des propriétés individuelles et contextuelles. Il y a ce développement important en sciences politiques.
= Type de méthodes qualitatives =
On peut faire une distinction entre l’analyse de contenu et l’analyse de discours. Ces termes ne font pas le consensus dans la littérature, certains estiment que l’analyse de discours est un type d’analyse de contenu et pour d’autres ce n’est pas le cas.


== Analyse de contenu ==
== Análisis de discurso ==
L’analyse de contenu s’intéresse au poids, elle est plus descriptive, elle s’intéresse aux différents enjeux soulevés par des personnes. On peut faire une distinction ultérieure :
Es un análisis interpretativo, estamos hablando de una familia de técnicas, podemos decir que estamos interesados en cómo y cuáles son los efectos de un determinado discurso.
*'''thématique''' : on compte le nombre de fois qu’un tel thème apparaît dans un discours.
*'''lexicale''' : analyse basée sur l’analyse des occurrences ou cooccurrences à savoir une analyse qualitative qui a des éléments d’analyse quantitative.


== Analyse de discours ==
Para simplificar, el análisis de contenido es más bien descriptivo y explicativo.
C’est une analyse interprétative, on parle d’une famille de techniques, on peut dire qu’on s’intéresse à comment et aux effets d’un discours donné.
Pour simplifier, l‘analyse de contenu est plutôt descriptive et l’analyse de discours explicatif.


= Étapes de l’analyse thématique =
= Pasos en el análisis temático =
Il y a cinq grandes étapes :
Hay cinco pasos principales:
#'''familiarisation''' (préanalyse) : il faut d’abord se familiariser avec le matériel à disposition.
#'''familiarización''' (pre-análisis): en primer lugar, debe familiarizarse con el equipo disponible.
#'''identification d’un cadre thématique''' (schéma de codage, index) : manière de coder l’information soit d’identifier le cadre thématique.
#'''identificación de un marco temático''' (esquema de codificación, índice): cómo codificar la información o identificar el marco temático.
#'''indexation''' (codage) : réduire l’information.
#'''indexación''' (codificación): reduce la información.
#'''cartographie''' (catégorisation et réduction des données) : création de typologies, de classifications, réduction des données afin de pouvoir les interpréter.
#'''mapeo''' (categorización y reducción de datos): creación de tipologías, clasificaciones, reducción de datos para poder interpretarlos.
#'''mapping et interprétation''' (analyse et interprétation)
#'''mapping e interpretación''' (análisis e interpretación)
=Étapes de l’analyse de discours=
=Pasos en el análisis de discurso=
*Préanalyse
*Pre-análisis
*Identification d'éléments pertinents
*Identificación de elementos relevantes
*Analyse systématique à partir des éléments identifiés
*Análisis sistemático basado en los elementos identificados


= Références =
= Referencias =
<references />
<references />



Version actuelle datée du 16 février 2019 à 03:48


El análisis de los datos cuantitativos es muy diferente del análisis de los datos cualitativos; son dos prácticas de investigación muy diferentes, si no opuestas.

Nos centraremos en el análisis cuantitativo, que en realidad es más fácil que el análisis cualitativo de datos, aunque sólo sea porque hay rutinas institucionalizadas.

Matriz de datos[modifier | modifier le wikicode]

Matrice des données.png

Es una matriz que cruza los casos estudiados con una serie de variables, a saber, variables de columna y casos de fila.

Se debe asignar un código para excluir del análisis a los que no respondieron y para diferenciarlos de los que sí respondieron.

Hay tres análisis que corresponden a tres objetivos diferentes:

  • análisis univariados: análisis que se realizan sobre una sola variable o característica.
  • análisis bivariables: vinculando dos variables, queremos cruzar datos para analizar variaciones más sutiles como el interés de la política según la ciudad o la edad.
  • análisis multivariados: pensamos que un fenómeno explicado nunca se explica por una sola variable independiente; por otro lado queremos introducir controles para controlar las relaciones a través de la técnica de purificación.

Hay que distinguir entre un análisis descriptivo que pretende describir una "situación de hecho" univariada o bivariada.

Tipos de análisis univariados[modifier | modifier le wikicode]

Types d’analyses univariées.png

Tipos de variables y operaciones entre modalidades[modifier | modifier le wikicode]

Existen diferentes tipos de análisis univariados, estas técnicas dependen del tipo de variable:

  • variables nominales: sólo se pueden realizar operaciones de equivalencia o diferencia.
  • variables ordinales: permite ordenar, es decir, categorizar según un orden desde el más pequeño hasta el más grande.

Nota: las variables ordinales y cardinales son categóricas, se basan en datos discretos, las distancias no se pueden ver.

  • variables cardinales: además de las operaciones anteriores, permiten realizar las cuatro operaciones aritméticas básicas.

Medición central de tendencias[modifier | modifier le wikicode]

Al realizar un análisis cuantitativo, es necesario considerar el tipo de variables y luego elegir la herramienta a utilizar. Podemos distinguir entre dos tipos principales de medidas, es decir, entre dos tipos de información que queremos que tengan variables únicas:

  • medidas de tendencia central
  • medidas de dispersión.

Nota: dependiendo de la variable, las medidas son diferentes.

La media es una medida de valor de tendencia central que puede aplicarse a variables cardinales, pero no a variables categóricas. La mediana es la categoría que separa las series estadísticas en dos con el mismo número de casos por un lado y por el otro.

Esta es una información importante que constituye el punto de partida para este tipo de descripción de datos para determinar qué hacer a continuación en el caso de análisis más sofisticados.

Medición de dispersión[modifier | modifier le wikicode]

También se distinguen las medidas de dispersión: la medida básica es la desviación estándar, que es una medida estandarizada que varía de -1 a +1 de la varianza, que es la medida que indica cómo se distribuyen los individuos.

La varianza es muy importante para calcular la probabilidad de error. Se requieren diferentes medidas dependiendo de la unidad de medida de la variable y la medida de la tendencia central y la dispersión, como la desviación estándar, que es el coeficiente clave, debe tenerse en cuenta a lo largo del análisis cuantitativo.

Tipos de análisis bivariados[modifier | modifier le wikicode]

Types d’analyses bivariées.png

En este contexto, deseamos cruzar características en una perspectiva descriptiva o explicativa. Dependiendo del tipo de variable, existen diferentes técnicas para analizar y procesar los datos.

Se deben considerar tanto las variables dependientes como las independientes. Al cruzar, debemos mirar la variable dependiente e independiente para ver si se trata de variables categóricas u ordinales que permiten distinguir tres familias principales de tipos de análisis:

  • variables categóricas / nominales - nominales: se realizan tablas de contingencia, no se pueden utilizar otras técnicas. La mayor parte del tiempo en la ciencia política se trata de este tipo de variables, porque las respuestas dan lugar a variables ordinales. Existen coeficientes que nos permiten dar una medida única de la relación entre estas dos variables, como la V de Cramer, que nos permite ver la asociación entre variables categóricas. Para interpretar, es importante que el porcentaje total se refiera siempre a las categorías de la variable independiente; queremos ver cómo la distribución de la variable dependiente depende de las funciones de la variable independiente. La indicación del número de casos muestra si el proceso es estadísticamente representativo, ya que el tamaño de la muestra afecta a la medición.
  • variables cardinales - cardinales: ya no hacemos una tabulación cruzada, utilizamos otras herramientas y en particular la herramienta de regresión y correlación:
    • covariable: cuando hay dos variables continuas, cuando una aumenta la otra aumenta proporcional o inversamente proporcional, las dos variables están vinculadas en esta dirección.
    • correlación: es simplemente un covariable estandarizado, es decir, está entre -1 y +1. Estandarizamos para asegurar que se comparen las variables que se miden de manera diferente en la base; si, por ejemplo, tenemos escalas de 0 a 10 y escalas de 0 a 5, no podemos comparar estas variables, entonces debemos asegurarnos de que esta información esté estandarizada. Las variables pueden repetirse en la misma escala o software que calcula una correlación estandarizada.
    • regresión: en una correlación estamos en una perspectiva descriptiva, no intentamos ver una dirección de causalidad en una regresión queremos ver si dos variables están asociadas, vinculadas, correlacionadas.
  • variables independientes nominales - variables dependientes cardinales: no se pueden aplicar tabulaciones cruzadas, correlaciones y regresiones; se realiza un análisis de varianza o covarianza, cuyo caso más simple es una comparación de promedios, que podría ser, por ejemplo, el número de veces que los individuos participan en una elección según el cantón.

Regresión lineal[modifier | modifier le wikicode]

Régression linéaire.png

Es un conjunto de herramientas muy variado y a veces complejo, pero es la herramienta principal. La regresión lineal es el elemento principal; gran parte del análisis cuantitativo en las ciencias sociales se basa en la regresión lineal.

Hablamos de linealidad, porque suponemos que hay una relación lineal entre las variables que estudiamos, es decir, que hay una función lineal detrás de esta relación; sin embargo, también podemos considerar regresiones que no son sólo lineales.

Se asume que lo que queremos explicar es una función lineal de una o más variables independientes. Esto es crucial, porque la regresión lineal es sólo un subconjunto de una familia más amplia de análisis de regresión que no se basa en una idea de linealidad entre las dos variables.

El modelo más sencillo es con una variable explicativa como, por ejemplo, la participación política según el interés político.

En términos descriptivos existe una fuerte correlación entre estas dos variables; si una hipótesis dice que es el interés político lo que influye en la participación, entonces se hace un análisis de regresión.

Siempre tenemos el problema de la endogeneidad en este tipo de análisis, postulamos que el interés por la política determina la participación; también podríamos postular que cuanto más participamos, más desarrollamos un interés por la política.

La participación política es una función lineal de interés político "más" un factor constante, es decir, el valor de Y cuando X es igual a 0, es decir, cuál es mi nivel de participación cuando el interés político es cero. En la parte inferior es donde la línea de regresión cruza el eje y.

En el análisis multivariado siempre hay un margen de error; una cosa está relacionada si tenemos datos de encuestas relacionados con el margen de error entre población y muestra, pero independientemente de si estamos trabajando con muestras o con una población en general; siempre hay un término de error involucrado, porque siempre hay algo que influye en lo que queremos explicar y que no está incluido en el modelo de regresión como, por ejemplo, la educación, la edad, el contexto social, institucional, etc.

De hecho, la E agrupa la varianza no explicada, es decir, todo lo que podría explicar la Y, pero no se introduce en el modelo, es el problema de la subespecificación del modelo, es decir, la cuestión relativa a la especificación del modelo; cuantas más variables tenga un modelo, más probable es que se subespecifique y se expliquen menos variaciones en la Y, y cuanto más alta sea la E en términos de error, más se reducirá a un mínimo la E.

Esto sugiere que no incluir algunas variables en un modelo explicativo tiene dos consecuencias principales:

  • el modelo está subespecificado, hay poca explicación de la variabilidad de Y con este modelo, es decir, los factores fuertemente correlacionados con lo que queremos estudiar.
  • la segunda razón está relacionada con el control de las variables, porque si se introduce el interés en la política, una tercera variable puede influir en el interés en la política y la participación en la política; la asociación es engañosa.

Queremos incluir tantas variables como sea posible que pensamos pueden influir directamente en Y o indirectamente haciendo que la relación entre X e Y sea falsa o sólo aparente.

La B es el coeficiente de regresión, es decir, la pendiente de la línea de regresión que da la fuerza del efecto X porque se multiplica por X, es decir, cuanto más fuerte es el efecto X, más alta es la B.

La B puede ser no estandarizada o estandarizada. "Estandarización" significa normalizar y el propósito es poder comparar diferentes coeficientes.

Estamos en una lógica aditiva, hay "+"; suponemos que la variación de Y es una función lineal es aditiva o acumulativa del efecto de todas las demás variables introducidas en el modelo.

Línea de regresión[modifier | modifier le wikicode]

Droite de régression.png

La línea de regresión representa la función de regresión lineal. Queremos ver cuánto aumenta Y cuando aumentamos X. Supongamos que los (0; 12) son el interés en la política y la otra participación política; podemos ver que hay una correlación bastante fuerte entre los dos, cuando tenemos un aumento en el interés en la política aumentamos la participación política.

Los puntos azules representan los casos, la línea de regresión es la estimación de los valores, por lo que veremos hasta dónde y cómo esta línea se encuentra con una nube de puntos.

La calidad del modelo tiene que ver con la calidad de la estimación, que depende mucho de cómo se distribuyen los puntos. Es posible que la nube de puntos se estime para una línea que tiene la misma pendiente, sin embargo la calidad de este efecto es la misma mientras que es diferente porque la línea sólo hace una aproximación mucho más precisa de la nube de puntos o los puntos están cerca de la línea.

Cabe señalar que es uno de los principales instrumentos preferidos para el análisis cuantitativo cuando se trata de variables de intervalo o cardinales y de análisis de correlación o regresión.

La idea de regresión lineal, que es un subconjunto de un conjunto mayor, se basa en la idea de una función lineal entre X e Y; tratamos de estimar una nube de puntos que represente la intersección entre las dos variables de la muestra, por lo que analizaremos la línea de regresión y su pendiente. Si la pendiente es 0 entonces Y no cambia cuando cambias X, puedes estar muy interesado en la política, pero siempre participas en el mismo nivel.

Análisis multivariados[modifier | modifier le wikicode]

Análisis de regresión[modifier | modifier le wikicode]

Dependiendo del tipo de variables que se quiera explicar, se puede o no aplicar la herramienta de regresión lineal, por ejemplo, hay regresión logística en el caso de variables ficticias, ya sea de ausencia o de presencia, no se puede aplicar regresión lineal, porque los supuestos básicos no están garantizados.

Análisis de las vías causales (path analysis)[modifier | modifier le wikicode]

Uno de los problemas del análisis de regresión es que asumimos que Y es una función lineal de la suma de todas las variables independientes o cuando observamos los efectos directos de las variables en un modelo; sin embargo, ¿qué sucede cuando queremos observar los efectos indirectos?

Hacemos un análisis de "caminos causales"; hay coeficientes de regresión que pueden o no ser significativos, pero podemos ver caminos causales, es decir, podemos ver cómo los valores de la izquierda influyen en la participación no directa, sino indirectamente, es decir, que el hecho de estar en la izquierda hace que sea más probable que nos integremos en ciertos tipos de redes desarrolla una Internet para un determinado tema que nos permite desarrollar un sentimiento de eficacia individual que nos hace tener una mayor intensidad de participación. Se introducen variables intermedias.

En lugar de tener una indicación, tenemos varias porque cada variable puede o es una variable dependiente, hacemos una suma de ecuaciones.

Análisis factorial[modifier | modifier le wikicode]

Es un análisis que busca reducir la complejidad que se puede lograr cuando se tiene una matriz de datos con muchas variables y casos y se desea un índice más sucinto.

Cuando hablamos de operacionalizar conceptos complejos, llegamos a la última etapa de construcción; el análisis factorial nos permite construir índices mediante el análisis de los vínculos subyacentes que explican la variación en un conjunto múltiple de indicadores.

Es una herramienta que se utiliza con frecuencia en la ciencia política y, en particular, en el estudio de los cambios de valores.

Análisis multinivel[modifier | modifier le wikicode]

Antes todas las medidas se referían a variables individuales, ahora hay propiedades de contexto que no son del individuo y que pueden influir en la participación política, como el sistema electoral o el tipo de sistema político.

En una perspectiva de regresión normal hay maneras de evitar el problema, no se pueden integrar factores contextuales en el análisis que simplemente se puede comparar.

El análisis multinivel permite el análisis de regresión multinivel, añadiendo propiedades de contexto y no sólo propiedades individuales; integrando propiedades individuales y contextuales. Existe este importante avance en la ciencia política.

Tipo de métodos cualitativos[modifier | modifier le wikicode]

Se puede hacer una distinción entre el análisis de contenido y el análisis del discurso. No hay consenso en la literatura sobre estos términos, algunos creen que el análisis del discurso es un tipo de análisis del contenido y otros no.

Análisis de contenido[modifier | modifier le wikicode]

El análisis de contenido se interesa por el peso, es más descriptivo, se interesa por las diferentes cuestiones planteadas por las personas. Se puede hacer otra distinción:

  • temático: se cuenta el número de veces que un tema de este tipo aparece en un discurso.
  • léxico: análisis basado en el análisis de ocurrencias o co-ocurrencias, es decir, un análisis cualitativo que tiene elementos de análisis cuantitativo.

Análisis de discurso[modifier | modifier le wikicode]

Es un análisis interpretativo, estamos hablando de una familia de técnicas, podemos decir que estamos interesados en cómo y cuáles son los efectos de un determinado discurso.

Para simplificar, el análisis de contenido es más bien descriptivo y explicativo.

Pasos en el análisis temático[modifier | modifier le wikicode]

Hay cinco pasos principales:

  1. familiarización (pre-análisis): en primer lugar, debe familiarizarse con el equipo disponible.
  2. identificación de un marco temático (esquema de codificación, índice): cómo codificar la información o identificar el marco temático.
  3. indexación (codificación): reduce la información.
  4. mapeo (categorización y reducción de datos): creación de tipologías, clasificaciones, reducción de datos para poder interpretarlos.
  5. mapping e interpretación (análisis e interpretación)

Pasos en el análisis de discurso[modifier | modifier le wikicode]

  • Pre-análisis
  • Identificación de elementos relevantes
  • Análisis sistemático basado en los elementos identificados

Referencias[modifier | modifier le wikicode]