« Trattamento dei dati » : différence entre les versions

De Baripedia
Aucun résumé des modifications
Aucun résumé des modifications
 
(6 versions intermédiaires par le même utilisateur non affichées)
Ligne 7 : Ligne 7 :
  | assistants =   
  | assistants =   
  | enregistrement =  
  | enregistrement =  
  | cours = [[Introduction aux méthodes de la science-politique]]
  | cours = [[Introduzione ai metodi della scienza politica]]
  | lectures =
  | lectures =
* [[Cours introductif aux méthodes de la science-politique]]
* [[Corso introduttivo ai metodi della scienza-politica]]
* [[Le paradigme positiviste et le paradigme interprétatif]]
* [[Il paradigma positivista e il paradigma interpretativo]]
* [[Les méthodes scientifiques fondamentales]]
* [[Metodi scientifici di base]]
* [[De la théorie aux données]]
* [[Dalla teoria ai dati]]
* [[Le recueil des données]]
* [[La raccolta dei dati]]
* [[Le traitement des données]]
* [[Trattamento dei dati]]
}}L'analisi dei dati quantitativi è molto diversa dall'analisi dei dati qualitativi; si tratta di due pratiche di ricerca molto diverse, se non opposte.
}}
 
L'analisi dei dati quantitativi è molto diversa dall'analisi dei dati qualitativi; si tratta di due pratiche di ricerca molto diverse, se non opposte.


Ci concentreremo sull'analisi quantitativa, che in realtà è più facile dell'analisi qualitativa dei dati, se non altro perché ci sono routine istituzionalizzate.{{Translations
Ci concentreremo sull'analisi quantitativa, che in realtà è più facile dell'analisi qualitativa dei dati, se non altro perché ci sono routine istituzionalizzate.{{Translations
Ligne 24 : Ligne 26 :


= Matrice di dati  =
= Matrice di dati  =
[[Fichier:Matrice des données.png|500px|vignette|centré]]
[[Fichier:Matrice des données.png|500px|vignette|centré]]Si tratta di una matrice che incrocia i casi studiati con un certo numero di variabili, vale a dire le variabili di colonna e i casi di riga.
C’est une matrice qui croise les cas étudiés avec un certain nombre de variables à savoir les variables en colonne et les cas en ligne.
 
Si dovrebbe assegnare un codice per escludere dall'analisi coloro che non hanno risposto e per differenziarli da coloro che hanno risposto.
Il faut attribuer un code qui permette d’exclure de l’analyse ceux qui n’ont pas répondu et les différencier de ceux qui ont répondu.
 
Ci sono tre analisi che corrispondono a tre diversi obiettivi:
Il y a trois analyses qui correspondent à trois objectifs différents :
*'''analisi univariate''': analisi che vengono effettuate su una singola variabile o caratteristica.
*'''analyses univariées''' : analyses qui se font sur une seule variable ou une seule caractéristique.
*'''analisi bivariata''': collegando due variabili, vogliamo incrociare i dati per analizzare variazioni più sottili come l'interesse della politica a seconda della città o dell'età.
*'''analyses bivariées''' : mise en relation de deux variables, on veut croiser des données pour analyser les variations plus subtilement comme l’intérêt de la politique selon la ville ou l’âge.
*'''analisi multivariate''': pensiamo che un fenomeno spiegato non sia mai spiegato da una singola variabile indipendente; d'altra parte vogliamo introdurre controlli per controllare le relazioni attraverso la tecnica di purificazione.  Tradotto con www.DeepL.com/Translator
*'''analyses multivariées''' : on pense qu’un phénomène expliqué n’est jamais expliqué par une seule variable indépendante ; d’autre part on veut introduire des contrôles afin de contrôler les relations à travers la technique de la dépuration.
   
   
Il faut faire une distinction entre une analyse descriptive qui veut décrire un « état de fait » que l’on fait univariée ou bivariée.
Si deve distinguere tra un'analisi descrittiva che cerca di descrivere una "situazione di fatto" che è univariata o bivariata.


= Types d’analyses univariées =
= Tipi di analisi univariata  =
[[Fichier:Types d’analyses univariées.png|500px|vignette|centré]]
[[Fichier:Types d’analyses univariées.png|500px|vignette|centré]]


== Types de variables et opérations entre modalités ==
== Types de variables et opérations entre modalités ==
Il y a différents types d’analyses univariées, ces techniques dépendent du type de variable :
Esistono diversi tipi di analisi univariate, queste tecniche dipendono dal tipo di variabile:
*'''variables nominales''' : on peut faire seulement des opérations d’équivalence ou de différence.
*'''variabili nominali''': possono essere eseguite solo operazioni di equivalenza o di differenza.
*'''variables ordinales''' : permet d’ordonner c’est-à-dire catégoriser selon un ordre du plus petit au plus grand.
*'''variabili ordinali''': permette di ordinare, cioè di classificare secondo un ordine dal più piccolo al più grande.
Nota bene : les variables ordinales et cardinales sont catégorielles, relevant de données discrètes, on ne peut voir les distances.
Nota: le variabili ordinali e cardinali sono categoriche, si basano su dati discreti, le distanze non sono visibili.
*'''variables cardinales''' : permettent en plus des opérations précédentes de faire les quatre opérations arithmétiques de base.
*'''variabili cardinali''': oltre alle operazioni precedenti, consentono di eseguire le quattro operazioni aritmetiche di base.
 
== Misurazione di tendenza centrale  ==
Quando si esegue un'analisi quantitativa, è necessario considerare il tipo di variabili e poi scegliere lo strumento da utilizzare. Possiamo distinguere tra due tipi principali di misure, cioè tra due tipi di informazioni che vogliamo avere variabili uniche:
* misure di tendenza centrale
* misure di dispersione.
Nota: a seconda della variabile, le misure sono diverse.


== Mesure de tendance centrale ==
La media è una misura centrale del valore di tendenza che può essere applicata a variabili cardinali, ma non può essere applicata a variabili categoriche. La mediana è la categoria che separa le serie statistiche in due con lo stesso numero di casi da un lato e dall'altro.
Lorsqu’on fait une analyse quantitative, il faut s’interroger sur le type de variables et ensuite on choisit l’outil à utiliser. On peut distinguer entre deux grands types de mesures c’est-à-dire entre deux types d’informations qu’on veut avoir des variables uniques :
 
*mesures de tendance centrale
Si tratta di informazioni importanti che costituiscono il punto di partenza per questo tipo di descrizione dei dati per determinare cosa fare successivamente nel caso di analisi più sofisticate.
*mesures de dispersion.
Nota bene : selon la variable les mesures sont différentes.
La moyenne est une mesure de valeur de tendance centrale que l’on peut appliquer aux variables cardinales, mais on ne peut l’appliquer aux variables catégorielles. La médiane est la catégorie qui sépare la série statistique en deux avec un même nombre de cas d’un côté et de l’autre.
Ce sont des informations importantes qui forment le point de départ de ce type de description des données permettant de savoir quoi faire ensuite dans le cas d’analyses plus sophistiquées


== Mesure de dispersions ==
== Mesure de dispersions ==
Ligne 61 : Ligne 62 :
La variance est très importante pour calculer la probabilité d’erreur. Il faut différentes mesures selon l’unité de mesure de la variable et il faut tenir compte de la mesure de tendance centrale et de dispersion comme l’écart-type qui est le coefficient clef dans toute l’analyse quantitative.
La variance est très importante pour calculer la probabilité d’erreur. Il faut différentes mesures selon l’unité de mesure de la variable et il faut tenir compte de la mesure de tendance centrale et de dispersion comme l’écart-type qui est le coefficient clef dans toute l’analyse quantitative.


= Types d’analyses bivariées =
= Tipi di analisi bivariata  =
[[Fichier:Types d’analyses bivariées.png|500px|vignette|centré]]
[[Fichier:Types d’analyses bivariées.png|500px|vignette|centré]]In questo contesto, vogliamo incrociare le caratteristiche in una prospettiva descrittiva o esplicativa. A seconda del tipo di variabile, esistono diverse tecniche di analisi ed elaborazione dei dati.


Dans ce cadre on souhaite croiser des caractéristiques soit dans une optique descriptive soit dans une optique explicative. En fonction du type de variable, on a des techniques différentes pour analyser et traiter les données.
Devono essere considerate sia le variabili dipendenti che quelle indipendenti. All'incrocio, dobbiamo guardare la variabile dipendente e indipendente per vedere se si tratta di variabili categoriche o ordinali che permettono di distinguere tre principali famiglie di tipi di analisi:
*'''variabili  categorica / nominale - nominali''': vengono elaborate tabelle di contingenza, non è possibile utilizzare altre tecniche. La maggior parte delle volte nelle scienze politiche ci troviamo di fronte a questo tipo di variabili, perché le risposte danno origine a variabili ordinali. Ci sono coefficienti che ci permettono di dare una misura unica della relazione tra queste due variabili, come il V di Cramer, che ci permette di vedere l'associazione tra variabili categoriche. Per interpretare, è importante che la percentuale totale deve sempre riferirsi alle categorie della variabile indipendente; vogliamo vedere come la distribuzione della variabile dipendente dipende dalle funzioni della variabile indipendente. L'indicazione del numero di casi mostra se il processo è statisticamente rappresentativo, in quanto la dimensione del campione influenza la misurazione.
*'''variabili cardinali - cardinali''': non facciamo più una crosstabulazione, ma utilizziamo altri strumenti e in particolare lo strumento di regressione e correlazione:
**'''covariata''': quando ci sono due variabili continue, quando una aumenta l'altra aumenta proporzionalmente o inversamente proporzionale, le due variabili sono collegate in questa direzione.
**'''correlazione''': si tratta semplicemente di una covariata standardizzata, cioè tra -1 e +1. Ci standardizziamo per assicurare che le variabili che sono misurate diversamente alla base siano confrontate; se, per esempio, abbiamo scale da 0 a 10 e scale da 0 a 5 non possiamo confrontare queste variabili allora dobbiamo fare in modo che queste informazioni siano standardizzate. Le variabili possono essere ripetute sulla stessa scala o su un software che calcola una correlazione standardizzata.
**'''regressione''': in una correlazione siamo in una prospettiva descrittiva, non cerchiamo di vedere una direzione di causalità in una regressione che vogliamo vedere se due variabili sono associate, collegate, correlate.
   
   
Il faut s’intéresser à la fois aux variables dépendantes et aux variables indépendantes. En croisant, il faut regarder du côté de la variable dépendante et indépendante si on a affaire à des variables catégorielles ou ordinales permettant de distinguer trois grandes familles de types d’analyses :
*'''variabili indipendenti nominali - variabili cardinali dipendenti''': non possono essere applicate le tabulazioni incrociate, le correlazioni e le regressioni; viene effettuata un'analisi della varianza o della covarianza, il cui caso più semplice è il confronto delle medie, che potrebbe ad esempio essere il numero di volte che gli individui partecipano a un'elezione secondo il cantone.
*'''variables catégorielles / nominale - nominale''' : on fait des tableaux de contingence, on ne peut utiliser les autres techniques. La plupart du temps en science politique on a affaire à ce type de variables, car les réponses donnent lieu à des variables ordinales. Il y a des coefficients qui permettent de donner une mesure unique de la relation entre ces deux variables comme le V de Cramer qui permet de voir l’association entre variables catégorielles. Pour interpréter, il est important que le pourcentage total doit toujours se référer aux catégories de la variable indépendante ; on veut voir comment la distribution sur la variable dépendante dépend des fonctions dans la variable indépendante. L’indication du nombre de cas permet de voir si le processus est statistiquement représentatif, car la taille de l’échantillon affecte la mesure.
 
*'''variables cardinales - cardinales''': on ne fait plus un tableau croisé, on à d’autres outils et en particulier l’outil de la régression et de la corrélation :
= Regressione lineare  =
**'''covariation''' : lorsqu’on a deux variables continues, lorsqu’une augmente l’autre augmente de manière proportionnelle ou inversement proportionnelle, les deux variables sont liées dans ce sens.
[[Fichier:Régression linéaire.png|500px|vignette|centré]]Si tratta di un insieme di strumenti molto vario e a volte complesso, ma è lo strumento principale. La regressione lineare è l'elemento principale; gran parte dell'analisi quantitativa nelle scienze sociali si basa sulla regressione lineare.
**'''corrélation''' : c’est simplement une covariation standardisée c’est-à-dire qui se situe entre -1 et +1. On standardise pour faire en sorte de comparer des variables qui à la base sont mesurées de manière différente ; si on a par exemple des échelles de 0 à 10 et des échelles allant de 0 à 5 on ne peut comparer ces variables alors il faut faire en sorte de standardiser ces informations. On peut reconduire les variables sur la même échelle ou un logiciel qui calcule une corrélation standardisée.
 
**'''régression''' : dans une corrélation on est dans une optique descriptive, on ne cherche pas à voir une direction de la causalité dans une régression on veut voir si deux variables sont associées, liées, corrélées.
Parliamo di linearità, perché assumiamo che ci sia una relazione lineare tra le variabili che studiamo, in altre parole, c'è una funzione lineare dietro questa relazione; tuttavia, possiamo anche considerare regressioni che non sono solo lineari.
   
 
*'''variables indépendantes nominales – variables dépendantes cardinales''' : on ne peut appliquer les tableaux croisés ni les corrélations et régressions ; on fait une analyse de la variance ou de la covariance dont le cas le plus simple est une comparaison de moyennes qui pourrait par exemple être le nombre de fois que les individus participent à une élection en fonction du canton.
Si presume che ciò che si vuole spiegare è una funzione lineare di una o più variabili indipendenti. Questo è fondamentale, perché la regressione lineare è solo un sottoinsieme di una famiglia più ampia di analisi di regressione che non si basa su un'idea di linearità tra le due variabili.
 
Il modello più semplice è quello con una variabile esplicativa come, ad esempio, la partecipazione politica a seconda dell'interesse politico.
 
In termini descrittivi c'è una forte correlazione tra queste due variabili; se un'ipotesi dice che è l'interesse politico che influenza la partecipazione, allora si effettua un'analisi di regressione.
 
Abbiamo sempre il problema dell'endogeneità in questo tipo di analisi, ipotizziamo che l'interesse per la politica determina la partecipazione; potremmo anche ipotizzare che più partecipiamo, più sviluppiamo un interesse per la politica.
 
La partecipazione politica è una funzione lineare di interesse politico "più" un fattore costante, cioè il valore di Y quando X è uguale a 0, cioè qual è il mio livello di partecipazione quando l'interesse politico è zero. In fondo è dove la linea di regressione attraversa l'asse y.
 
Nell'analisi multivariata, c'è sempre un margine di errore; una cosa è correlata se abbiamo dati di indagine relativi al margine di errore tra popolazione e campione, ma indipendentemente dal fatto che stiamo lavorando su campioni o su una popolazione complessiva; c'è sempre un termine di errore coinvolto, perché c'è sempre qualcosa che influenza ciò che vogliamo spiegare e che non è incluso nel modello di regressione come, ad esempio, l'istruzione, l'età, il contesto sociale, istituzionale, ecc.
 
Infatti, la E raggruppa la varianza inspiegabile, cioè tutto ciò che potrebbe spiegare Y, ma non viene introdotto nel modello, è il problema della sottospecificazione del modello, cioè la questione relativa alla specificazione del modello; più variabili ha un modello, più è probabile che sia sottospecificato e meno variazioni nella Y sono spiegate e più alta è la E in termini di errore, la E è ridotta al minimo.
 
Ciò suggerisce che non includere alcune variabili in un modello esplicativo con due conseguenze principali:
* il modello è sottospecificato, c'è poca spiegazione della variabilità di Y con questo modello, cioè i fattori fortemente correlati con ciò che vogliamo studiare.
* la seconda ragione è legata al controllo delle variabili, perché se si introduce l'interesse per la politica, una terza variabile può influenzare l'interesse per la politica e la partecipazione alla politica; l'associazione è fuorviante.
Vogliamo includere quante più variabili possibili che pensiamo possano influenzare direttamente Y o indirettamente rendendo la relazione tra X e Y falsa o solo apparente.
 
Il B è il coefficiente di regressione, cioè la pendenza della linea di regressione che dà la forza dell'effetto X perché è moltiplicato per X, cioè più forte è l'effetto X, più alto è il B.
 
Il B può essere non standardizzato o standardizzato. "Standardizzazione" significa normalizzazione e lo scopo è quello di poter confrontare diversi coefficienti.
 
Siamo in una logica additiva, ci sono "+"; supponiamo che la variazione di Y sia una funzione lineare sia additiva o cumulativa dell'effetto di tutte le altre variabili introdotte nel modello.
 
= Linea di regressione  =
[[Fichier:Droite de régression.png|500px|vignette|centré]]La linea di regressione rappresenta la funzione di regressione lineare. Vogliamo guardare a quanto aumenta Y quando aumentiamo X. Supponiamo che gli (0; 12) siano l'interesse per la politica e l'altra partecipazione politica; possiamo vedere che c'è una correlazione abbastanza forte tra i due, quando abbiamo un aumento dell'interesse per la politica aumentiamo la partecipazione politica.
 
I punti blu rappresentano i casi, la linea di regressione è la stima dei valori e quindi esamineremo quanto e come questa linea incontra una nuvola di punti.
 
La qualità del modello ha a che fare con la qualità della stima, che dipende molto da come vengono distribuiti i punti. E' possibile che la nuvola di punti sia stimata per una linea che ha la stessa pendenza, ma la qualità di questo effetto è la stessa mentre è diversa perché la linea fa solo un'approssimazione molto più accurata della nuvola di punti o i punti sono vicini alla linea.
 
Va notato che uno dei principali strumenti preferiti per l'analisi quantitativa quando si tratta di variabili d'intervallo o cardinali e di analisi di correlazione o regressione.
 
L'idea di regressione lineare, che è un sottoinsieme di un insieme più ampio, si basa sull'idea di una funzione lineare tra X e Y; cerchiamo di stimare una nuvola di punti che rappresenta l'intersezione tra le due variabili del campione, quindi analizzeremo la linea di regressione e la sua pendenza. Se la pendenza è 0 allora Y non cambia quando si cambia X, si può essere molto interessati alla politica, ma si partecipa sempre allo stesso livello.
 
= Analisi multivariate =
 
== Analisi di regressione  ==
A seconda del tipo di variabili che si desidera spiegare, è possibile o meno applicare lo strumento di regressione lineare, ad esempio, c'è regressione logistica nel caso di variabili fittizie o assenza o presenza, non è possibile applicare la regressione lineare, perché i presupposti di base non sono garantiti.
 
== Analisi dei cammini causali (path analysis) ==
Uno dei problemi dell'analisi di regressione è che assumiamo che Y è una funzione lineare della somma di tutte le variabili indipendenti o quando guardiamo gli effetti diretti delle variabili in un modello; tuttavia, cosa succede quando vogliamo guardare agli effetti indiretti?
 
Facciamo un'analisi dei "percorsi causali"; ci sono coefficienti di regressione che possono essere o meno significativi, ma possiamo vedere i percorsi causali, cioè possiamo vedere come i valori della sinistra influenzano la partecipazione non direttamente, ma indirettamente, cioè che essendo sulla sinistra rende più probabile che saremo integrati in certi tipi di reti si sviluppa una Internet per un certo problema che ci permette di sviluppare un sentimento di efficacia individuale che ci fa avere una maggiore intensità di partecipazione. Vengono introdotte variabili intermedie.


= Régression linéaire =
Invece di avere un'indicazione, ne abbiamo diverse perché ogni variabile può o è una variabile dipendente, facciamo una somma di equazioni.
[[Fichier:Régression linéaire.png|500px|vignette|centré]]


C’est un ensemble très varié et parfois complexe d’outils, mais c’est l’outil principal. La régression linéaire est l’élément principal ; une bonne partie des analyses quantitatives faites en science sociale s’appuient sur la régression linéaire.
== Analisi fattoriale ==
   
Si tratta di un'analisi che mira a ridurre la complessità che si può ottenere quando si dispone di una data matrix con molte variabili e casi e si desidera un indice più succinto.
On parle de linéarité, car on postule qu’il y a une relation linéaire entre les variables qu’on étudie, en d’autres termes il y a une fonction linéaire derrière cette relation ; cependant, on peut aussi envisager des régressions qui ne sont pas que linéaires.
On présuppose que ce qu’on veut expliquer est une fonction linéaire d’une ou plusieurs variables indépendantes. Cela est crucial, car la régression linéaire n’est qu’un sous-ensemble d’une famille plus large d’analyses de régressions qui ne se base pas sur une idée de linéarité entre les deux variables.
Le modèle le plus simple est avec une variable explicative comme, par exemple, la participation politique en fonction de l’intérêt pour la politique.
En terme descriptif il y a une forte corrélation entre ces deux variables ; si une hypothèse dit que c’est l’intérêt pour la politique qui influence la participation alors on fait une analyse de régression.
On a toujours le problème de l’endogénéité dans ce type d’analyse, on postule que l’intérêt pour la politique détermine une participation ; on pourrait aussi postuler que plus on participe plus on développe un intérêt pour la politique.
La participation politique est une fonction linéaire de l’intérêt pour la politique « plus » un facteur constant à savoir la valeur de Y lorsque X est égal à 0 c’est-à-dire quel est mon niveau de participation lorsque l’intérêt pour la politique est nul. Au fond c’est où la droite de régression croise l’axe des ordonnées.
Dans l’analyse multivariée, il y a toujours une marge d’erreur ; une chose est liée si on des données du sondage liées à la marge d’erreur entre population et échantillon, mais indépendamment qu’on soit en train de travailler sur des échantillons ou une population globale ; il y a un terme d’erreur qui intervient, car il y a toujours quelque chose qui influence ce qu’on veut expliquer et qui n’est pas inclus dans le modèle de régression comme, par exemple, l’éducation, l’âge, le contexte social, institutionnel, etc.
En fait, le E regroupe la variance non expliquée à savoir tout ce qui pourrait expliquer Y, mais n’est pas introduit dans le modèle, c’est le problème de la sous-spécification du modèle à savoir l’enjeu concernant la spécification du modèle ; plus un modèle a plus de variables plus il risque d’être sous-spécifié et moins on explique de variations dans le Y et plus le E en termes d’erreur est élevé, on veut réduire au maximum le E.
Ceci permet de dire que le fait de ne pas inclure certaines variables dans un modèle explicatif à deux conséquences majeures :
*le modèle est sous-spécifié, on explique peu la variabilité de Y avec ce modèle c’est-à-dire les facteurs fortement corrélés avec ce que l’on souhaite étudier.
*la deuxième raison est liée au contrôle des variables, car si on introduit l’intérêt pour la politique, une troisième variable peut influencer l’intérêt pour la politique et la participation pour la politique ; l’association est fallacieuse.
On veut inclure le maximum de variables dont on pense qu’elle peut influencer directement Y ou indirectement faisant que la relation entre X et Y soit fausse ou seulement apparente.
Le B est le coefficient de régression à savoir la pente de la droite de régression donnant la force de l’effet du X car il est multiplicatif par X c’est-à-dire que plus l’effet de X est fort plus B est élevé.
Le B peut être non standardisé ou standardisé. « Standardisation » signifie normaliser et le but est de pouvoir comparer des coefficients différents.
On est dans une logique additive, il y a des « + » ; on suppose que la variation de Y est une fonction linéaire est additive ou cumulée de l’effet de toutes les autres variables introduites dans le modèle.


= Droite de régression =
Quando abbiamo parlato di rendere operativi concetti complessi, abbiamo raggiunto l'ultima fase di costruzione; l'analisi dei fattori ci permette di costruire indici analizzando i collegamenti sottostanti che spiegano la variazione su un insieme multiplo di indicatori.
[[Fichier:Droite de régression.png|500px|vignette|centré]]


La droite de régression représente la fonction de régression linéaire. On veut regarder de combien augmente Y lorsqu’on augmente X. admettons que les (0 ; 12) sont l’intérêt pour la politique et l’autre la participation politique; on peut voir qu’il y a une corrélation assez forte entre les deux, lorsqu’on a une augmentation de l’intérêt pour la politique on augmente la participation politique.
E' uno strumento frequentemente utilizzato nelle scienze politiche e in particolare nello studio dei cambiamenti di valori.
Les points bleus représentent les cas, la droite de régression est l’estimation des valeurs et donc on va regarder dans quelle mesure et comment cette droite rencontre un nuage de points.
La qualité du modèle a à voir à la qualité de l’estimation qui dépend beaucoup de la manière dont sont distribués les points. Il est possible que le nuage de point soit estimé pour une droite qui a la même pente, toutefois la qualité de cet effet est le même alors qu’il est diffèrent parce que la droite ne fait qu’une approximation beaucoup plus précise du nuage de points ou les points sont proches de la droite.
Il faut retenir que l’un des principaux instruments privilégiés pour l’analyse quantitative lorsqu’on a à faire à des variables intervalles ou cardinal et l’analyse de la corrélation ou de la régression.
L’idée de la régression linéaire qui est un sous-ensemble d’un ensemble plus vaste se base sur l’idée d’une fonction linéaire entre X et Y ; on essaie d’estimer un nuage de points qui représente le croisement entre les deux variables dans l’échantillon donc on va analyser la droite de régression et sa pente. Si la pente est de 0 alors Y ne change pas quand on change X, on peut être très intéressé à la politique, mais on y participe toujours au même niveau.


= Analyses multivariées =
== Analisi multilivello  ==
In precedenza tutte le misure riguardavano variabili individuali, ora ci sono proprietà di contesto che non sono dell'individuo che possono influenzare la partecipazione politica come il sistema elettorale o il tipo di sistema politico.


== Analyse de régression ==
In una normale prospettiva di regressione ci sono modi per aggirare il problema, non si possono integrare fattori contestuali nell'analisi che si possono semplicemente confrontare.
Selon le type de variables que l’on souhaite expliquer, on peut ou on ne peut pas appliquer l’outil de régression linéaire, il y a par exemple la régression logistique dans le cas de variables dummies soit absence ou présence, on ne peut appliquer la régression linéaire, car les présupposés de base ne sont pas garantis.


== Analyse des chemins causaux (path analysis) ==
L'analisi multilivello consente di effettuare analisi di regressione multilivello, aggiungendo proprietà contestuali e non solo proprietà individuali, integrando proprietà individuali e contestuali. C'è questo importante sviluppo delle scienze politiche.
Un des problèmes de l’analyse de la régression est qu’on suppose que Y est une fonction linéaire de la somme de toutes les variables indépendantes or se faisant on regarde que les effets directs des variables d’un modèle ; toutefois que se passe-t-il lorsqu’on veut regarder des effets indirects ?
On fait une analyse des « chemins causaux » ; il y a des coefficients de régression qui peuvent être significatif ou pas, mais on peut voir des chemins causaux c’est-à-dire qu’on peut voir de quelle manière les valeurs de gauche influence la participation non pas directement, mais indirectement à savoir que le fait d’être de gauche fait qu’on a plus de probabilités d’être intégré dans certains types de réseau développent un internet pour un certain enjeu qui permet de développer un sentiment d’efficacité individuel faisant qu’on a une intensité plus forte de participation. On introduit des variables intermédiaires.
Au lieu d’avoir une indication, on en a plusieurs parce que chaque variable peut ou est une variable dépendante, on fait une somme d’équations.


== Analyse factorielle ==
= Tipo di metodi qualitativi  =
C’est une analyse qui a pour objectif de réduire la complexité qu’on peut avoir lorsqu’on a une matrice de données avec beaucoup de variables et de cas et que l’on veut avoir un index plus succinct.
Si può fare una distinzione tra analisi dei contenuti e analisi del discorso. Non c'è consenso in letteratura su questi termini, alcuni ritengono che l'analisi del discorso sia un tipo di analisi dei contenuti e altri no.
Lorsqu’on a parlé d’opérationnalisation des concepts complexes, on est arrivé à une dernière étape de construction ; l’analyse factorielle permet de construire des index par l’analyse des liens sous-jacents qui expliquent la variation sur un ensemble multiple d’indicateurs.
C’est un outil fréquemment utilisé en science politique et notamment lorsqu’on étudie les changements de valeurs.


== Analyse multiniveaux ==
== Analisi del contenuto  ==
Auparavant toutes les mesures concernaient les variables individuelles, maintenant il y a des propriétés du contexte qui ne sont pas de l’individu qui peuvent influencer la participation politique comme le système électoral ou le type de système politique.
L'analisi dei contenuti è interessata al peso, è più descrittiva, è interessata alle diverse questioni sollevate dalle persone. Un'ulteriore distinzione può essere fatta:
* '''tematico''': contiamo il numero di volte che un tema di questo tipo appare in un discorso.
Dans une optique de régression normale il y a des manières de court-circuiter le problème, on ne peut intégrer les facteurs contextuels dans l’analyse on peut simplement comparer.
* '''lessicale''': analisi basata sull'analisi di eventi o co-occorrenze, cioè un'analisi qualitativa che contiene elementi di analisi quantitativa.
L’analyse multiniveau permet de faire une analyse de régression multiniveau, on ajoute des propriétés du contexte et pas seulement des propriétés individuelles ; on intègre des propriétés individuelles et contextuelles. Il y a ce développement important en sciences politiques.
= Type de méthodes qualitatives =
On peut faire une distinction entre l’analyse de contenu et l’analyse de discours. Ces termes ne font pas le consensus dans la littérature, certains estiment que l’analyse de discours est un type d’analyse de contenu et pour d’autres ce n’est pas le cas.


== Analyse de contenu ==
== Analisi del parlato  ==
L’analyse de contenu s’intéresse au poids, elle est plus descriptive, elle s’intéresse aux différents enjeux soulevés par des personnes. On peut faire une distinction ultérieure :
È un'analisi interpretativa, stiamo parlando di una famiglia di tecniche, possiamo dire che siamo interessati a come e quali sono gli effetti di un dato discorso.
*'''thématique''' : on compte le nombre de fois qu’un tel thème apparaît dans un discours.
*'''lexicale''' : analyse basée sur l’analyse des occurrences ou cooccurrences à savoir une analyse qualitative qui a des éléments d’analyse quantitative.


== Analyse de discours ==
Per semplificare, l'analisi dei contenuti è un'analisi del discorso descrittiva e esplicativa.
C’est une analyse interprétative, on parle d’une famille de techniques, on peut dire qu’on s’intéresse à comment et aux effets d’un discours donné.
Pour simplifier, l‘analyse de contenu est plutôt descriptive et l’analyse de discours explicatif.


= Étapes de l’analyse thématique =
= Fasi dell'analisi tematica  =
Il y a cinq grandes étapes :
Ci sono cinque fasi principali:
#'''familiarisation''' (préanalyse) : il faut d’abord se familiariser avec le matériel à disposition.
#'''familiarizzazione''' (pre-analisi): prima di tutto, è necessario familiarizzare con le attrezzature disponibili.
#'''identification d’un cadre thématique''' (schéma de codage, index) : manière de coder l’information soit d’identifier le cadre thématique.
#'''identificazione''' di un quadro tematico (schema di codifica, indice): come codificare le informazioni o identificare il quadro tematico.
#'''indexation''' (codage) : réduire l’information.
#'''indicizzazione''' (codifica): ridurre le informazioni.
#'''cartographie''' (catégorisation et réduction des données) : création de typologies, de classifications, réduction des données afin de pouvoir les interpréter.
#'''mappatura''' (categorizzazione e riduzione dei dati): creazione di tipologie, classificazioni, riduzione dei dati per poterli interpretare.
#'''mapping et interprétation''' (analyse et interprétation)
#'''mappatura e interpretazione''' (analisi e interpretazione)
=Étapes de l’analyse de discours=
=Fasi dell'analisi del parlato=
*Préanalyse
*Pre-analisi
*Identification d'éléments pertinents
*Identificazione degli elementi rilevanti
*Analyse systématique à partir des éléments identifiés
*Analisi sistematica basata sugli elementi identificati


= Références =
= Riferimenti =
<references />
<references />



Version actuelle datée du 16 février 2019 à 03:18


L'analisi dei dati quantitativi è molto diversa dall'analisi dei dati qualitativi; si tratta di due pratiche di ricerca molto diverse, se non opposte.

Ci concentreremo sull'analisi quantitativa, che in realtà è più facile dell'analisi qualitativa dei dati, se non altro perché ci sono routine istituzionalizzate.

Matrice di dati[modifier | modifier le wikicode]

Matrice des données.png

Si tratta di una matrice che incrocia i casi studiati con un certo numero di variabili, vale a dire le variabili di colonna e i casi di riga.

Si dovrebbe assegnare un codice per escludere dall'analisi coloro che non hanno risposto e per differenziarli da coloro che hanno risposto.

Ci sono tre analisi che corrispondono a tre diversi obiettivi:

  • analisi univariate: analisi che vengono effettuate su una singola variabile o caratteristica.
  • analisi bivariata: collegando due variabili, vogliamo incrociare i dati per analizzare variazioni più sottili come l'interesse della politica a seconda della città o dell'età.
  • analisi multivariate: pensiamo che un fenomeno spiegato non sia mai spiegato da una singola variabile indipendente; d'altra parte vogliamo introdurre controlli per controllare le relazioni attraverso la tecnica di purificazione. Tradotto con www.DeepL.com/Translator

Si deve distinguere tra un'analisi descrittiva che cerca di descrivere una "situazione di fatto" che è univariata o bivariata.

Tipi di analisi univariata[modifier | modifier le wikicode]

Types d’analyses univariées.png

Types de variables et opérations entre modalités[modifier | modifier le wikicode]

Esistono diversi tipi di analisi univariate, queste tecniche dipendono dal tipo di variabile:

  • variabili nominali: possono essere eseguite solo operazioni di equivalenza o di differenza.
  • variabili ordinali: permette di ordinare, cioè di classificare secondo un ordine dal più piccolo al più grande.

Nota: le variabili ordinali e cardinali sono categoriche, si basano su dati discreti, le distanze non sono visibili.

  • variabili cardinali: oltre alle operazioni precedenti, consentono di eseguire le quattro operazioni aritmetiche di base.

Misurazione di tendenza centrale[modifier | modifier le wikicode]

Quando si esegue un'analisi quantitativa, è necessario considerare il tipo di variabili e poi scegliere lo strumento da utilizzare. Possiamo distinguere tra due tipi principali di misure, cioè tra due tipi di informazioni che vogliamo avere variabili uniche:

  • misure di tendenza centrale
  • misure di dispersione.

Nota: a seconda della variabile, le misure sono diverse.

La media è una misura centrale del valore di tendenza che può essere applicata a variabili cardinali, ma non può essere applicata a variabili categoriche. La mediana è la categoria che separa le serie statistiche in due con lo stesso numero di casi da un lato e dall'altro.

Si tratta di informazioni importanti che costituiscono il punto di partenza per questo tipo di descrizione dei dati per determinare cosa fare successivamente nel caso di analisi più sofisticate.

Mesure de dispersions[modifier | modifier le wikicode]

On distingue aussi des mesures de dispersions : la mesure de base est l’écart-type qui est une mesure standardisée qui varie de -1 à +1 de la variance qui est la mesure qui indique de quelle manière sont distribués les individus.

La variance est très importante pour calculer la probabilité d’erreur. Il faut différentes mesures selon l’unité de mesure de la variable et il faut tenir compte de la mesure de tendance centrale et de dispersion comme l’écart-type qui est le coefficient clef dans toute l’analyse quantitative.

Tipi di analisi bivariata[modifier | modifier le wikicode]

Types d’analyses bivariées.png

In questo contesto, vogliamo incrociare le caratteristiche in una prospettiva descrittiva o esplicativa. A seconda del tipo di variabile, esistono diverse tecniche di analisi ed elaborazione dei dati.

Devono essere considerate sia le variabili dipendenti che quelle indipendenti. All'incrocio, dobbiamo guardare la variabile dipendente e indipendente per vedere se si tratta di variabili categoriche o ordinali che permettono di distinguere tre principali famiglie di tipi di analisi:

  • variabili categorica / nominale - nominali: vengono elaborate tabelle di contingenza, non è possibile utilizzare altre tecniche. La maggior parte delle volte nelle scienze politiche ci troviamo di fronte a questo tipo di variabili, perché le risposte danno origine a variabili ordinali. Ci sono coefficienti che ci permettono di dare una misura unica della relazione tra queste due variabili, come il V di Cramer, che ci permette di vedere l'associazione tra variabili categoriche. Per interpretare, è importante che la percentuale totale deve sempre riferirsi alle categorie della variabile indipendente; vogliamo vedere come la distribuzione della variabile dipendente dipende dalle funzioni della variabile indipendente. L'indicazione del numero di casi mostra se il processo è statisticamente rappresentativo, in quanto la dimensione del campione influenza la misurazione.
  • variabili cardinali - cardinali: non facciamo più una crosstabulazione, ma utilizziamo altri strumenti e in particolare lo strumento di regressione e correlazione:
    • covariata: quando ci sono due variabili continue, quando una aumenta l'altra aumenta proporzionalmente o inversamente proporzionale, le due variabili sono collegate in questa direzione.
    • correlazione: si tratta semplicemente di una covariata standardizzata, cioè tra -1 e +1. Ci standardizziamo per assicurare che le variabili che sono misurate diversamente alla base siano confrontate; se, per esempio, abbiamo scale da 0 a 10 e scale da 0 a 5 non possiamo confrontare queste variabili allora dobbiamo fare in modo che queste informazioni siano standardizzate. Le variabili possono essere ripetute sulla stessa scala o su un software che calcola una correlazione standardizzata.
    • regressione: in una correlazione siamo in una prospettiva descrittiva, non cerchiamo di vedere una direzione di causalità in una regressione che vogliamo vedere se due variabili sono associate, collegate, correlate.
  • variabili indipendenti nominali - variabili cardinali dipendenti: non possono essere applicate le tabulazioni incrociate, le correlazioni e le regressioni; viene effettuata un'analisi della varianza o della covarianza, il cui caso più semplice è il confronto delle medie, che potrebbe ad esempio essere il numero di volte che gli individui partecipano a un'elezione secondo il cantone.

Regressione lineare[modifier | modifier le wikicode]

Régression linéaire.png

Si tratta di un insieme di strumenti molto vario e a volte complesso, ma è lo strumento principale. La regressione lineare è l'elemento principale; gran parte dell'analisi quantitativa nelle scienze sociali si basa sulla regressione lineare.

Parliamo di linearità, perché assumiamo che ci sia una relazione lineare tra le variabili che studiamo, in altre parole, c'è una funzione lineare dietro questa relazione; tuttavia, possiamo anche considerare regressioni che non sono solo lineari.

Si presume che ciò che si vuole spiegare è una funzione lineare di una o più variabili indipendenti. Questo è fondamentale, perché la regressione lineare è solo un sottoinsieme di una famiglia più ampia di analisi di regressione che non si basa su un'idea di linearità tra le due variabili.

Il modello più semplice è quello con una variabile esplicativa come, ad esempio, la partecipazione politica a seconda dell'interesse politico.

In termini descrittivi c'è una forte correlazione tra queste due variabili; se un'ipotesi dice che è l'interesse politico che influenza la partecipazione, allora si effettua un'analisi di regressione.

Abbiamo sempre il problema dell'endogeneità in questo tipo di analisi, ipotizziamo che l'interesse per la politica determina la partecipazione; potremmo anche ipotizzare che più partecipiamo, più sviluppiamo un interesse per la politica.

La partecipazione politica è una funzione lineare di interesse politico "più" un fattore costante, cioè il valore di Y quando X è uguale a 0, cioè qual è il mio livello di partecipazione quando l'interesse politico è zero. In fondo è dove la linea di regressione attraversa l'asse y.

Nell'analisi multivariata, c'è sempre un margine di errore; una cosa è correlata se abbiamo dati di indagine relativi al margine di errore tra popolazione e campione, ma indipendentemente dal fatto che stiamo lavorando su campioni o su una popolazione complessiva; c'è sempre un termine di errore coinvolto, perché c'è sempre qualcosa che influenza ciò che vogliamo spiegare e che non è incluso nel modello di regressione come, ad esempio, l'istruzione, l'età, il contesto sociale, istituzionale, ecc.

Infatti, la E raggruppa la varianza inspiegabile, cioè tutto ciò che potrebbe spiegare Y, ma non viene introdotto nel modello, è il problema della sottospecificazione del modello, cioè la questione relativa alla specificazione del modello; più variabili ha un modello, più è probabile che sia sottospecificato e meno variazioni nella Y sono spiegate e più alta è la E in termini di errore, la E è ridotta al minimo.

Ciò suggerisce che non includere alcune variabili in un modello esplicativo con due conseguenze principali:

  • il modello è sottospecificato, c'è poca spiegazione della variabilità di Y con questo modello, cioè i fattori fortemente correlati con ciò che vogliamo studiare.
  • la seconda ragione è legata al controllo delle variabili, perché se si introduce l'interesse per la politica, una terza variabile può influenzare l'interesse per la politica e la partecipazione alla politica; l'associazione è fuorviante.

Vogliamo includere quante più variabili possibili che pensiamo possano influenzare direttamente Y o indirettamente rendendo la relazione tra X e Y falsa o solo apparente.

Il B è il coefficiente di regressione, cioè la pendenza della linea di regressione che dà la forza dell'effetto X perché è moltiplicato per X, cioè più forte è l'effetto X, più alto è il B.

Il B può essere non standardizzato o standardizzato. "Standardizzazione" significa normalizzazione e lo scopo è quello di poter confrontare diversi coefficienti.

Siamo in una logica additiva, ci sono "+"; supponiamo che la variazione di Y sia una funzione lineare sia additiva o cumulativa dell'effetto di tutte le altre variabili introdotte nel modello.

Linea di regressione[modifier | modifier le wikicode]

Droite de régression.png

La linea di regressione rappresenta la funzione di regressione lineare. Vogliamo guardare a quanto aumenta Y quando aumentiamo X. Supponiamo che gli (0; 12) siano l'interesse per la politica e l'altra partecipazione politica; possiamo vedere che c'è una correlazione abbastanza forte tra i due, quando abbiamo un aumento dell'interesse per la politica aumentiamo la partecipazione politica.

I punti blu rappresentano i casi, la linea di regressione è la stima dei valori e quindi esamineremo quanto e come questa linea incontra una nuvola di punti.

La qualità del modello ha a che fare con la qualità della stima, che dipende molto da come vengono distribuiti i punti. E' possibile che la nuvola di punti sia stimata per una linea che ha la stessa pendenza, ma la qualità di questo effetto è la stessa mentre è diversa perché la linea fa solo un'approssimazione molto più accurata della nuvola di punti o i punti sono vicini alla linea.

Va notato che uno dei principali strumenti preferiti per l'analisi quantitativa quando si tratta di variabili d'intervallo o cardinali e di analisi di correlazione o regressione.

L'idea di regressione lineare, che è un sottoinsieme di un insieme più ampio, si basa sull'idea di una funzione lineare tra X e Y; cerchiamo di stimare una nuvola di punti che rappresenta l'intersezione tra le due variabili del campione, quindi analizzeremo la linea di regressione e la sua pendenza. Se la pendenza è 0 allora Y non cambia quando si cambia X, si può essere molto interessati alla politica, ma si partecipa sempre allo stesso livello.

Analisi multivariate[modifier | modifier le wikicode]

Analisi di regressione[modifier | modifier le wikicode]

A seconda del tipo di variabili che si desidera spiegare, è possibile o meno applicare lo strumento di regressione lineare, ad esempio, c'è regressione logistica nel caso di variabili fittizie o assenza o presenza, non è possibile applicare la regressione lineare, perché i presupposti di base non sono garantiti.

Analisi dei cammini causali (path analysis)[modifier | modifier le wikicode]

Uno dei problemi dell'analisi di regressione è che assumiamo che Y è una funzione lineare della somma di tutte le variabili indipendenti o quando guardiamo gli effetti diretti delle variabili in un modello; tuttavia, cosa succede quando vogliamo guardare agli effetti indiretti?

Facciamo un'analisi dei "percorsi causali"; ci sono coefficienti di regressione che possono essere o meno significativi, ma possiamo vedere i percorsi causali, cioè possiamo vedere come i valori della sinistra influenzano la partecipazione non direttamente, ma indirettamente, cioè che essendo sulla sinistra rende più probabile che saremo integrati in certi tipi di reti si sviluppa una Internet per un certo problema che ci permette di sviluppare un sentimento di efficacia individuale che ci fa avere una maggiore intensità di partecipazione. Vengono introdotte variabili intermedie.

Invece di avere un'indicazione, ne abbiamo diverse perché ogni variabile può o è una variabile dipendente, facciamo una somma di equazioni.

Analisi fattoriale[modifier | modifier le wikicode]

Si tratta di un'analisi che mira a ridurre la complessità che si può ottenere quando si dispone di una data matrix con molte variabili e casi e si desidera un indice più succinto.

Quando abbiamo parlato di rendere operativi concetti complessi, abbiamo raggiunto l'ultima fase di costruzione; l'analisi dei fattori ci permette di costruire indici analizzando i collegamenti sottostanti che spiegano la variazione su un insieme multiplo di indicatori.

E' uno strumento frequentemente utilizzato nelle scienze politiche e in particolare nello studio dei cambiamenti di valori.

Analisi multilivello[modifier | modifier le wikicode]

In precedenza tutte le misure riguardavano variabili individuali, ora ci sono proprietà di contesto che non sono dell'individuo che possono influenzare la partecipazione politica come il sistema elettorale o il tipo di sistema politico.

In una normale prospettiva di regressione ci sono modi per aggirare il problema, non si possono integrare fattori contestuali nell'analisi che si possono semplicemente confrontare.

L'analisi multilivello consente di effettuare analisi di regressione multilivello, aggiungendo proprietà contestuali e non solo proprietà individuali, integrando proprietà individuali e contestuali. C'è questo importante sviluppo delle scienze politiche.

Tipo di metodi qualitativi[modifier | modifier le wikicode]

Si può fare una distinzione tra analisi dei contenuti e analisi del discorso. Non c'è consenso in letteratura su questi termini, alcuni ritengono che l'analisi del discorso sia un tipo di analisi dei contenuti e altri no.

Analisi del contenuto[modifier | modifier le wikicode]

L'analisi dei contenuti è interessata al peso, è più descrittiva, è interessata alle diverse questioni sollevate dalle persone. Un'ulteriore distinzione può essere fatta:

  • tematico: contiamo il numero di volte che un tema di questo tipo appare in un discorso.
  • lessicale: analisi basata sull'analisi di eventi o co-occorrenze, cioè un'analisi qualitativa che contiene elementi di analisi quantitativa.

Analisi del parlato[modifier | modifier le wikicode]

È un'analisi interpretativa, stiamo parlando di una famiglia di tecniche, possiamo dire che siamo interessati a come e quali sono gli effetti di un dato discorso.

Per semplificare, l'analisi dei contenuti è un'analisi del discorso descrittiva e esplicativa.

Fasi dell'analisi tematica[modifier | modifier le wikicode]

Ci sono cinque fasi principali:

  1. familiarizzazione (pre-analisi): prima di tutto, è necessario familiarizzare con le attrezzature disponibili.
  2. identificazione di un quadro tematico (schema di codifica, indice): come codificare le informazioni o identificare il quadro tematico.
  3. indicizzazione (codifica): ridurre le informazioni.
  4. mappatura (categorizzazione e riduzione dei dati): creazione di tipologie, classificazioni, riduzione dei dati per poterli interpretare.
  5. mappatura e interpretazione (analisi e interpretazione)

Fasi dell'analisi del parlato[modifier | modifier le wikicode]

  • Pre-analisi
  • Identificazione degli elementi rilevanti
  • Analisi sistematica basata sugli elementi identificati

Riferimenti[modifier | modifier le wikicode]