Les régression logistiques

Elle va nous permettre de prédire la valeur d’une ou l’autre des modalités d’une variable de type catégorielle.

Introduction

Problématique

Nous voulons construire un modèle de régression pour expliquer une variable dichotomique. Problème : une telle variable ne prend que deux modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux) alors qu’un modèle de régression produit des résultats numériques allant de – infini à + infini. Comment faire coïncider une variable dépendante dichotomique avec l’output d’un modèle de régression ? La solution consiste en deux étapes successives.

Transformation logit (fonction)

Soit une variable dépendante dichotomique et soit p la probabilité de la modalité pour laquelle nous allons construire le modèle.

Etape 1 : En considérant la probabilité p plutôt que la modalité elle-même, nous revenons à une variable dépendante numérique. Mais une probabilité évolue entre 0 et 1, alors qu’un modèle de régression produit des résultats allant de –infini à +infini.
Etape 2 : On estime le modèle pour la fonction logit, notée () plutôt que pour p :

On veut prédire des valeurs avec une régression connue où on se ramène à un cas où les valeurs vont aller de – l’infini à + l’infini. C’est une fonction logistique !

Donc on passe d’une variable dichotomique à quelque chose qui peut avoir des valeurs allant de – l’infini à + l’infini. La transformation est permise par le log. Nous on estime sur le PI avec une régression linéaire.

Modèle

Equation générale d’une régression logistique :

Même si le modèle de régression logistique ne permet pas forcément d’expliquer à 100% le logit, on n’indique généralement par le terme d’erreur car il n’est pas distribué selon une loi bien définie.

Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on prend quelqu’un au hasard sans connaître ces modalités, on prend la modalité la plus présente, à savoir le 80 d’individus. En termes de probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2. Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre information à part les données de départ, à savoir de la variable dichotomique.

Interprétation

En régression linéaire, il suffit de minimiser la somme des carrées d’erreur. Ici, on aura une fonction dite de régression logistique.

Niveaux d’analyse du modèle

Tout comme en régression linéaire, on peut évaluer à la fois la qualité globale d’un modèle et l’utilité de chacun de ses éléments. Par ailleurs, les coefficients du modèle peuvent soit être interprétés directement soit être transformées en odds ratio – rapport de cote. Cette seconde forme est plus naturelle dans le cas de la régression logistique.

Exemple : modélisation du fait d’avoir un travail

La variable dépendante est d’avoir un travail et on veut l’expliquer avec toutes les autres variables indépendantes. AIC = critère d’information. On a ici les coefficients nécessaires de notre régression ; on a des informations sur la qualité du modèle, sur la valeur des paramètre (dernière colonne).

On a ici de nouvelles informations par rapport au précédent.

Qualité globale du modèle : déviance

La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le modèle et les observations. Elle est utile pour comparer des modèles en particulier le modèle basique ne contenant aucune variable explicative et le modèle complet où on a toutes nos variables. Ces deux chiffres indiquent une certaine distance entre le modèle et les observations. Plus la distance est petite, meilleur sera le modèle. En ayant une déviance plus petite, on aura un modèle considéré comme meilleur. Si on n’a aucune variable explicative et si on prend toutes ces explications du modèle précédents des variables indépendantes, la déviance est plus petite et donc le second modèle est meilleur que le modèle où on a juste les intercept.

Qualité globale du modèle : chi-2

La statistique chi-2 du rapport de vraisemblance évalue l’amélioration de la déviance par rapport au modèle « NULL » (avec constante seulement) :

Si la statistique du chi-2 n’est pas significative, le modèle est rejeté. Cette statistique permet aussi de comparer des modèles entre eux.

Donc notre modèle vaut la peine d’être considéré mais cela ne signifie pas qu’il est bon ! C’est aussi un outil qui nous permet de juger la validité de notre modèle.

Qualité globale du modèle : pseudo-R²

Cox et Snell :

Nagelkerke (exemple : R² = 0.227)

McFadden :

où -2LL₀ est la déviance du modèle NULL et -2LL_M est la déviance du modèle que l’on teste. Au contraire de la régression linéaire, ces R² ne représentant pas la part expliquée de la variable dépendante mais seulement une mesure de l’utilité des variables explicatives. Le R² ne s’utilise pas de la même manière que dans la régression linéaire. Ce sont toutes des estimations !

Qualité globale du modèle : AIC, BIC…

Les critères d’information d’Akaike et de Bayes permettent aussi de comparer au niveau global plusieurs modèles :

[[File:./media/image188.emf]]

où k est le nombre de coefficient estimés du modèle et n est le nombre d’observations. Pour la régression logistique, le FIT du modèle est égale à la déviance (-2 fois la log vraisemblance du modèle). Plus un coefficient est proche de zéro, meilleur il est.

Test individuel de chaque variable

La significativité des coefficients détermine si la variable correspondante est significative ou si elle peut au contraire être supprimée du modèle.

Variable quantitative : c’est l’effet de la variable elle-même car il n’y a qu’un seul coefficient.
Variable catégorielle : la significativité d’un coefficient indique uniquement l’effet significatif de la variable muette correspondante par rapport à la catégorie de référence.

Variables explicatives à plus de 2 modalités

Lorsqu’une variable explicative catégorielle comporte plus de 2 modalités, elle est remplacée dans le modèle par plusieurs variables muettes. Une p-valeur est fournie pour chacune de ces variables muettes. Toutes ces variables muettes correspondent à la même variable explicative. Il faut donc soit toutes les laisser dans le modèle soit toutes les supprimer. Il est possible de tester globalement l’effet de toutes les variables muettes correspondant à une même variable explicative en utilisant la statistique du chi-2 pour comparer le modèle avec et sans ces variables muettes.

Exemple : modèle avec une variable explicative catégorielles à 4 modalités (DOC_4c)

Modèle sans cette variable explicative catégorielle (DOC_4c)

Quel est le meilleur modèle ? On peut regarder la déviance résiduelle (3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2 est très petit. En regardant la valeur du BIC, le 2^ème modèle serait meilleur. Par contre, par rapport au critère déviance résiduelle (distance entre le modèle et l’observation), là, ça semble un peu se contredire. En fait, ces deux modèles sont extrêmement proches l’un de l’autre. On peut ainsi dire que par parcimonie, on préférerait le modèle ayant le moins de variables. On prend les variables muettes du premier modèle et on les retire toutes ensembles. Si on regarde les p-valeur, il n’y a que pour une variable où ces significatives. Donc on les retire toutes.

Interprétation des coefficients

Un modèle de régression logistique peut s’interpréter soit en termes de valeur des coefficients de régression, soit en termes d’odds ratios (rapport de cotes). Les coefficients mesurent l’influence des variables explicatives sur le logit de la variable dépendante. Un coefficient >0 implique une augmentation du logit et un coefficient <0 implique une diminution du logit. Problème : le logit n’est qu’une construction mathématique qui n’est pas facile à interpréter. On sait seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et que plus le logit augmente, plus la probabilité augmente.

Exemple : modélisation du fait d’avoir un travail

Odds ratio

Soit la variable « avoir un travail ». Cette variable n’a que deux modalités : oui et non. Soit p la probabilité d’avoir actuellement un travail (oui) et 1-p la probabilité de ne pas en avoir (non). Pour un échantillon de taille n, la cote (odds) associée à cette variable est le rapport entre le nombre n_oui de personnes ayant un travail et le nombre n_non de personnes n’ayant pas de travail avec n = n_oui + n_non, ce qui revient à écrire :

L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de la variable expliquée est multipliée lorsque le facteur explicatif correspondant augmente d’une unité. C’est ce que l’on appelle un odds ratio. Les odds ratios s’interprètent de la manière suivante :

Variable quantitative : impact sur la cote de la variable expliquée d’une augmentation de 1 unité de la variable.
Variable catégorielle : impact sur la cote de la variable expliquée du fait d’appartenir à la catégorie indiquée par la variable muette par rapport au fait d’appartenir à la catégorie de référence.

Les odds ratios ne prennent que des valeurs positives. La valeur 1 sert de référence et indique l’absence de changement.

Exemple : modélisation du fait d’avoir un travail

[[File:./media/image193.emf]]Pour avoir les odds rations, on fait e à la puissance des chiffres de la première colonne. La cote de base de la variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 = 0.75. Cette valeur signifie que si on a comme caractéristique d’être une femme par rapport à un homme, on a 25% de chance en moins d’avoir un travail.

Probabilité d’une situation donnée

Etant donné que le modèle est estimé pour la quantité suivante :

La probabilité p se calcule alors comme :

Exemple :

La probabilité d’avoir un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant étudié durant 12 ans. Logit :

Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait un travail.