Les régression logistiques

Elle va nous permettre de prédire la valeur d’une ou l’autre des modalités d’une variable de type catégorielle.

Introduction[modifier | modifier le wikicode]

Problématique[modifier | modifier le wikicode]

Nous voulons construire un modèle de régression pour expliquer une variable dichotomique. Problème : une telle variable ne prend que deux modalités qui ne sont généralement pas des chiffres (oui/non, vrai/faux) alors qu’un modèle de régression produit des résultats numériques allant de – infini à + infini. Comment faire coïncider une variable dépendante dichotomique avec l’output d’un modèle de régression ? La solution consiste en deux étapes successives.

Transformation logit (fonction)[modifier | modifier le wikicode]

Soit une variable dépendante dichotomique et soit p la probabilité de la modalité pour laquelle nous allons construire le modèle.

Etape 1 : En considérant la probabilité p plutôt que la modalité elle-même, nous revenons à une variable dépendante numérique. Mais une probabilité évolue entre 0 et 1, alors qu’un modèle de régression produit des résultats allant de –infini à +infini.
Etape 2 : On estime le modèle pour la fonction logit, notée () plutôt que pour p :

On veut prédire des valeurs avec une régression connue où on se ramène à un cas où les valeurs vont aller de – l’infini à + l’infini. C’est une fonction logistique !

Donc on passe d’une variable dichotomique à quelque chose qui peut avoir des valeurs allant de – l’infini à + l’infini. La transformation est permise par le log. Nous on estime sur le PI avec une régression linéaire.

Modèle[modifier | modifier le wikicode]

Equation générale d’une régression logistique :

Même si le modèle de régression logistique ne permet pas forcément d’expliquer à 100% le logit, on n’indique généralement par le terme d’erreur car il n’est pas distribué selon une loi bien définie.

Echec/réussite à l’examen : Si 80 réussissent et 20 manquent, si on prend quelqu’un au hasard sans connaître ces modalités, on prend la modalité la plus présente, à savoir le 80 d’individus. En termes de probabilité, on a une probabilité de réussite de 0.8 et l’autre de 0.2. Donc le bêta 0 se réfère à un modèle dit nul où on a aucune autre information à part les données de départ, à savoir de la variable dichotomique.

Interprétation[modifier | modifier le wikicode]

En régression linéaire, il suffit de minimiser la somme des carrées d’erreur. Ici, on aura une fonction dite de régression logistique.

Niveaux d’analyse du modèle[modifier | modifier le wikicode]

Tout comme en régression linéaire, on peut évaluer à la fois la qualité globale d’un modèle et l’utilité de chacun de ses éléments. Par ailleurs, les coefficients du modèle peuvent soit être interprétés directement soit être transformées en odds ratio – rapport de cote. Cette seconde forme est plus naturelle dans le cas de la régression logistique.

Exemple : modélisation du fait d’avoir un travail

La variable dépendante est d’avoir un travail et on veut l’expliquer avec toutes les autres variables indépendantes. AIC = critère d’information. On a ici les coefficients nécessaires de notre régression ; on a des informations sur la qualité du modèle, sur la valeur des paramètre (dernière colonne).

On a ici de nouvelles informations par rapport au précédent.

Qualité globale du modèle : déviance[modifier | modifier le wikicode]

La déviance (-2 Log Likelihood ou -2LL) donne la « distance » entre le modèle et les observations. Elle est utile pour comparer des modèles en particulier le modèle basique ne contenant aucune variable explicative et le modèle complet où on a toutes nos variables. Ces deux chiffres indiquent une certaine distance entre le modèle et les observations. Plus la distance est petite, meilleur sera le modèle. En ayant une déviance plus petite, on aura un modèle considéré comme meilleur. Si on n’a aucune variable explicative et si on prend toutes ces explications du modèle précédents des variables indépendantes, la déviance est plus petite et donc le second modèle est meilleur que le modèle où on a juste les intercept.

Qualité globale du modèle : chi-2[modifier | modifier le wikicode]

La statistique chi-2 du rapport de vraisemblance évalue l’amélioration de la déviance par rapport au modèle « NULL » (avec constante seulement) :

Si la statistique du chi-2 n’est pas significative, le modèle est rejeté. Cette statistique permet aussi de comparer des modèles entre eux.

Donc notre modèle vaut la peine d’être considéré mais cela ne signifie pas qu’il est bon ! C’est aussi un outil qui nous permet de juger la validité de notre modèle.

Qualité globale du modèle : pseudo-R²[modifier | modifier le wikicode]

Cox et Snell :

Nagelkerke (exemple : R² = 0.227)

McFadden :

où -2LL₀ est la déviance du modèle NULL et -2LL_M est la déviance du modèle que l’on teste. Au contraire de la régression linéaire, ces R² ne représentant pas la part expliquée de la variable dépendante mais seulement une mesure de l’utilité des variables explicatives. Le R² ne s’utilise pas de la même manière que dans la régression linéaire. Ce sont toutes des estimations !

Qualité globale du modèle : AIC, BIC…[modifier | modifier le wikicode]

Les critères d’information d’Akaike et de Bayes permettent aussi de comparer au niveau global plusieurs modèles :

[[File:./media/image188.emf]]

où k est le nombre de coefficient estimés du modèle et n est le nombre d’observations. Pour la régression logistique, le FIT du modèle est égale à la déviance (-2 fois la log vraisemblance du modèle). Plus un coefficient est proche de zéro, meilleur il est.

Test individuel de chaque variable[modifier | modifier le wikicode]

La significativité des coefficients détermine si la variable correspondante est significative ou si elle peut au contraire être supprimée du modèle.

Variable quantitative : c’est l’effet de la variable elle-même car il n’y a qu’un seul coefficient.
Variable catégorielle : la significativité d’un coefficient indique uniquement l’effet significatif de la variable muette correspondante par rapport à la catégorie de référence.

Variables explicatives à plus de 2 modalités[modifier | modifier le wikicode]

Lorsqu’une variable explicative catégorielle comporte plus de 2 modalités, elle est remplacée dans le modèle par plusieurs variables muettes. Une p-valeur est fournie pour chacune de ces variables muettes. Toutes ces variables muettes correspondent à la même variable explicative. Il faut donc soit toutes les laisser dans le modèle soit toutes les supprimer. Il est possible de tester globalement l’effet de toutes les variables muettes correspondant à une même variable explicative en utilisant la statistique du chi-2 pour comparer le modèle avec et sans ces variables muettes.

Exemple : modèle avec une variable explicative catégorielles à 4 modalités (DOC_4c)

Modèle sans cette variable explicative catégorielle (DOC_4c)

Quel est le meilleur modèle ? On peut regarder la déviance résiduelle (3555.5 et 3592.8). Le plus petit est meilleur mais la différence des 2 est très petit. En regardant la valeur du BIC, le 2^ème modèle serait meilleur. Par contre, par rapport au critère déviance résiduelle (distance entre le modèle et l’observation), là, ça semble un peu se contredire. En fait, ces deux modèles sont extrêmement proches l’un de l’autre. On peut ainsi dire que par parcimonie, on préférerait le modèle ayant le moins de variables. On prend les variables muettes du premier modèle et on les retire toutes ensembles. Si on regarde les p-valeur, il n’y a que pour une variable où ces significatives. Donc on les retire toutes.

Interprétation des coefficients[modifier | modifier le wikicode]

Un modèle de régression logistique peut s’interpréter soit en termes de valeur des coefficients de régression, soit en termes d’odds ratios (rapport de cotes). Les coefficients mesurent l’influence des variables explicatives sur le logit de la variable dépendante. Un coefficient >0 implique une augmentation du logit et un coefficient <0 implique une diminution du logit. Problème : le logit n’est qu’une construction mathématique qui n’est pas facile à interpréter. On sait seulement qu’un logit de zéro correspond à une probabilité p de 0.5 et que plus le logit augmente, plus la probabilité augmente.

Exemple : modélisation du fait d’avoir un travail

Odds ratio[modifier | modifier le wikicode]

Soit la variable « avoir un travail ». Cette variable n’a que deux modalités : oui et non. Soit p la probabilité d’avoir actuellement un travail (oui) et 1-p la probabilité de ne pas en avoir (non). Pour un échantillon de taille n, la cote (odds) associée à cette variable est le rapport entre le nombre n_oui de personnes ayant un travail et le nombre n_non de personnes n’ayant pas de travail avec n = n_oui + n_non, ce qui revient à écrire :

L’exponentiel d’un coefficient (exp(bêta)) mesure par combien la cote de la variable expliquée est multipliée lorsque le facteur explicatif correspondant augmente d’une unité. C’est ce que l’on appelle un odds ratio. Les odds ratios s’interprètent de la manière suivante :

Variable quantitative : impact sur la cote de la variable expliquée d’une augmentation de 1 unité de la variable.
Variable catégorielle : impact sur la cote de la variable expliquée du fait d’appartenir à la catégorie indiquée par la variable muette par rapport au fait d’appartenir à la catégorie de référence.

Les odds ratios ne prennent que des valeurs positives. La valeur 1 sert de référence et indique l’absence de changement.

Exemple : modélisation du fait d’avoir un travail

[[File:./media/image193.emf]]Pour avoir les odds rations, on fait e à la puissance des chiffres de la première colonne. La cote de base de la variable dépendante vaut 2438/939 = 2.60. Si l’on est une femme plutôt qu’un homme, la cote de la variable dépendante devient : 0.288 x 2.60 = 0.75. Cette valeur signifie que si on a comme caractéristique d’être une femme par rapport à un homme, on a 25% de chance en moins d’avoir un travail.

Probabilité d’une situation donnée[modifier | modifier le wikicode]

Etant donné que le modèle est estimé pour la quantité suivante :

La probabilité p se calcule alors comme :

Exemple :

La probabilité d’avoir un travail pour une femme de 38 ans, sans handicap, non-mariée et ayant étudié durant 12 ans. Logit :

Donc pour ces caractéristiques, il a 69% de chance qu’une femme ait un travail.

Modèles dérivés[modifier | modifier le wikicode]

Régression multinomiale[modifier | modifier le wikicode]

La régression multinomiale s’utilise lorsque la variable dépendante est une variable nominale à c>2 catégories. L’une des catégories joue alors le rôle de référence et l’on calcule en parallèle c-1 régressions « logistiques » pour chacune des autres catégories de la variable. Attention : c-1 régressions ne sont pas indépendantes les unes des autres et ce modèle n’est pas équivalent à calculer c-1 vraies régressions logistiques.

DOC_4c (référence =0)

On a pris 4 valeurs.

Doc_4C (référence = 0)

Régression ordinale[modifier | modifier le wikicode]

La régression ordinale s’utilise lorsque la variable dépendante est une variable ordinale à c>2 catégories. On calcule alors une régression comparant des modalités adjacentes ou des groupes de modalités cumulées. Contrairement à la régression multinomiale, un seul ensemble de coefficients est calculé, à l’exception des constantes. Pour utiliser ce modèle, il faut faire l’hypothèse de parallélisme des régressions, ce qui signifie que les coefficients des différentes régressions doivent être identiques, à l’exception des constantes. En pratique, cette hypothèse est difficile à vérifier et l’on préfère souvent en rester à une régression multinomiale.

Exercice en cours[modifier | modifier le wikicode]

Sur la base de données disponibles sur moodle (excel), on va s’entraîner à analyser des régressions linéaires :

Résumer la variable douleur (qualitative) : variable qualitative dichotomique ayant 2 modalités. Pour la résumer, il faut calculer le nombre de fois qu’il y a 0 et le nombre de fois qu’il y a 1. 35 fois 0 et 25 fois 1. En pourcentage, 58% qui n’ont pas de reçu de douleur contre 41% qui ont eu de la douleur.
Prenez un patient au hasard. A-t-il plus de chance d’avoir une réduction de la douleur ou de ne pas avoir de réduction de la douleur ? Effectivement, si on prend une personne au hasard, d’après les données on a 58.3% de chance que la personne n’ait pas ressenti de la douleur contre 41% de personne qui ont ressenti de la douleur. Notre meilleur pronostic si on prend une personne au hasard, elle n’a pas de réduction de douleur ressenti puisque le pourcentage est plus grand que pour celles qui ont ressenti de la douleur.

La seule chose qu’on peut dire c’est que par rapport à mes données, je regarde la majorité et je parie là-dessus. Si je fais un modèle basé uniquement sur la variable douleur qui est la variable dépendante. Ainsi, on estime un coefficient qui est le coefficient constant puisqu’on n’a aucune autre valeur.
1. Quel est la cote de base de la variable dépendante ? On fait la formule de la cote : (n_oui/n) / (n_non/ n) : (25/60) / (35/60) = 0.714.
2. Qu’est-ce ça signifie d’avoir une cote de 0.714 ? Le 1 est le seuil équivalent entre les 2 populations. Si on est en dessous, cela signifie que la partie qui nous intéresse est plus faible. Donc, les chances qu’un patient ait une réduction de douleur avec une cote inférieure à 1, ses chances diminuent. Donc cela signifie que le patient a environ 29% de chance en moins que le patient ait une réduction de douleur.

Ce qui est inférieur à 1, on a moins de chance d’obtenir l’évènement en question. Si on a plus que 1, on a plus de chance d’obtenir l’évènement en question.

Le modèle nul = un modèle dans lequel je ne mets aucune variable explicative. Je n’ai pas d’autres informations que le fait d’avoir un patient et la probabilité qu’il ait une réduction de la douleur. AIC = plus il est petit, mieux c’est (c’est un critère d’information).

Quelle est l’équation de ce modèle nul ? Le pi est le logit. La différence par rapport à une régression linéaire, on y explique une variable égale à bêta 0 + bêta 1. Là, on n’explique pas directement la variable qui nous intéresse. On passe ici par un logit parce qu’on a une variable dichotomique, on a des soucis en utilisant une régression logistique. Ici, on évalue un modèle de régression pour le logit. Donc la réponse est que bêta 0 (pi) = -0.036.
Quelle est la probabilité d’une réduction de douleur ? (régression logistique) p = 1/1 + e ^{- (-0.336)} = 0.417. C’est la probabilité d’avoir une réduction de douleur.

On a fait un modèle qui nous permet de prédire la variation de la variable.

En reprenant notre résumé de donné, on a 8 femmes qui ressentent une diminution de douleur et 22 qui n’en ressentent pas.

Modèle avec genre, odds ratio

Les rapports de cote chez la femme et chez l’homme sont

	Femme	Homme
Odds ratio

Nous connaissons donc les cotes avant et après 1 unité de changement dans la variable Genre (Genre = 0 pour la femme, Genre = 1 pour l’homme).

Quelle est la variation proportionnelle des rapports de cotes ?

Différence entre les cotes = cote après 1 unité d’accroissement de Genre / cotes originales

Nous avons calculé une variation proportionnelle des rapports de cote : 3.596

Les coefficients et odds rations sont :

	Coefficient	OR
Intercept
Genre M

Le modèle final suivant est disponible

La variable traitement contenait 3 valeurs. Puisqu’on a 3 valeurs, on a besoins de 2 variables dichotomiques pour la représenter.

Quelle est l’équation du modèle final ?

Modèle final, équation

Que vaut le logit pour une femme de 60 ans, ayant reçu le traitement A, et dont la durée des douleurs précédentes est de 5 jours ?

P= 0.007

Quelle est la probabilité d’une réduction de douleur pour une femme de 60, ayant reçu le traitement B, et dont la durée des douleurs précédente est de 5 jours ?

P= 0.004.