Accueil
 Régression logistique, algorithme de classification

Régression logistique, algorithme de classification

Intéressé par les formations de Jedha ?
Voir le syllabus de Jedha
Nos derniers articles !

Très utilisée dans le domaine du Machine Learning, la régression logistique est un modèle d'analyse multivarié qui est à la base de nombreux algorithmes d'apprentissage automatique. On vous explique ce qu'il faut savoir sur cet algorithme !

Qu'est-ce que la régression logistique ?

La régression logistique est par définition un modèle d'analyse statistique qui permet d'étudier les relations entre un ensemble de variables prédictives nommées X et une variable binomiale nommée Y.

En d'autres termes, cet algorithme a pour fonction d'étudier le lien entre une variable principale et plusieurs variables explicatives.

La régression logistique fait partie des modèles mathématiques très souvent utilisés dans le domaine du Machine Learning et dans celui de l'intelligence artificielle (IA).

En effet, la régression logistique est un modèle linéaire généralisé qui utilise une fonction logistique comme une fonction de lien. Elle est, au fil des années, devenue un outil statistique indispensable dans la discipline de l'apprentissage automatique. De plus, elle est considérée comme l'un des modèles d'analyse multivariée les plus faciles à analyser et les plus simples à déchiffrer. Elle peut prendre plusieurs formes, à savoir la forme logistique ou linéaire, mais également la forme binaire ou multinomiale.

Le modèle de régression logistique utilise également l'optimisation des coefficients pour prédire la probabilité qu'un évènement soit susceptible de se produire ou non. Plus concrètement, lorsque la valeur prédite est inférieure à un seuil prédéfini, il y a de fortes chances que l'évènement ne se produise pas. Par contre, si cette valeur est supérieure au même seuil de départ, l'évènement est dans ce cas susceptible de se produire. Il est important de préciser que le résultat de cette probabilité varie toujours entre 0 et 1.

Binaire vs multinomiale

Les termes binaire et multinomial sont parfois confondus dans leurs usages, mais il existe bel et bien une différence entre ces deux notions. De manière générale, la régression logistique binaire traite uniquement des variables dépendantes dichotomiques, autrement dit des variables à deux valeurs ou de type binaire. Les données obtenues dans la data sont le plus souvent de type « oui ou non », « échec ou succès », « vrai ou faux », ou de temps en temps codés par 0 et 1.

La régression logistique multinomiale est quant à elle utilisée lorsque les sujets souhaitent classifier des objets en se basant sur les valeurs d'un groupe de variables de prédicteur. La grande différence avec la technique binaire est que la variable dépendante n'est pas exclusivement limitée à deux catégories. Plus concrètement, la régression logistique multinomiale a pour principe d'expliquer et de prédire une variable susceptible de prendre plusieurs valeurs alternatives grâce à des variables explicatives.

Pour aller plus loin, une modalité de référence doit obligatoirement être sélectionnée lorsqu'il s'agit d'un modèle multinomial.

régression logistique formation

Régression logistique conditionnelle

Basé sur un modèle proche de celui de la régression logistique, le modèle conditionnel s'adresse à un même groupe en lui proposant des variables ou des choix différents. En d'autres termes, chaque individu est soumis à différentes situations avant de révéler son choix qui se présentera sous forme d'une variable binaire qui prendra la forme d'une variable dépendante.

À titre d'exemple, on peut citer le choix d'une activité physique avec plusieurs types de propositions comme la gym, le vélo, la course à pied… Le modèle de régression logistique conditionnelle prend ainsi en compte le fait que ce soit les mêmes individus qui ont répondu à ces différentes situations, pour fournir des données. Par ailleurs, on peut remarquer que, dans le cas d'un modèle de logistique conditionnelle, les observations ne sont pas indépendantes au sein d'un bloc identique correspondant à la même personne.

Différence avec la régression linéaire

La régression logistique et le modèle linéaire présentent de nombreuses différences. En effet, la principale distinction se situe au niveau des données obtenues. La régression linéaire fournit un résultat continu tandis que la régression logistique permet d'obtenir un résultat constant, le plus souvent de type binaire (« vrai ou faux », « oui ou non », « exact ou incorrect »…). Les data obtenues par cet outil d'analyse statistique peuvent parfois être qualifiées de catégoriques.

D'autre part, contrairement à la régression logistique dont le résultat n'a qu'un nombre limité de valeurs possibles, la régression linéaire est un algorithme d'apprentissage qui se base sur des variables prédictives ou explicatives pour fournir plusieurs possibilités de data. Les data fournies par cet algorithme sont ainsi des données chiffrées qui peuvent être situées parmi un nombre infini de valeurs possibles.

Si l'on prend l'exemple des données sur le temps passé par un étudiant à étudier et les données de sa data d'examen, la régression linéaire et le modèle logistique auront des prédictions différentes. La régression logistique peut dans le cas présent, prédire si l'étudiant a réussi ou échoué, car seules des catégories spécifiques ou des valeurs statistiques sont autorisées dans la détermination de cette prédiction.

En revanche, les data de la régression linéaire étant continues, cet algorithme statistique peut prédire avec précision le résultat de l'étudiant sur une échelle de 0 à 100. Cela en fait un logiciel d'analyse de valeurs beaucoup plus précis et donc l'un des plus pratiques utilisés par les entreprises.

formation machine learning

Quand utiliser la régression logistique ?

Très utilisée dans le domaine du marketing, la régression logistique permet aux spécialistes et experts de réaliser des prédictions exprimées en pourcentage concernant la probabilité qu'un internaute clique sur un certain nombre de données ciblées. Cet outil est en effet très populaire en matière de publicité en ligne. La régression logistique peut également être utilisée dans de nombreux autres domaines et à diverses occasions.

Cet outil d'analyse statistique est notamment utilisé dans les soins de santé, précisément pour identifier avec efficacité les facteurs de maladies et mettre au point des mesures préventives adaptées à la situation. D'autre part, on retrouve également la régression logistique dans les applications de prévision météorologique. Elle sert en effet à prévoir les conditions météorologiques ainsi que les chutes de neige entre autres.

De plus, cet outil est également utilisé lorsque les élections ont lieu dans un pays. Il permet de prédire le taux de participation des électeurs et analyse leurs intentions de vote vis-à-vis d'un candidat en particulier. On retrouve aussi la régression logistique dans le domaine des assurances. Elle permet en effet de prédire les chances qu'un bénéficiaire d'une police d'assurance décède avant l'expiration de son contrat. Pour cela, l'outil prend en compte plusieurs critères comme l'âge du titulaire de la police d'assurance, son sexe et son état général de santé.

La régression logistique est enfin très présente dans les opérations bancaires. Elle permet effectivement de prédire les différentes possibilités qui empêcheraient un demandeur de prêt d'honorer ou non ses engagements vis-à-vis de l'établissement bancaire. Ici encore, cet algorithme prend en compte plusieurs critères pour fournir de telles informations. Il s'agit entre autres du revenu annuel du futur emprunteur, ses dettes passées, mais aussi ses antécédents bancaires (défauts de paiement antérieurs par exemple).

Comment apprendre la régression logistique ?

Il existe plusieurs méthodes pour comprendre la régression logistique, mais aussi pour la maîtriser à la perfection. En effet, il suffit de s'inscrire à une formation en Data Scientist, précisément à des formations dans les secteurs du Machine Learning, du Deep Learning ou encore celles concernant les réseaux de neurones.

Pour ce faire, l'apprenant peut s'orienter vers des centres agréés qui forment entre autres aux métiers de :

  • Scientifique de données ;
  • Data Analyst.

Grâce à une formation certifiée, l'apprenant peut également acquérir des connaissances dans le domaine de la cybersécurité. Il pourra ainsi maîtriser le Machine Learning ainsi que plusieurs autres algorithmes et méthodologies. La formation en régression logistique ne permet pas uniquement de maîtriser les bases du Machine Learning. La formation aide aussi l'apprenant à avoir toutes les clés en main pour maîtriser la Data Vizualisation d'une part, mais aussi pour comprendre et réaliser la programmation en Python avec plus de facilité, d'autre part.

En pratique, la formation en régression logistique se déroule le plus souvent via des cours à distance ou en présentiel. Quel que soit le type de formation choisi, la durée moyenne de celle-ci est d'environ quelques semaines et est sanctionnée par une attestation certifiée à la fin de la formation.

Fréquemment utilisée pour résoudre les problèmes de classification binaire, la régression logistique fait partie des algorithmes d'apprentissage qui permettent aux entreprises d'améliorer leurs stratégies d'entreprise. Ceci permet effectivement à ces dernières d'atteindre leurs objectifs commerciaux en augmentant la rentabilité des investissements et en réduisant les charges. Suivre une formation en régression logistique, notamment grâce au Machine Learning, aide donc à améliorer les campagnes marketing de son entreprise.

Antoine Krajnc
Écrit par
Antoine Krajnc
 - 
Fondateur
 @
Jedha