La différence entre Machine Learning supervisé et non-supervisé
5
 min
Monter en compétences
 Publié le 
8/9/2021

La différence entre Machine Learning supervisé et non-supervisé

Il existe trois grandes catégories de Machine Learning. En revanche, les deux principales catégories de Machine Learning que sont le Machine Learning supervisé et le Machine Learning non-supervisé se distinguent sur plusieurs points fondamentaux et notamment un qui réside dans celui d'une vérité fondamentale. Concernant ces deux types d'apprentissage l'un est basé à partir de données étiquetées ou labellisées, tandis que l'autre s'effectue sans étiquetage de données et de façon totalement indépendante. Décortiquons ensemble dans cet article ces deux notions et les explications se cachant derrière.

L'expression anglaise "Machine Learning" signifie littéralement "apprentissage par la machine". C'est un mode d'apprentissage automatique ou artificiel qui a le vent en poupe en raison de ses nombreuses applications. À l'heure de l'évolution technologique, le Machine Learning s'avère incontournable. C'est un champ d'étude de l'intelligence artificielle qui s'appuie sur des approches mathématiques et statistiques pour permettre aux ordinateurs d'apprendre par eux-mêmes. Deux principaux types de Machine Learning sont distingués, à savoir : le Machine Learning supervisé et le Machine Learning non-supervisé.

types de machine learning
Les trois principaux types de Machine Learning

Qu'est-ce que le Machine Learning ?

Donnant la capacité aux machines d'effectuer des tâches sans être spécifiquement programmées pour cela, le Machine Learning ne cesse d'être amélioré.

Les origines du Machine Learning

Le Machine Learning est une discipline qui a débuté il y a plusieurs décennies. S'il y a plusieurs précurseurs en la matière, Alan Turing est retenu comme celui qui aura concrétisé l'idée de permettre aux machines d'apprendre. Mathématicien et cryptologue, le Britannique a créé dans les années 1930 le concept de "machine universelle" qui favorisera la création de l'ordinateur. En 1950, il invente un test (connu aujourd'hui sous le nom de test de Turing) dont le but est de déterminer si une machine peut simuler la pensée de l'homme.

Le test de Turing se déroule comme suit. Un examinateur est mis face à deux interlocuteurs dont l'un est un ordinateur et l'autre un humain. À partir d'échanges textuels, il doit identifier l'ordinateur. S'il ne réussit pas à le faire, la machine a alors réussi l'examen. Le test de Turing a permis la création des premiers programmes intelligents. Il faut rappeler qu'en 1943 déjà, les scientifiques Warren McCulloch et Walter Pitts ont publié un article sur le fonctionnement des neurones. Dans les travaux de ces deux chercheurs, les neurones sont représentés par des circuits électriques.

Certes, la création de la notion de l'apprentissage automatique est attribuée à Alain Turing. Mais c'est l'informaticien américain Arthur Samuel qui utilise le terme "Machine Learning" pour la première fois en 1959 pour un programme informatique créé en 1952 et capable de jouer aux dames et d'acquérir des notions au cours des parties. Plus tard, en 1957, un autre informaticien américain du nom de Frank Rosenblatt crée le perceptron, un algorithme en mesure de classer des éléments. Les années 1950 ont connu l'émergence du Machine Learning qui est intimement lié à l'intelligence artificielle.

L'évolution du Machine Learning

Le Machine Learning a beaucoup évolué depuis ses débuts. Cependant, cette évolution n'a pas été linéaire. Les rêves que nourrissaient les scientifiques à l'égard de l'intelligence artificielle dans les décennies 1970 et 1980 étaient trop grandioses à l'époque. Les recherches sur le Machine Learning étaient alors marquées par un manque de résultats qui a tôt fait de couper l'élan de cette nouvelle notion. Dans le livre "Perceptrons" de Marvin Minsky et Seymour Papert, les travaux de Frank Rosenblatt ont été vivement critiqués.

Dès 1974, on parlait de l'hiver de l'intelligence artificielle pour qualifier le coup d'arrêt que connaît la discipline. Malgré le sursaut technologique du début des années 1980, le Machine Learning n'a pas redoré son blason jusqu'en 1990. Dans la dernière décennie du XXe siècle, ce champ d'étude de l'IA connaît enfin un regain d'intérêt. Cela est dû à la création d'algorithmes très performants rendue possible par l'augmentation de la puissance de calcul des ordinateurs. Au fil du temps, le Machine Learning a fini par se démocratiser. Grâce à une formation machine learning, tout le monde peut aujourd'hui travailler dans ce domaine.

L'une des applications les plus marquantes de cette science, c'est la mise au point de l'ordinateur Deep Blue par IBM. Spécialisée dans le jeu d'échecs, cette machine a pu apprendre de façon automatique. Elle a vaincu en 1997 le champion du monde de la compétition. IBM a récidivé avec la création de Watson. Ce programme a pu gagner le jeu télévisé de culture générale Jeopardy. L'évolution du Machine Learning est telle qu'il est appliqué dans de nombreux domaines comme le transport autonome, internet, la médecine, la vision artificielle… AlphaGo Zero, le célèbre programme capable de jouer au go et ayant battu jusqu'à aujourd'hui tous les humains et programmes auxquels il a été confronté (y compris le champion du monde de go Ke Jie, qui n'a obtenu aucune victoire contre AlphaGo Zero), est la preuve que cette discipline continue de se développer.

évolution Machine Learning
L'évolution du Machine Learning

Le Machine Learning supervisé

Le Machine Learning supervisé est le plus accessible. Lors des formations en data, il constitue généralement l'un des modules.

Le procédé du Machine Learning supervisé

Le Machine Learning supervisé consiste à faire apprendre un ordinateur à partir de données étiquetées ou labellisées. Cela signifie que la machine travaille avec un jeu de données qui ont déjà été identifiées et catégorisées. En conséquence, l'ordinateur connaît en amont les réponses qu'il devrait fournir. Le but du Machine Learning est d'amener la machine à prédire les nouvelles données non étiquetées qui lui seront soumises ensuite.

Le Machine Learning supervisé s'inspire des expériences précédentes pour recueillir ou produire des sorties de données. Ce type d'apprentissage artificiel est utilisé pour mettre en place des critères de performance en utilisant l'expérience. Il est utilisé pour résoudre des problèmes de calcul. En Machine Learning supervisé, grâce aux labels, il est simple de valider les modèles en comparant les résultats prédits et les sorties réelles.

La mise en place du Machine Learning supervisé

Pour faire du Machine Learning, les modèles de régression sont mis en jeu. Ils permettent de comprendre les relations entre les données. La régression peut être linéaire ou logistique. La régression linéaire s'utilise pour prédire la valeur d'une variable dépendante sur la valeur d'une variable indépendante.

Les algorithmes de régression linéaire permettent de faire des prédictions. Quant aux algorithmes de régression logistique, ils sont utilisés pour traiter des variables dépendantes binaires. Ils permettent de classer les données en deux catégories en fonction des résultats attendus et des données labellisées. Les modèles de classification sont également exploités pour faire de l'apprentissage automatique supervisé. Dans ce cas, les arbres de décision sont mis à profit.

Le Machine Learning supervisé s'effectue suivant les étapes ci-après :

  • la collecte des données et leur étiquetage
  • le nettoyage des données
  • le prétraitement des données
  • l'instanciation des modèles
  • l'entraînement des modèles
  • la validation du modèle

Le suivi d'une formation en Machine Learning ou plus globalement d'une formation en data science permet de choisir la technologie adaptée à chaque étape.

Les cas d'application de l'apprentissage automatique supervisé

Le Machine Learning supervisé est appliqué dans plusieurs domaines. De façon concrète, il est souvent utilisé pour amener un programme à reconnaître les spams parmi des emails. À cette fin, des emails classés « désirables » et « spams » sont présentés à l'algorithme. Grâce au principe de l'expérience acquise, aux statistiques et aux probabilités, le programme parvient à intégrer les critères à partir desquels certains emails sont classés « désirables » et d'autres « spams ».

Par la suite, lorsque de nouveaux emails lui sont soumis, il les identifie en donnant un score de probabilité. Les premières réponses du programme sont alors corrigées à la main pour l'amener à s'améliorer jusqu'à atteindre un taux de réussite de 100 % ou presque. Le Machine Learning supervisé est également utilisé pour la détection de fraudes financières. Cela permet de détecter les comportements anormaux lors de l'usage de cartes bancaires.

En outre, les recommandations de produits ou services qui sont faites par les sites aux clients sont dues à l'apprentissage automatique supervisé. Sur Netflix, par exemple, à partir de l'historique de navigation de chaque internaute, l'algorithme lui suggère des contenus qui devraient l'intéresser.

Machine Learning supervisé
Cas d'application de Machine Learning supervisé

Machine Learning non-supervisé : que retenir ?

Comme son nom le laisse penser, le Machine Learning non-supervisé s'effectue sans étiquetage de données et de façon totalement indépendante.

Ce qu'est le Machine Learning non-supervisé

L'apprentissage artificiel non-supervisé se manifeste par l'exécution des tâches par un algorithme sans une aide préalable. Les données sont adressées à la machine sans les résultats attendus. Les données fournies sont exemptes de réponses. C'est à l'algorithme de classer et d'analyser les données pour aboutir aux résultats modérés.

Les modèles de Machine Learning non-supervisé sont utilisés pour :

  • le classement des données
  • le calcul approximatif de la densité de distribution
  • la réduction des dimensions

Pour le Machine Learning non-supervisé, les données d'entrées sont inconnues et moins complexes que lorsqu'il s'agit du type supervisé. Toutes les données sont traitées comme des variables aléatoires. Puisque les données ne sont pas étiquetées, il n'est pas possible de calculer des scores de réussite.

L'usage du Machine Learning non-supervisé

Pour mettre en place le Machine Learning non-supervisé, il est nécessaire de résoudre des problèmes de clustering et d'association. Le clustering est un problème qui conduit la machine à rassembler des données sous forme de grappes ou de groupes selon leurs ressemblances. Pour faire du clustering, l'algorithme K-Means est largement utilisé. Ce dernier applique le partitionnement des données de façon non-hiérarchique. L'algorithme catégorise les données qui lui sont fournies dans des clusters conformément au principe d'exclusivité d'appartenance. Cela veut dire qu'une donnée ne peut appartenir qu'un un seul cluster.

Quant à la technique d'association en apprentissage par la machine non supervisé, elle s'utilise pour trier et regrouper les données qui peuvent être liées. Le regroupement est fait sur la base de caractéristiques bien définies. L'objectif dans ce cas est de détecter des données ayant les mêmes caractéristiques sans toutefois être identiques. L'un des algorithmes les plus utilisés pour réaliser l'association, c'est l'APriori. Cet outil permet de déterminer les propriétés qui interviennent régulièrement dans un ensemble de données pour établir une catégorisation.

Les cas d'usage du Machine Learning non-supervisé

Le Machine Learning non-supervisé est utilisé à diverses fins comme la reconnaissance vocale. Par exemple, c'est cette technique qu'emploie Alexa, l'assistant personnel intelligent d'Amazon. Le Machine Learning non-supervisé permet à l'algorithme d'apprendre les caractéristiques vocales du propriétaire du téléphone comme le langage et le son de la voix.

De même, les chatbots utilisent l'apprentissage automatique non-supervisé. Basés sur NLP (Natural Langage Processing), les agents conversationnels, très présents dans l'e-commerce, traduisent les textes écrits en intentions. C'est ainsi qu'ils parviennent à répondre aux requêtes des internautes. Le Machine Learning non-supervisé est aussi utilisé dans le domaine médical, notamment pour effectuer des diagnostics. Grâce aux données fournies à l'algorithme employé à cette fin, ce dernier permet de prévenir des problèmes sanitaires d'importance.

Machine Learning non-supervisé
Cas d'application de Machine Learning non-supervisé


Quelles sont les bonnes raisons de suivre une formation sur le Machine Learning ?

La première bonne raison de suivre une formation sur le Machine Learning, c'est le fait que le numérique soit un secteur pourvoyeur d'emplois. Depuis plusieurs années déjà, les recrutements se font en masse pour couvrir le besoin de compétences dans le domaine. En exemple, selon une enquête du Syntec Numérique et du réseau des IESF (Ingénieurs et scientifiques de France), en 2020, 175 000 emplois ont été créés dans le numérique en 10 ans.

Une formation en Machine Learning est un excellent moyen d'augmenter ses chances de trouver le plus rapidement possible du travail. En réalité, les ingénieurs en Machine Learning font partie des professionnels les plus demandés sur le marché de l'emploi numérique. Pour preuve, selon la plateforme de relations professionnelles LinkedIn, le nombre d'offres d'emploi pour ce métier s'est multiplié par dix entre 2012 et 2019.

La deuxième bonne raison de se faire former en Machine Learning, c'est la rémunération. Le salaire annuel moyen d'un ingénieur en apprentissage automatique est de 150 000 dollars aux États-Unis d'après Indeed. En France, notamment à Paris, le salaire par an est d'environ 67 893 euros selon l'Economic Research Institute. Sur la plateforme de relations professionnelles LinkedIn, le salaire moyen est estimé à 45 000 euros par an. Le suivi d'une formation en Machine Learning permet d'opter pour un métier valorisé et très bien payé. C'est également une solution pour effectuer une reconversion professionnelle.

La troisième bonne raison de suivre une formation en Machine Learning, c'est la flexibilité des programmes d'apprentissage. Dans la plupart des cas, il est possible d'adapter le programme à son rythme en choisissant la formule à plein temps ou celle à temps partiel. Souvent, les centres de formation proposent des formations globales sur la data qui contiennent plusieurs modules dont celui dédié au Machine Learning. Une formation data vous permet alors d'avoir des compétences non seulement en apprentissage automatique, mais aussi en Data Analysis, Collection et Management.

La quatrième bonne raison pour laquelle il est utile de se faire former en Machine Learning, c'est la possibilité de travailler dans une très grande entreprise. Les géants du web comme Google, Amazon, Facebook, Apple, Alibaba, Twitter, Netflix et autres ont constamment besoin de compétences en apprentissage automatique. Le suivi d'une formation machine learning permet de se donner des chances de travailler pour ces mastodontes du numérique pour une rémunération alléchante.

Si vous souhaitez acquérir les compétences et maîtriser tout le pipeline Data, n'hésitez pas à regarder les formations Data que Jedha Bootcamp propose.

Rejoignez la communauté sur JULIE !

Python, SQL, gestion de projet Data, toutes les compétences à acquérir pour monter en compétences avec cours en ligne gratuits.

Marina Kia
Écrit par
Marina Kia
 - 
Content & Event Manager
@ Jedha

Python : le language de programmation le plus
populaire parmi les professionnels de la Data !

Obtenez notre livre d'Introduction Pratique à Python !

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes