Workshop : Ecrire ses premières requêtes SQL
Mardi 26 septembre à 19h
En ligne

Apprenez les bases de SQL avec une pro de la Data en écrivant vos premières requêtes !


S'inscrire
Retour à l'accueil du blog
Optimiser ses publicités avec le Reinforcement Learning
2
 min
Monter en compétences
 Publié le 
29/11/2019

Optimiser ses publicités avec le Reinforcement Learning

Améliorer son taux de conversion, son ciblage, mieux connaître son audience fait partie des grandes missions de chaque entreprise. Les méthodes de Machine Learning nous permettent maintenant de mieux comprendre tout ceci, en analysant les comportements et interactions d’un très grand nombre d’utilisateurs ! Ici nous allons parler d’une problématique centrale : comment optimiser ses publicités dans les médias digitaux (les sites internet du Monde, Le Point, Le Parisien etc), en suivant la stratégie des annonceurs (marques voulant diffuser leurs publicités) et les visiteurs du site internet.

Pourquoi optimiser sa vente d'espace publicitaire ?

Améliorer la conversion de prospects, après les avoir source, optimiser l’efficacité d’une publicité dans son contenu, sa cible et autre, puis faire acheter la publicité au meilleur prix acceptable. Ce sont les principaux enjeux pour les médias.

Car médias vivent essentiellement des publicités, ayant peu d’abonnés dans leur base. Leur but étant de convaincre et séduire les marques pour qu’elles viennent exposer leur publicité. Dans un second temps il conviendra d’apporter des KPI et preuves de performance de ces publicités placées grâce au Machine Learning.

Ce système d’achat et de vente d’espace publicitaires s’oriente maintenant vers celui d’un système en temps réel. On parle de programmatique.

Qu'est-ce que la programmatique et en quoi la Data Science peut-elle nous aider ?

Ce processus de vente de publicité programmatique engage beaucoup d’acteurs.

Sur un site internet de média, les espaces publicitaires sont mis en vente par le site éditeur (Le Monde, le Point, Libération, Le Parisien) via un SSP (un supply side plateforme). Cette plateforme automatisée va segmenter les espaces publicitaires  du vendeur (bannières, espace de vidéos…) et y affecter des prix différents.

D’un autre côté, la marque annonceur (Renaud, Apple, Asos) veut promouvoir ses produits sur Internet. En confiant leurs budgets publicité à des agences (Publicis, Havas), celles-ci vont essayer de dépenser de la manière la plus optimale le budget, en échangeant avec les sites des éditeurs via une DSP (Demand Side platform).

L’idée sera de définir une cible (géographique, de sexe, d’âge) de visiteur du site internet média. Les SSP (vendeur) et le DSP (acheteur) vont interagir, de la même manière qu’à la bourse, sous forme d’enchères, dans un Real Time bidding (RTB). Lorsqu’il y a rencontre entre l’offre et la demande l’affaire est réalisée, ce processus étant maintenant tout automatisé (décision en 200 millisecondes).

Les enjeux et avantages de la programmatique (50% de la vente de publicité en France) sont bien entendu divers : entre autres, la fixation du prix en temps réel, l’adaptation facile selon la publicité d’un côté et l’espace publicitaire de l’autre. Cette méthode programmatique va être amenée à prendre de plus en plus de place, remplaçant ainsi la vente d’espace « à la main » (négociation entre les services des entreprises).

Qu'est-ce que la programmatique ?
Qu'est-ce que la programmatique ?

Traduction de la problématique en Machine Learning

Le site éditeur (L’Équipe, Le Monde etc) connaît d’un côté les caractérises du visiteur (adresse IP, sexe, devis, localisation) & les caractéristiques de l’espace publicitaire (rubrique, taille de l’espace, format). D’un autre côté, il connaît aussi la stratégie de l’acheteur, le prix de vente souhaité de sa publicité (son budget pub) et son taux d’achat.

En somme, l’idée sera de maximiser le revenu par requête et ainsi prédire le revenu optimal du côté du vendeur et acheteur !

Un problème lié à ce contexte : le site éditeur n’a pas de base d’apprentissage. Par exemple, si je suis Le Monde, je ne sais pas à quel prix Apple a déjà vendu ses publicités à des sites concurrents. D’un autre côté, ce prix va devenir très vite obsolète : l’heure, la date, la nature de l’utilisateur sont des éléments qui vont constamment faire changer ce prix. L’objectif serait d’explorer l’éventail de prix acceptables pour mon acheteur (Apple).

Une solution retenue : l'approche par renforcement

Comment fonctionne le Reinforcement Learning dans le cadre de la publicité ?

1. Il va commencer par explorer des prix voisins arbitraires (en général combien a déjà été vendue un publicité vidéo sur mon site de l’Equipe).

2. Mesurer le résultat : est-ce qu’à ce prix, une marque achète ma publicité ou non ?

3. Récompense de la meilleure stratégie : si à 11€ la marque m’achète, à 12€ elle ne m’achète pas, je vais récompenser la première stratégie et la favoriser au tour d’après.

4. Continuer à tester des prix différents pour éviter d’arriver sur un optima local qui engendrerai une frustration : peut-être qu’à 11.5€, mon annonceur m’aurait acheté, mais peut-être qu’à une autre heure de la journée la marque aurait acheté à 12€.

Cette approche par renforcement permet d’adresser des problèmes sans base d’apprentissage. Il est en effet couteux de créer cette base : si je vends à 11€ alors que mes espaces peuvent se vendre à 11.5€, j’aurai potentiellement beaucoup à perdre. Il y a donc un dilemme entre exploiter la première option intéressant ou explorer d’autres (ce qui a un coût et qui est risqué).

Néanmoins, on se heurte toujours à l’optimisation sur le long terme. Selon l’heure, la date etc, l’acheteur ne sera peut-être plus d’accord pour acheter l’espace.

Un des algorithmes : l'upper confidence bound (UCB)

A chaque opportunité de diffuser une publicité (un tour) je vais tenter de maximiser les récompenses données à la meilleure stratégie de prix. En suivant les tours, plus une action est choisie, plus j’ai de confiance sur sa qualité. Dans les tours suivants, je vais favoriser cette stratégie tout continuant à explorer les autres prix voisins supérieurs pour ne pas tomber dans un optima local.

Cet algorithme optimise ainsi l’arbitrage entre exploration et exploitation d’une part, et réduit l’intervalle de confiance des actions les plus souvent choisies d’autres part.

Le fonctionnement de l'Upper Confidence Bound
Le fonctionnement de l'Upper Confidence Bound

En pratique ?

Lorsqu’elle a été implémentée chez Vuble (AdTech fondée par Yann Battard), cette approche a permis pour les éditeurs d’augmenter de 22% leur revenu moyen par rapport à une approche manuelle.

Dans le cadre où le RTB (Real Time Bidding) permet une décision en 200 millisecondes, l’approche par renforcement prend trop de temps de traitement. On va finalement combiner 2 approches :

- L’Approche par Renforcement qui permet de se construire une base de données

- Le Machine Learning supervisé  qui est très rapide en termes de processing de données (la base étant maintenant constituée), et permet de maximiser le taux d’achat.

Si vous avez des questions sur cette thématique, n'hésitez pas à envoyer un mail à admissions@jedha.co !

Myriam Emilion
Écrit par
Myriam Emilion
 - 
Directrice Marketing

Programmes, thématiques Data, admissions,
vous avez une question ?

Prenez rendez-vous avec nos équipes