Publicité programmatique : à la recherche de LTV élevée

La publicité programmatique continue de s’éloigner du simple achat d’impression pour s’orienter vers une approche plus avancée, ciblée sur l’utilisateur. Les media buyers qui mènent des campagnes programmatiques sont de plus en plus intéressés par l’acquisition d’utilisateurs ayant une valeur élevée sur toute leur “durée de vie” (LTV = LifeTime Value). La définition de la LTV varie d’un media buyer à l’autre, mais dans la plupart des cas, elle est exprimée comme le revenu que l’utilisateur génère par ses achats pendant toute sa période d’utilisation d’un produit.
 
Idéalement, lors d’une enchère RTB, il est crucial d’estimer avec précision la LTV de l’utilisateur. En pratique, l’estimation de la LTV est une tâche difficile pour deux raisons principales.
 

Des données éparses et bruyantes

Peduzzi et al. (1996) suggèrent la règle empirique suivante pour définir la taille d’un échantillon suffisant pour une estimation probable de répétition d’un événement : considérant comme k les variables prédictives, et une fraction p d’échantillons étiquetés positifs dans la population, le nombre minimum d’échantillons suffisants est donné par la formule N=(10k)/p
 
En effet, la taille minimale de l’échantillon croît linéairement avec le nombre de variables prédictives, et inversement avec la fréquence des échantillons étiquetés positifs. Ces deux éléments posent des défis importants.
 
Prenons par exemple le problème de la classification binaire qui consiste à prédire si l’utilisateur installera ou non une application et finira par faire un achat. Une campagne typique voit 1 impression sur 1000 se convertir en une installation, et 1 installation sur 10-100 se convertir en un achat, ce qui donne une fréquence d’étiquetage positive .
 
En outre, la plupart des variables prédictives disponibles dans le cadre des enchères RTB sont des variables catégorielles à haute dimension ; l’espace éditeur seul est de l’ordre de 10puissance(5) niveaux. Même avec une sélection agressive des caractéristiques, il n’est pas rare de voir des ensembles de données avec k=10puissance(4)
 
Avec ces paramètres, la formule de Peduzzi fixe la taille minimale de l’échantillon à 10 milliards d’impressions. Le coût est prohibitif ; obtenir 10 milliards d’impressions peut coûter des millions de dollars, même à des CPM conservateurs.
 

Late Conversion

La LTV, par définition, a un horizon temporel extrêmement long (de l’ordre de mois ou d’années). Par conséquent, certains media buyers auront tendance à modéliser naïvement leur LTV sur une période très courte. Cependant, dans le cadre de la publicité programmatique, il est crucial d’adapter les stratégies d’enchères au cycle de vie de l’utilisateur.

La figure ci-dessous illustre le problème du délai de conversion (Late Conversion). Les utilisateurs acquis plus récemment ont eu moins de temps pour convertir, Il est donc crucial d’utiliser une forme de modélisation du cycle de vie de l’utilisateur, afin de modéliser conjointement les Late Conversions et leur distribution dans le temps.
 

 

Performance Benchmark

Pour les raisons exposées ci-dessus, la plupart des KPI des media buyers s’appuient sur des mesures de substitutions pour la LTV. Un media buyer analysera l’entonnoir de conversion du produit/marque et détectera certaines actions des utilisateurs qui sont des indicateurs de prédictions précoces de conversion mais aussi de LTV. Ces indicateurs sont regroupés dans ce qu’on nomme le Performance Benchmark et ils se répartissent généralement en trois catégories.
 
Coût par clic/installation
 
Sans aucune analyse comportementale des utilisateurs, il est courant de mener une campagne sur la base d’un CPC/CPI. Le DSP délivre des clics ou des installations à un certain coût déterminé par l’annonceur ; ce dernier détermine ce coût en fonction du revenu moyen par clic/installation (RPC/RPI) vu dans son entonnoir de conversion spécifique.
 
Autrefois une norme du secteur, les indicateurs CPC/CPI perdent de leur popularité. Bien qu’ils présentent l’avantage d’un retour d’information immédiat et de nombreuses données de formation (ce qui élimine essentiellement les deux problèmes décrits ci-dessus), les objectifs CPC/CPI sont difficiles à fixer en raison de l’écart RPC/RPI sous-jacent. Par exemple, la figure ci-dessous illustre la distribution des RPC pour une campagne type.
 
En analysant la figure ci-dessus, certains clics génèrent des revenus plus importants que d’autres; l’achat de ces clics en considérant un RPC fixe entraîne une tarification de l’impression extrêmement inefficace.
 

Coût par action / CPA (par jour N)

En général, les media buyers sont en mesure de constater une forte corrélation entre LTV et certains comportements de l’utilisateur (par exemple, abandon de panier ou l’action d’achat dans un certain délai après une inscription). Ce type de KPI offre un “juste milieu” – en général, le délai de réponse est réduit à quelques jours, tout en fournissant une approximation hautement fidèle de la future LTV de l’utilisateur.
 
Une simple analyse de la récence/fréquence peut mettre au jour des comportements intéressants qui sont des indicateurs précoces d’utilisateurs ayant une LTV élevée. Ces indicateurs comportementaux peuvent ensuite être utilisés comme des étiquettes pour former un modèle prédictif, tout en gonflant le taux d’échantillonnage positif.
 

 Retour sur investissement du jour N

Le choix de loin le plus populaire de KPI est le retour sur investissement au jour N après la conversion (ROI, où N peut varier entre 3 et 30, et plus pour certains produits). Le choix de N s’accompagne d’un compromis : les petites valeurs réduisent le délai de rétroaction, mais augmentent la rareté des étiquettes ; les grandes valeurs génèrent plus de données étiquetées, mais augmentent le délai de rétroaction, ce qui nécessite l’utilisation d’une modélisation de survie.
 
 
Dans les deux cas, les données d’achat des utilisateurs sont très bruyantes et peu nombreuses. Pour prédire correctement le chiffre d’affaires d’une campagne, il faut généralement modéliser séparément l’entonnoir de conversion post-achat de l’utilisateur, en utilisant un grand ensemble de données comportementales de l’utilisateur sur le support de sa LTV (site, app, etc..).