DataOps : comment définir de bons indicateurs ?

KPI data

DataOps : comment définir de bons indicateurs ?

Share on twitter
Share on linkedin
Share on pinterest
Share on reddit
Share on pocket
Share on email

“You can’t manage what you can’t measure.” – Peter Drucker

Une citation décrivant un problème complexe a souvent tendance à être trop simpliste, mais elle a tout de même le mérite de véhiculer une idée essentielle avec beaucoup d’efficacité.

Cette nécessité de mesurer pour mieux comprendre (et in fine, s’améliorer) s’applique parfaitement en data science.

Or, pour pouvoir mesurer, il faut pouvoir identifier les indicateurs pertinents (ou KPIs selon l’anglicisme dédié), au risque de mesurer des choses sans importance

Trois types d’indicateurs en data

Il faut différencier trois grandes catégories d’indicateurs clés, qui ont chacune leur intérêt.

1. Les indicateurs business

Les plus évidents dans un premier temps. Il s’agit souvent de métriques assez générales et de haut niveau, ayant un lien direct ou quasi direct avec la performance du produit ou de l’entreprise. Cela leur donne l’avantage d’être concrets et peu sujets à débat pour mesurer la réussite d’un projet. 

Il peut s’agir de ROI (« return on investment »), de valeur de panier moyen, de nombre de clients journaliers… Ces exemples d’indicateurs dépendent surtout de votre business et de votre stratégie digitale, ils existent donc antérieurement à tout projet data.

Cependant, ils sont trop vagues pour être utilisés lors du développement d’un projet technique, notamment data. Tout d’abord, car ils sont mesurables uniquement a posteriori, et ensuite, parce qu’ils sont un agrégat final ne permettant pas de différencier l’impact d’un projet donné par rapport à un autre.

Il est donc nécessaire d’avoir différents indicateurs permettant de mesurer séparément et d’anticiper l’impact d’un projet.

2. Les indicateurs techniques

En data science, il peut s’agir de métriques très techniques, par exemple, la précision d’un modèle mathématique capable de détecter des défauts sur des pièces manufacturées à partir de photos prises sur la ligne de production.

Ces métriques servent à guider les spécialistes data dans le développement d’une solution, afin de choisir quelle approche technique sera la plus prometteuse pour atteindre les objectifs fixés (par exemple : sélectionner le modèle de machine learning ayant la meilleure précision). 

Enfin, comme nous l’avons dit, ces indicateurs servent à anticiper les performances. Ils sont donc potentiellement non optimaux pour mesurer des données techniques a posteriori, c’est-à-dire lorsque le projet est en production.

3. Les indicateurs de monitoring

Ce qui nous amène à notre troisième type : les indicateurs dédiés au monitoring. Ces indicateurs sont aussi des indicateurs techniques, mais utiles pour mesurer a posteriori sur le terrain.

Le monitoring est un principe clé en DataOps. Il est essentiel de mettre en place une stratégie de suivi de vos projets data en production, notamment pour prévenir certains problèmes comme le « data drift ».

Les difficultés pour définir les indicateurs d’un projet data

La différence entre les indicateurs business et techniques

La difficulté majeure lors de la définition de KPI pour un projet data survient lorsqu’il faut traduire les indicateurs business en indicateurs techniques. Définir des indicateurs techniques non corrélés au business se traduira par un projet qui aura de bons résultats sur le papier, mais qui sera inutile en pratique. 

Il n’y a pas de méthode infaillible pour déterminer les indicateurs d’un projetUne bonne communication entre experts techniques et experts métiers, complétée par leurs expériences respectives, est le principal facteur de réussite.

Des métriques adaptées à vos interlocuteurs

Réservez les bons indicateurs aux bonnes personnes !

Il ne sert à rien de parler de ROI à quelqu’un qui n’a jamais vu de bilan comptable de sa vie. De même, un responsable business aura sûrement peu d’intérêt à connaître la valeur précise des indicateurs techniques.

Il faut savoir vulgariser, dans un sens comme dans l’autre, pour s’adapter à son interlocuteur. Manquer à ce principe sera au mieux source de confusion, et au pire, source d’incompréhension profonde (cf. l’exemple ci-dessous).

L’illusion des indicateurs parfaits

L’une des limites de la citation en entête de cet article est qu’il n’existe pas d’indicateur parfait. 

Prenons un exemple : un test médical dont la précision est de 99 % sur le papier peut en réalité se tromper 1 fois sur 2 en pratique. Comment cela est-il possible ? Le contexte : 

Un test précis à 99 % signifie (en simplifiant) que 1 personne sur 100 sera testée positive alors qu’elle n’est pas malade (fausse alerte). Or, si la maladie est rare, mettons 1 % de prévalence dans la population, et que vous testez aléatoirement 1000 personnes (on suppose cet échantillon représentatif de la population générale), vous aurez les résultats suivants :

Résultat : 20 personnes ont un résultat de test positif, dont 50 % ne sont pas vraiment malades, soit 1 chance sur 2…

Aucun indicateur ne décrit pleinement une situation. De fait, il est préférable de sélectionner plusieurs indicateurs, sans avoir une confiance aveugle en aucun d’entre eux et en gardant un esprit critique. Même en data, l’intuition a sa place.

Demo
Demandez votre
démo de Saagie !