Les modèles de machine learning se sont fortement démocratisés, mais leur usage soulève de soulève de forts enjeux de gouvernance. Est-il possible de définir un niveau « suffisant » d’interprétabilité acceptable quel que soit le contexte ? Décryptage avec le GT Transparence des algorithmes de machine learning de l’Institut des actuaires.
Le machine learning cherche à faire prendre une décision à un ordinateur sans lui programmer explicitement les règles permettant de prendre cette décision. On définit une tâche à accomplir (e.g. prédire si un mail est un spam) et un échantillon de données qui représente à la fois une des variables descriptives du contexte dans lequel ces décisions ont été prises (le texte des mails) ainsi que les décisions passées (le mail était-il effectivement un spam ou non) (1). Un algorithme d’optimisation va chercher le « meilleur » (au sens d’une métrique donnée, par exemple, ici, le taux de spams bien identifiés) ensemble de règles (le « modèle ») permettant de prédire les décisions en fonction du contexte : on dit qu’on entraîne le modèle. Ces algorithmes sont beaucoup plus performants que les approches par « système expert » dans lesquels un humain programme des règles, car les experts métiers ont du mal à formuler de façon exhaustive et sans ambiguïté leurs connaissances, alors que, pour le machine learning, la fonction retenue est « optimale » au sens des données.
Générer cette fonction de prédiction automatiquement permet de plus d’accroître le nombre de règles pour améliorer la qualité de la prédiction. Les approches récentes (boosting, bagging, deep learning) ont obtenu des gains de performances au moyen d’un accroissement exponentiel du nombre de règles de décision ou d’opérations mathématiques permettant d’obtenir la prédiction. Cette augmentation engendre en contrepartie une forte perte d’interprétabilité des décisions prises par les modèles, qui deviennent peu lisibles pour un humain.
Une question d’entrainement
Depuis 2000, les échanges se sont digitalisés : Internet est devenu un outil quotidien pour une grande part de la population, générant une augmentation de la volumétrie des données disponibles pour entraîner les modèles. La publicité en ligne est devenue le business model principal de plusieurs sociétés (dont Google, Facebook et Amazon), et les modèles de machine learning se sont avérés particulièrement performants dans un but de ciblage client ou d’expérience client (moteur de recommandation de produits, scores d’appétence ou d’attrition, chatbots…), ce qui a accéléré leur développement.
La combinaison de plusieurs éléments a permis de démocratiser leur usage : une puissance de calcul accessible grâce aux clouds publics ; des frameworks distribués (Hadoop et Spark) permettant le traitement de données massives et la disponibilité des modèles de machine learning à l’état de l’art grâce à la démocratisation de langages de programmation haut niveau (R et Python) et, surtout, le développement massif de librairies open source comme xgboost (2016), Tensorflow (2015), Pytorch (2016) ou huggingface (2016). Cette disponibilité réduit le time-to-market en permettant d’appliquer des résultats de recherche en conditions réelles quelques jours après la publication des papiers.
Les applications assurantielles sont nombreuses : automatisation partielle des actes de la souscription ou de sinistres via l’analyse de documents ; augmentation du selfcare avec des chatbots ; construction de nouveaux produits, comme l’assurance Pay As/How You Drive au travers de l’analyse de données issues de capteurs (Internet of Things) placés dans un véhicule ; amélioration des moteurs tarifaires grâce avec des algorithmes plus performants… Tous ces cas d’usage ont été intégrés par de nouveaux acteurs du secteur assurantiel (GAFAM et Assurtechs), qui utilisent leurs canaux de distribution nativement digitaux pour proposer de meilleures offres et services à leurs clients. Les frais de gestions moins élevés de ces nouveaux entrants (car nativement digitaux et avec des processus de gestion automatisés) leur permettent de mener une politique tarifaire agressive et devraient induire sur le long terme une pression sur les marges des assureurs traditionnels.
L’usage du machine learning soulève cependant de forts enjeux de gouvernance, notamment parce que les modèles reproduisent des biais, car ils cherchent à reproduire le mieux possible les règles de décisions passées. Ces choix reflètent donc la position de l’humain qui a pris la décision historique, et non pas de la meilleure décision « absolue » : un exemple assurantiel est le cas de l’assurtech Lemonade, qui a révélé sur Twitter que son moteur d’indemnisation automatique (fondé sur les photos d’un véhicule, mais aussi des clients) utilisait « des indices non verbaux de risque de fraude », ce qui crée des suspicions de discriminations des clients en fonction de leur couleur de peau (2).
Garantir l’éthique de la décision
La sphère politique veut s’assurer que l’usage de ces modèles est fait dans un cadre éthique, ce qui implique d’en permettre l’audit. Dans le contexte assurantiel, la lutte contre les biais discriminatoires est un point majeur de contrôle pour l’ACPR. Le Règlement général sur la protection des données consacre « le droit de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé ». L’humain qui effectue le traitement a besoin d’indications expliquant quelle est la meilleure décision à prendre en fonction du contexte, et la prédiction seule est insuffisante. La notion d’interprétabilité, complexe à définir, est une notion relative : une explication jugée recevable par un scientifique ne l’est peut-être pas pour un utilisateur lambda. L’explication doit réconcilier deux propriétés antinomiques en étant « suffisamment simple » pour être compréhensible, et « suffisamment complexe » pour refléter le modèle. Selon l’usage, il peut être décidé de privilégier l’une de ces propriétés au détriment de l’autre. L’utilisateur a souvent besoin de savoir « pourquoi » la décision est prise par le modèle. Au contraire, le concepteur a souvent besoin de comprendre « comment » cette règle a été générée afin de la corriger.
Pour interpréter un modèle, la stratégie usuelle est de créer un sur-modèle « explicateur » qui le simplifie. Ces modèles explicateurs peuvent être « spécifiques », c’est-à-dire qu’ils exploitent directement la connaissance de la structure du modèle, ou « agnostiques » c’est-à-dire qu’ils utilisent uniquement les prédictions du modèle. Les modèles spécifiques sont par nature plus fidèles que les modèles agnostiques, car ils reflètent (à l’approximation choisie près) le modèle sous-jacent, alors que les modèles agnostiques incluent également une erreur liée à leur estimation. La propriété d’agnosticité a l’avantage de pouvoir permettre à un tiers d’auditer un modèle complexe en effectuant des prédictions de façon massive, mais sans accéder aux modèles ou aux données.
Un explicateur global cherche à approximer le modèle sur l’ensemble du périmètre sur lequel il s’applique. Intuitivement, elle correspond à une explication générique des décisions prises par l’algorithme. L’idée est de pouvoir « résumer » les décisions principales prises par l’algorithme de manière suffisamment succincte pour être appréhendées par un humain, ce qui permet de juger de la qualité des décisions et d’en avoir une vue d’ensemble. Cette approche est particulièrement utile pour restituer les décisions du modèle à des non spécialistes. L’inconvénient de cette approche est qu’un explicateur peut à la fois être jugé « bon » pour expliquer le modèle en général, et donner une explication très incorrecte pour un individu donné. On définit l’interprétabilité locale comme l’explication de la prédiction d’un individu donné. La transparence locale est notamment utile pour expliciter une décision particulière, notamment pour se conformer aux contraintes réglementaires. Par exemple, un individu particulier ne veut pas savoir si « en général, le modèle définit son tarif automobile sur la base de la marque de sa voiture » si, « pour lui en particulier, c’est son âge qui a conduit à une surprime ». L’usage d’une explication locale permet de vérifier qu’il n’y a pas de discrimination dans ce cas particulier et non en moyenne.
Différentes méthodes d’approximation
Une part importante de la recherche en interprétabilité pour les données tabulaires se concentre sur le fait de fournir une approximation « additive » du modèle, c’est-à-dire qu’une prédiction est vue comme la somme d’effets individuels de chacune des variables. Cela permet de résumer un modèle complexe à un nombre de règles égal au nombre de variables. Les modèles de deep learning de traitement des images, notamment, font l’objet de méthodologies spécifiques, car la décomposition additive est inadaptée : d’une part, car les variables sont trop nombreuses (26 pixels × 256 pixels = 65 536 marginales pour une image basse résolution) et, d’autre part, car la notion de marginale « globale » n’a pas de sens, car les variables sont très corrélées spatialement (ce ne sont pas les mêmes pixels qui permettent de détecter un chien sur deux photos différentes). Nous nous concentrons par la suite sur les méthodes d’approximation additive, car les données tabulaires sont plus courantes en actuariat.
Il est possible de démontrer qu’il existe décomposition additive globale optimale pour une fonction sous certaines hypothèses de régularité, que l’on appelle la décomposition ANOVA d’une fonction et qui est la somme de ses marginales. La méthode des Partial Dependence Plots (PDP) est introduite dès 2000 : elle consiste à estimer les marginales d’ordre 1 en les remplaçant directement par leurs contreparties empiriques. L’avantage de cette méthode est qu’elle est intuitive à comprendre et facile à appliquer ; l’inconvénient est qu’elle suppose que les variables explicatives sont indépendantes et uniformément distribuées. La conséquence est que la contrepartie empirique peut intégrer dans son calcul des combinaisons de variables explicatives aberrantes qui biaisent l’estimation. Par exemple, l’application de PDP sur un échantillon contenant la taille et le poids conduira à considérer des couples aberrants (un individu de 2 mètres n’a pas autant de chances de peser 50 kg que de peser 100 kg). Pour relâcher cette hypothèse de « moyennisation », l’algorithme Individual Conditional Expectation (ICE) propose de compléter les sorties de l’algorithme PDP en remplaçant la marginale moyenne par chacune des marginales conditionnelles à un individu donné. Cette méthode ICE est encore plus intuitive que la méthode PDP, car chaque ligne représente, pour chaque individu, l’évolution de la prédiction lorsque les variables d’importance évoluent. Elle permet corriger l’une des faiblesses de la méthode PDP en permettant de visualiser la mauvaise prise en compte des effets hétérogènes. L’inconvénient est qu’elle génère énormément de graphiques (un par individu,) ce qui peut la rendre peu lisible. La principale critique qui puisse être portée aux méthodes PDP et ICE est leur mauvaise prise en compte des corrélations entre variables explicatives : pour cela, la méthode Accumulated Local Effects (ALE-plot, 2016) cherche à calculer une distribution conditionnelle autour du voisinage d’un point considéré (dans l’exemple précédent, cela revient à ne considérer que les tailles des individus entre 45 kg et 55 kg pour estimer celle d’un individu de 50 kg). La méthode ALE-plot ne présente pas de biais et gère plus efficacement les relations de dépendances entre variables explicatives que la méthode PDP. En revanche, elle impose de fixer un paramètre empirique de discrétisation (faut-il considérer un intervalle de 5 kg ou de 10 kg ?) qui est inconnu et qui modifie l’explication.
L’impossible universalité
Ces approximations additives globales ne permettent pas d’expliquer le comportement du modèle pour un individu donné : cependant, cela ne permet pas de comprendre le comportement du modèle pour un individu donné. Shapley a travaillé sur le problème de théorie des jeux suivants : « Étant donné un jeu qui permet d’obtenir un gain global, quelle est la répartition optimale du gain parmi les joueurs ? » Shapley définit un jeu « juste », i.e. avec une répartition équitable des gains s’il est efficace (le gain est entièrement partagé), symétrique (si deux joueurs ont le même effet, ils ont le même gain), simple (si un joueur n’a aucun effet, il a un gain nul) et additif (le gain de 2 jeux est la somme des gains de chaque jeu). Shapley démontre alors qu’il existe une unique solution qui vérifie ces conditions. Conceptuellement, la valeur de Shapley d’un joueur est la moyenne du gain apporté par le joueur quand il est ajouté à une coalition. Cette moyenne est pondérée par la probabilité de chaque coalition. Pour transposer ce résultat à un modèle de machine learning, on définit le gain d’un sous-ensemble de variables comme la variation de prédiction qu’il induit pour un individu. En utilisant le résultat de Shapley, on peut donner une décomposition « optimale » de la contribution de chaque variable à la prédiction (méthode SHAP), et d’après la propriété d’additivité, la prédiction peut s’écrire comme la somme des valeurs de Shapley, ce qui est exactement une « décomposition additive » locale « optimale » (au sens des propriétés de Shapley) du modèle pour un individu donné. Dans la pratique, pour un modèle à p variables explicatives, la formule fait intervenir 2P termes, ce qui est souvent impossible à calculer numériquement : les valeurs sont estimées soit par la méthode de Monte-Carlo, soit en calibrant une régression linéaire qui va approximer les prédictions du modèle initial (méthode LIME pour Local Interpretable Model-agnostic Explanations). Dans le cadre spécifique des arbres, il existe toutefois un algorithme permettant de calculer les valeurs de Shapley de manière exacte rapidement en exploitant la structure du modèle. Grâce à la propriété d’additivité, il est donc possible d’obtenir les valeurs de Shapley pour les modèles ensemblistes d’arbres, dont les modèles de boosting et de bagging qui sont très performants, ce qui a contribué à la popularité de cette méthode. Une application actuarielle est d’utiliser les valeurs de Shapley pour visualiser les effets de la prime pure en les calculant pour chacun des modèles de fréquence et de coût et en faisant le produit.
Dans le cadre assurantiel, les explicateurs qui fournissent une décomposition additive du modèle sont à la fois assez proche de l’intuition humaine et peuvent fournir une description assez fidèle du comportement du modèle. Il existe par ailleurs des garanties théoriques de l’existence de décompositions additives optimales, tant au niveau local qu’au niveau global. Cependant, ces garanties théoriques sont parfois mises à mal en pratique du fait de la difficulté d’estimer certains éléments de la solution optimale dont on ne dispose pas de formules fermées ou dont le calcul est d’une complexité trop grande. Plusieurs approches fournissent des résultats satisfaisants en pratique. Deux explicateurs en particulier, ALE-plot au niveau global et SHAP au niveau local, solutionnent la plupart de ces limitations. Il faut toutefois garder du recul critique, car les garanties d’optimalité n’existent que sous des hypothèses souvent violées en pratique. Il est impossible de définir un niveau « suffisant » d’interprétabilité qui serait acceptable quel que soit le contexte, et donc une méthode d’interprétabilité universelle.
Références :
1- Par souci de simplicité, nous ne parlons que d’apprentissage supervisé et nous ferons un abus de langage en omettant le terme supervisé qui est toujours implicitement supposé.