PRIX SCOR : Equité et apprentissage actif dans les problèmes multiclasses

3 janvier 2023  | Par François HU
L'actuariel // Métier // PRIX SCOR : Equité et apprentissage actif dans les problèmes multiclasses

PRIX ACTUARIAT SCOR Jeunes Docteurs

Docteur en mathématiques appliquées sur l’apprentissage statistique, François Hu a présenté sa thèse « Équité et apprentissage actif dans les problèmes multiclasses » en juin 2022.

Suite à l’augmentation des données disponibles et de la puissance de calcul, l’intelligence artificielle (IA) constitue une force de motivation pour le développement et la transformation du secteur de l’assurance. En effet, les cas d’usage intégrant le machine learning (ML) sont nombreux. La précision de l’algorithme d’apprentissage pour fournir une meilleure segmentation du risque (ex. : tarification des contrats), pour réaliser une automatisation à grande échelle ou pour concevoir un processus de prise de décision (ex. : traitement des documents textuels) peut à la fois améliorer l’évaluation du risque et l’efficacité opérationnelle, et réduire les coûts d’une entreprise.

Des enjeux spécifiques de réglementation

L’actuaire doit donc se saisir de ces nouvelles méthodologies pour renforcer son expertise du risque. Cependant, cette masse de données comporte des enjeux spécifiques en termes de réglementations, comme le Règlement général sur la protection des données (RGPD) : ces données peuvent contenir des informations non conformes aux normes RGPD, soulevant ainsi des questions éthiques et ne peuvent pas être conservées par l’assureur. Souvent, ces données sont étiquetées par des experts (oracle) et ce processus n’est pas adapté à la gestion de grands volumes ni à une gestion de l’information en temps quasi réel. Par conséquent, la mise en place d’un système d’apprentissage précis (en termes de prédiction), peu coûteux (en termes d’étiquetage) et éthique (en termes d’équité) est nécessaire en assurance et cette thèse résout certains de ces défis.

Le premier défi est de réduire l’effort d’étiquetage : en assurance, les données non étiquetées sont abondantes, l’apprentissage actif (boucle de rétroaction entre l’inférence ML et l’oracle) devient donc un atout important pour réduire le coût d’étiquetage. Un deuxième défi est la question de l’équité dans les inférences ML. Puisque des inégalités et des discriminations sont présentes dans les données, les modèles d’apprentissage sont susceptibles de reproduire certaines injustices, ce qui les rend inutilisables en pratique. Cette thèse propose des solutions, notamment pour les problèmes multiclasses.

Contrôle stochastique et extension de définition

Pour le premier défi, nous proposons une étude du choix optimal des lots d’étiquetage en apprentissage actif. Traditionnellement, cela repose sur un compromis entre la performance du modèle et le coût de délai de réapprentissage. Notre étude considère la taille du lot comme un processus en temps continu qui gouverne la dynamique de la qualité du modèle. Ce problème de contrôle stochastique peut être résolu dynamiquement en utilisant l’approche de Bellman.

Pour le deuxième défi, nous étendons les deux définitions d’équité exacte et approximative (compromis optimal entre équité et précision avec un niveau d’iniquité prédéfini) dans le cas de la parité démographique à la classification multiclasses. Nous spécifions les expressions correspondantes des classificateurs équitables optimaux. Cela suggère une procédure plug-in pour laquelle nous établissons des garanties théoriques. Toutes ces approches sont évaluées sur des données synthétiques et réelles et s’avèrent être très efficaces par rapport à l’état de l’art.

Cette thèse Cifre résulte d’une recherche partenariale entre le Laboratoire Finance-Assurance (LFA) du Crest et le service DataLab de Société Générale Assurances. Avec la démocratisation du déploiement des modèles ML, l’idée de ce projet R&D est de renforcer la gouvernance de l’IA au sein de Société Générale Assurances, notamment en rendant les systèmes d’IA équitables.

Biographie

François HU

Biographie

Post-doctorant à l’université de Montréal.

Enseignant du programme Data Science de l’IRM et à l’EPITA en statistiques et en informatique.

Se connecter