PRIX ACTUARIAT SCOR Jeunes actuaires
Silvia Bucci a présenté son mémoire « Étude et implémentation de techniques d’analyse de sensibilité dans les modèles de tarification Non-Vie. Application à la tarification à l’adresse » devant l’Institut des actuaires en mars 2021.
L’apprentissage automatique et le Big Data ont fait évoluer la modélisation prédictive pour de nombreuses applications commerciales. Cependant, dans la littérature actuarielle, peu d’articles vont au-delà du modèle linéaire généralisé (GLM). L’utilisation dans la tarification de méthodes de machine learning plus sophistiquées reste très marginale, dans la sélection de variables par exemple. En général, les modèles GLM sont améliorés en ajoutant dans l’équation tarifaire des termes d’interaction entre les variables explicatives. L’analyse bivariée est l’outil principal utilisé pour visualiser l’impact simultané de deux variables sur une sortie, mais en grande dimension, cela représente un défi. Les modèles de machine learning, contrairement aux précédents, ont moins de contraintes à poser sur la structure prédictive et la distribution des données. En particulier, ils peuvent introduire des interactions dans l’algorithme de prédiction et améliorer la qualité de l’estimation de la prime pure. Néanmoins, ces nouvelles méthodes ne peuvent pas souvent être implémentées dans le contexte assurantiel à cause du manque d’interprétabilité dû à l’effet boîte noire, de la complexité dans la mise en place, et d’une contrainte éthique puisque l’utilisation du machine learning dans la tarification peut conduire à une « hyperpersonnalisation » du risque.
Vers une vision inclusive et collaborative
Une méthodologie de détection d’interactions plus robuste que celle traditionnelle a été développée dans une vision plutôt inclusive et collaborative entre les modèles de machine learning et des modèles linéaires généralisés. Ainsi, en supposant que l’interaction statistique est une manifestation de la complexité des modèles black box, il suffit de détecter les termes croisés impactant la prédiction et de les intégrer dans l’équation tarifaire d’un GLM.
Méthode innovante de détection d’interactions
Les algorithmes et les outils de détection employés se basent sur les domaines de l’analyse de sensibilité et du plus récent Explainable Artificial Intelligence (XAI). D’un côté, les indices de Sobol nous informent de la part de la variance totale due à chacune des interactions. De l’autre, les indices d’interaction SHAP déterminent dans quelle direction l’interaction agit sur la prédiction (à la hausse ou à la baisse) et avec quelle intensité. Cette méthodologie a été appliquée sur des données à l’adresse afin d’améliorer la modélisation de la prime pure pour la garantie dégâts des eaux d’un produit multirisque habitation. Sa particularité est l’utilisation des données météorologiques, économiques, climatiques et démographiques hyper-individualisées (à l’adresse et même au bâtiment). Établie dans un contexte de grande dimension (environ 300 variables), l’implémentation d’une technique de détection d’interactions se révèle d’autant plus intéressante que l’avis d’expert est limité par l’utilisation de données jamais utilisées auparavant. Nous avons testé la pertinence des interactions parmi des variables, comme la présence de gel, le nombre de jours d’orage, la distance au bâtiment le plus proche, ou encore la valeur de la maison. Ensuite, les interactions détectées ont été intégrées dans le modèle GLM de départ sous la forme de termes polynomiaux. L’étude a ainsi permis d’ajouter de la complexité, avec un gain technique (MSE, Gini, Q2) jusqu’à 17 %, tout en gardant une structure analytique transparente et interprétable, qui s’intègre parfaitement au processus de tarification traditionnelle des acteurs de l’assurance.