Thomas Poinsignon est membre associé de l’Institut des actuaires. À la suite d’un double cursus à l’ISUP et l’ESILV, il a soutenu son mémoire portant sur l’élaboration de « processus de tarification non-vie sur des données chiffrées et anonymisées » en 2019.
La récente démultiplication de la quantité de données générées, stockées et analysées par les assureurs afin d’établir leurs politiques tarifaires a conduit à l’émergence de nouveaux besoins : tant du point de vue réglementaire, avec la mise en œuvre dans le cadre européen du règlement général sur la protection des données (RGPD), que dans la perspective de proposer de nouveaux services sur le marché (risque cyber). Nos travaux sont ainsi consacrés au développement de méthodes actuarielles dans un cadre de sécurité par défaut et de protection des données dès la conception afin d’étendre les concepts mathématiques employés lors de l’élaboration de modèles de tarification d’assurance non-vie à leurs utilisations selon ces nouvelles exigences réglementaires.
Sécurisation du cloud-computing via le chiffrement
La délégation de calculs traduit la nécessité pour certains acteurs économiques d’externaliser le traitement de leurs données à une entreprise externe. Nous avons modélisé cette problématique en actuariat en considérant le cas d’un assureur souhaitant –– simplement– réaliser une régression linéaire sur les serveurs d’un prestataire en toute sécurité. Pour ce faire, nous avons implémenté une procédure de chiffrement (dite homomorphe compte tenu de ses propriétés) et de calculs permettant d’effectuer cette régression sur des données cryptées, sans jamais les déchiffrer au cours du processus et où, in fine, seul l’assureur est en mesure de décrypter les résultats. Bien que cette mise en pratique se soit avérée concluante, les ressources nécessaires pour y parvenir ainsi que les limitations techniques rencontrées nous ont conduits à envisager quelques alternatives.
La tarification anonymisée
Une telle tarification d’une assurance responsabilité civile automobile nécessite d’abord d’anonymiser le portefeuille d’assurés servant à ajuster le modèle (GLM coût-fréquence). Si, en pratique, il semble exister de nombreuses techniques pour y parvenir (regroupement/suppression de variables par exemple), elles ne constituent pas au regard de la réglementation des méthodes d’anonymisation, car elles sont le plus souvent non exhaustives.
Il nous a donc fallu élaborer une approche rigoureuse et nous avons fait le choix d’agréger les polices en utilisant des méthodes d’apprentissage non supervisé (clustering). Nous obtenons ainsi, pour chaque partition formée, un « individu moyen » – anonyme et représentatif de son groupe, l’ensemble formant notre base de données anonymisée. L’idée étant de mesurer l’impact de l’anonymisation, nous avons comparé la prime pure obtenue par le même modèle entraîné successivement sur les données anonymisées et celles usuelles. Après sélection de l’algorithme le plus adéquat pour l’anonymisation, nous sommes parvenus à contenir la surestimation de la sinistralité, associée à seulement 4,6 %, ce chiffre étant à mettre en perspective avec la méthodologie employée, désormais parfaitement adaptée à la réglementation.