La DSN et l’open data : utiles en assurance prévoyance ?

28 septembre 2022  | Par Damien LOUREIRO
L'actuariel // Métier // Recherche // La DSN et l’open data : utiles en assurance prévoyance ?

Primé au 33e CIMEF, le mémoire de Damien Loureiro, « Utilisation de la DSN et de l’open data pour élaborer et expliquer un zonier incapacité », explore leur utilité en assurance prévoyance.

La Déclaration sociale nominative (DSN) est un système permettant à tout employeur de déclarer de façon unique, dématérialisée et mensuelle un ensemble d’informations liées à la protection sociale de ses salariés. Bien que la simplification administrative soit l’objectif principal de ce dispositif, la DSN est aussi une réelle opportunité pour les assureurs de personnes, puisqu’elle regroupe beaucoup d’informations sur les salariés comme des renseignements sur leur contrat de travail ou les arrêts maladie. La DSN permet donc aux assureurs prévoyance d’avoir une connaissance plus fine de leurs affiliés sous contrat collectif et du risque qu’ils portent, ce qui pourrait se concrétiser par l’ajout d’un (ou plusieurs) degré(s) de segmentation dans leur tarification prévoyance collective. Pour rappel, avoir une tarification plus segmentée que le marché peut être un avantage concurrentiel, en attirant notamment les profils les moins à risque. Ceci s’avère encore plus crucial dans le contexte de dégradation continue du risque arrêt de travail, que nous connaissons depuis plusieurs années en France.

Mon mémoire avait pour objectif de déterminer si la localisation de l’entreprise pouvait devenir un critère de tarification pertinent pour les garanties incapacité temporaire de travail en assurance collective. Aujourd’hui, ce critère est surtout utilisé dans les tarifications des assurances MRH et auto. Pour étendre son utilisation à la prévoyance, un zonier « incapacité » a été construit en utilisant la DSN mais aussi l’open data (données Insee).

La pseudonymisation des données DSN

Compte tenu de ses utilisateurs (Assurance maladie, caisses de retraite complémentaire, Urssaf, Finances publiques, organismes d’assurance, etc.), la DSN contient une multitude de données personnelles (nom, prénom, numéro de Sécurité sociale, etc.). Ces informations ont été remplacées, en amont de notre étude, par un identifiant unique qui ne nous permettait pas de retrouver directement les individus. C’est ce que l’on appelle la pseudonymisation. Aussi, les données présentes dans les DSN mais inutiles à notre besoin (lieu de naissance du salarié par exemple) nous ont été inaccessibles.

Les différentes étapes pour élaborer ce zonier « incapacité »

Avant de commencer tout travail de modélisation, il fallait définir la variable d’intérêt qui reflétait la sinistralité incapacité de travail. Le sujet a été abordé avec les dimensions fréquence et durée des arrêts maladie. Plus précisément, la variable cible correspondait à la survenance d’un arrêt de travail d’une certaine durée, catégorisée de la façon suivante : Absence d’arrêt de travail ; Arrêt de travail de ]0,15], ]15,30], ]30,90], > 90 jours. Ce choix de variable était lié à notre ambition d’avoir une meilleure connaissance globale du risque incapacité et pas seulement d’un point de vue fréquence ou durée.

Le zonier incapacité devait être conçu en tenant compte des critères de tarification déjà utilisés, comme l’âge moyen, la répartition femme-homme, le secteur d’activité ou la répartition des différentes catégories socio-professionnelles dans l’entreprise. Cela était nécessaire, puisque la localisation de l’entreprise viendrait en complément de ces derniers pour tarifer. C’est la raison pour laquelle le zonier a été construit à partir des résidus d’une régression (logistique multinomiale) ayant pour variables explicatives les critères précédemment cités (1).

Étant donné que la régression a été réalisée à la maille individuelle, une étape d’agrégation des résidus au code postal, unité géographique retenue pour l’élaboration de ce zonier, s’est avérée nécessaire. Au lieu d’avoir recours à un classique lissage spatial d’un seul indicateur, la méthode utilisée dans cette étude a été une classification ascendante hiérarchique avec contraintes de proximité géographique (2), basée sur plusieurs indicateurs. Cette classification n’a été réalisée que sur les codes postaux ayant suffisamment d’affiliés et l’objectif de cette méthode était de tenir compte de la proximité géographique dans la constitution des clusters, qui sont devenus les classes de risques associées à la localisation de l’entreprise.

Les codes postaux n’ayant pas encore été associés à une classe de risque devaient l’être dans un second temps, puisque l’assureur se doit de pouvoir proposer un tarif partout en France. Pour cela, une modélisation des classes de risques obtenues précédemment a été réalisée avec l’aide de données démographiques et socio-économiques de l’Insee (open data). L’objectif de cette modélisation basée sur les forêts aléatoires (random forest) était double :

  • Interpréter, avec l’aide des SHapley Additive exPlanations (SHAP) values, le clustering spatial obtenu précédemment (3). Cela a permis de comprendre si l’appartenance d’un code postal à une certaine classe de risque était corrélée avec son niveau de richesse, ses équipements, etc.
  • Prédire la classe de risque pour les codes postaux avec peu ou pas d’affiliés, en utilisant leurs caractéristiques démographiques et socio-économiques, tout en tenant compte de la proximité géographique.

Le modèle utilisé ici renvoyait donc, pour toute nouvelle observation, une probabilité d’appartenance à chacune des zones. Pour tenir compte de la proximité géographique, une idée a été d’attribuer pour un code postal donné (et non encore affecté à une zone) la classe de risque ayant la plus grande probabilité parmi celles de ses X plus proches voisins. Ainsi, les classes de risques ont été attribuées aux codes postaux concernés, en fonction de leurs caractéristiques démographiques et socio-économiques, mais aussi de leur voisinage, ce qui a permis d’obtenir un zonier davantage lissé.

Conclusion

Une étape de validation de la classification obtenue a été réalisée. À ce titre, une comparaison de la modélisation du risque incapacité avec et sans la variable « zonier » a été effectuée. Grâce à différents outils statistiques (V de Cramer, valeur et significativité des coefficients de régression, tests statistiques, AIC/BIC), il a été démontré que le zonier apporte de l’information pour améliorer la connaissance du risque incapacité. Autrement dit, le risque incapacité n’est pas le même partout en France. Ceci a été confirmé par l’application du zonier sur une base de données « test ». En effet, bien que le zonier ait été moins performant sur les données de test, les écarts de sinistralité entre les zones restaient significatifs. L’ajout du critère « localisation de l’entreprise » dans la tarification prévoyance collective pourrait donc être envisagé. Par ailleurs, il est également possible de songer à d’autres utilisations de ce zonier comme l’adaptation de la politique commerciale en privilégiant par exemple les affaires nouvelles dans les zones les moins risquées.

De manière plus générale, ce mémoire a mis en évidence l’intérêt de l’open data et des données DSN pour les assureurs de personnes. Au vu de la quantité d’informations qu’elles regorgent, et ce dans un monde de plus en plus « data », de nouveaux travaux peuvent être menés à partir de la DSN, tels que la prédiction de la sinistralité incapacité, puisque les arrêts de travail sont connus dans la DSN avant d’être indemnisés et donc répertoriés dans les bases sinistres.

Références :

1 – Les résidus de la régression contiennent la part non expliquée de la sinistralité après prise en compte des variables explicatives.

2 – Cette méthode est présentée dans (Chavent et al., 2018).

3 – Cet objectif fait appel à la notion de valeur de Shapley, introduite dans un premier temps dans le domaine de la théorie des jeux. Dans le contexte du machine learning, la valeur de Shapley correspond à la contribution marginale d’une variable explicative à la prédiction d’une observation.

Sources : Chavent M., Kuentz-Simonet V., Labenne A., Saracco J. (2018). ClustGeo : an R package for hierarchical clustering with spatial constraints. Computational Statistics,33, 1799–1822.

Se connecter