Avec son mémoire, Sandrine Huynh est devenue lauréate du Prix de l’Institut des actuaires au 33e Concours international des mémoires de l’économie et de la finance du Centre des professions financières.
Présentation
L’histoire du mémoire est assez simple : imaginez une petite mutuelle dénommée VirtuaMut’ (1), installée dans une région bien précise en France et possédant un portefeuille très concentré géographiquement, puisque 93 % de ses assurés y habitent. Bonne connaisseuse des pratiques et tarifs de son territoire, elle souhaite cependant étendre quelques-uns de ses produits d’assurance santé à une échelle nationale (« France entière », y compris la Corse) et donc, connaître leur tarif (prime pure) s’ils devaient être commercialisés sur d’autres régions françaises. Malheureusement, son budget reste très limité et s’avère peu compatible avec l’achat de données. Amatrice cependant de technologies, elle décide de se tourner vers les données publiques (open data), et notamment celles gratuites, qui présentent un vaste champ de possibilités et d’applications.
Il s’agit donc pour VirtuaMut’ dans un premier temps de mobiliser son équipe dans la recherche de bases de données accessibles et utiles pour un projet de tarification. Son choix s’arrête alors sur l’Open Damir (open data sur les Dépenses d’assurance maladie interrégimes) du fait de sa complétude. Cette open data, en libre accès depuis janvier 2015, est en réalité une extraction du Système national interrégimes d’Assurance maladie (Sniram) qui est l’une des plus importantes bases de données en France en matière de santé, mais qui demeure malheureusement inaccessible pour une mutuelle. L’Open Damir, d’une envergure moins importante, reste tout de même massive et demande, pour son exploitation, une nouvelle solution logistique à mettre en place : une machine virtuelle, solution de notre temps.
Le traitement des données : une étape cruciale mais source de biais
Une fois la source de données externes principale choisie et les outils à disposition (SAS, R), la mutuelle doit ensuite « intégrer » ces données nationales dans son portefeuille jusqu’alors restreint. Il s’agit alors d’allier données privées et données publiques en matière de santé. Pour cela, elle effectue une mise en cohérence des deux bases de données (variables, format, granularité…), tout en adaptant ces dernières aux travaux qu’elle entrevoit d’entreprendre. Par ces travaux préliminaires, la mutuelle se confronte ainsi à certains problèmes de données qui ont parfois pour cause la volonté d’anonymisation des données publiques (niveau d’agrégation des données trop important). Quelques exemples de points abordés sont mentionnés ci-dessous :
- une étude en année de règlement (et non en année de soin) imposée par une limite d’accès aux données récentes de l’Open Damir ;
- une tarification par classes d’âge aussi imposée par l’Open Damir ;
- le choix des variables discriminantes ;
- le traitement des adhérents de la mutuelle qui présentent, par exemple, des changements de garantie en cours d’année ou des périodes vides inexpliquées de couverture d’assurance qui complexifient le calcul de l’exposition ;
- l’estimation du nombre de bénéficiaires exposés via l’ajout de données d’une base démographique de l’Insee (autre open data) ;
- le traitement des compléments, suppléments, majorations d’actes de soins ;
- etc.
La classification des actes de soins : une tâche laborieuse menant à un tarif segmenté
Par ailleurs, une classification des codes actes de soins de l’Open Damir et de la mutuelle a dû être réalisée, et bien qu’éreintante et chronophage, elle reste nécessaire à la détermination des segments tarifaires. Cette classification s’est construite sur le croisement d’informations diverses et variées :
- nomenclatures générales (CCAM par exemple) ;
- Q&A sur la page du site data.gouv.fr où la base Open Damir est publiée ;
- classification des actes chez la mutuelle VirtuaMut’ afin de faciliter le rapprochement des deux sources de données ;
- open data Données nationales : dépenses d’assurance maladie (hors prestations hospitalières) du régime général qui est une extraction plus ciblée que l’Open Damir, mais qui présente aussi une classification plus accessible, intuitive et lisible des actes ;
- etc.
Il ne faut pas oublier que segmenter de manière excessive signifie un temps considérable pour la suite des travaux (plus il y a de segments, plus il y a de tarifs à réaliser et donc de manœuvres à effectuer), et cette « surprécision » pourrait aussi conduire à des segments ayant trop peu d’informations et donc, à des résultats biaisés et/ou peu fiables. La classification étant en partie subjective et demandant la cohésion entre trois regards différents (Assurance maladie, VirtuaMut’, mémorialiste), elle est source de biais. Cependant, une fois faite, cette classification pourra être réutilisée au fil des années et nécessitera éventuellement quelques mises à jour rapides selon les améliorations et ajouts à l’Open Damir.
La classification des actes constitue in fine l’un des obstacles des travaux, qui a toutefois pu être franchi.
La tarification et l’extension des primes pures : un aperçu des étapes
Avant de commencer la phase opérationnelle et calculatoire de son projet, la mutuelle a d’abord porté une attention particulière à la compréhension et à l’analyse des données (via des statistiques descriptives), puisque ces dernières représentent en fin de compte la matière première des travaux. L’importance de cette étape a été ressentie, puisqu’elle a permis de remettre en cause la segmentation tarifaire retenue (les grands appareillages sont, par exemple, transférés en hospitalisation).
VirtuaMut’ peut alors ensuite se baser sur des données nettoyées et traitées afin d’élaborer des cotisations cohérentes, compétitives et, surtout, adaptées aux autres régions pour les produits choisis. Trois méthodes de tarification sont considérées :
- un GLM sur la variable de fréquence et un autre sur celle du coût moyen ;
- un GLM sur la variable de consommation ;
- et enfin, un calcul direct basé sur les statistiques issues des données.
Le choix de la méthode de tarification repose sur différents tests effectués au préalable, notamment pour juger de la pertinence, mais surtout de la compatibilité du choix vis-à-vis des hypothèses qui sous-tendent chaque modèle (notamment la non-corrélation entre la fréquence et le coût). Il convient de préciser que les trois méthodes ont été utilisées dans les travaux.
Une fois les tables tarifaires générées, il est réalisé une extension des primes pures sur le périmètre national, notamment à l’aide de coefficients de passage appliqués sur les coefficients estimés des modèles GLM ; ou sur la base d’une estimation d’un effet « région » directement sur les tables tarifaires déduites des données de l’Open Damir. Cette dernière base de données se présente donc comme étant une référence permettant l’extension voulue.
Il convient ensuite de discuter les résultats, de les critiquer et, éventuellement, de tenter de les remettre en cause. Un benchmark est donc élaboré dans ce contexte. Cependant, par ses limites, la comparaison concurrentielle reste limitée et il semble finalement que chaque organisme ait son propre zonier, sans cohérence unanime particulière entre les différents acteurs sélectionnés. La pertinence de l’extension est cependant jugée valide compte tenu des informations connues sur les différentes régions.
Il s’agit enfin dans un dernier temps d’évaluer la robustesse des résultats et les impacts des différentes décisions prises tout le long du process, tant sur les modélisations en elles-mêmes que sur les traitements de données. Le but en soi est de passer en revue tous les choix qui ont été pris et de se demander pour chacun si le test d’une alternative était intéressant. Ces essais ont ainsi parfois conclu à des simplifications de démarche (utiliser uniquement des modèles sur la consommation est suffisant pour les objectifs poursuivis), mais aussi parfois à des sensibilités des tarifs à certains paramètres (notamment ici, au seed de R, du fait du caractère agrégé des bases de données). Cette agrégation aura donc jusqu’au bout constitué un obstacle.
Zoom sur l’agrégation des données et son anonymisation : un obstacle majeur
L’anonymisation des données de l’Open Damir et, par conséquent, leur agrégation, du fait du caractère sensible des données en matière de santé, constituent un obstacle, puisque cela introduit de nouvelles hypothèses de travail et réduit la marge de manœuvre autour des data.
En effet, au premier abord, cette base de données colossale aurait tendance à évoquer un certain sentiment d’optimisme comme il est souvent question de manque de données aux travaux actuariels : or, ici, il est dénombré plus de 720 millions de lignes sur 55 variables, soit plus d’une centaine de gigaoctets de données, sur 2 ans d’historique (périmètre de l’étude).
L’intuition soufflerait qu’avec autant de données en matière de santé, des faits pertinents devraient pouvoir en être extraits (et c’est le cas). Malheureusement, cette abondance a aussi son prix : cela rend son traitement compliqué, puisqu’il faut des solutions logistiques adaptées qui ne sont pas toujours déjà disponibles au sein des petits organismes. Fort heureusement, les machines virtuelles sont relativement faciles à prendre en main et accessibles à un budget correct.
Une fois cette embûche passée, une autre surgit, spécifique aux objectifs : comment déterminer une fréquence à partir de l’Open Damir si celle-ci n’informe pas sur le nombre de bénéficiaires par ligne ? Il a donc fallu contourner ce problème en ayant recours à une autre open data : celle de la démographie française de l’Insee. Un biais est alors introduit dans les travaux.
Et alors qu’il était pensé qu’il était question de « trop de données », l’association du bon nombre de bénéficiaires par ligne avec la cohérence de périmètres de données pour la démarche de tarification exige d’agréger les données de manière significative (en fonction des segments de tarification et des caractéristiques des individus). L’excès de données se transforme alors en déficit de données, ou, pour être plus précis, en carence de lignes de données, ce qui rend les primes pures estimées sensibles au seed de R avec les méthodes de tarification retenues.
Conclusion
Le but opérationnel de ce mémoire est de proposer une démarche de tarification permettant d’outrepasser les contraintes spatiales du tarif de produits d’assurance santé déjà préexistants, mais restreints à une région géographique particulière. Les objectifs principaux tiennent alors en trois mots : enrichir, tarifer, critiquer. Le tout, en abordant les aspects nouveaux des données publiques et du big data et en utilisant des moyens logistiques qui, jusqu’à récemment, n’auraient pas été envisageables pour le traitement des données sans les progrès technologiques de notre temps.
Bien que les doutes aient été présents pendant un temps, les travaux permettent in fine de conclure que l’union entre open data et Assurance santé constitue bien une force non négligeable, bien que pour le moment limitée, vis-à-vis du cadre d’étude et des objectifs. Nous restons optimistes quant à son renforcement dans le futur, d’autant plus que le mémoire ne donne qu’un aperçu ciblé d’une utilisation des open datadans le monde assurantiel.
Références :
1 – Ce nom inventé permet de garder l’anonymat de l’organisme originel. Toute ressemblance avec le nom d’un autre organisme est fortuite. Il y a volonté ici d’exposer les travaux réalisés comme si nous en faisions partie intégrante, mais ce n’est qu’un choix d’écriture en soi et l’organisme en question ne s’est pas directement impliqué dans les travaux.