Programme de doctorat
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
SOUTENANCE DE THÈSE
de
Jean-Thomas Baillargeon
Le lundi 23 septembre 2024 à 9h30
Local 3840, Pavillon Alexandre-Vachon
Lien Zoom : https://ulaval.zoom.us/j/67769815185?pwd=W4HNPASwGzeVsYYPqY8gCO49alaxtP.1
Passcode: 252847
Classification et analyse de sinistres dispendieux dans les
réclamations d’assurance à l’aide de réseaux de neurones profonds
Membres du jury
Présidente
Madame Laurence Capus, Ph.D.
Comité de programme de 2e et 3e cycles
Département d’informatique et de génie logiciel
Université Laval
Examinateurs
Monsieur Luc Lamontagne, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Richard Khoury, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Michael Morin, Ph.D. (Examinateur)
Département d’opérations et systèmes de décisions
Faculté des sciences de l’administration, Université Laval
Monsieur Jian-Yun Nie, Ph.D. (Examinateur externe)
Département d’informatique et de recherche opérationnelle
Université de Montréal
Cette thèse porte sur l’analyse de réclamations en assurance de dommage grâce aux techniques de pointe en intelligence artificielle. Plus particulièrement, on tente d’effectuer, à l’aide de réseaux de neurones, une classification permettant d’identifier les sinistres qui engendreront des pertes parmi les 10% plus dispendieuses pour un assureur. Afin de réaliser cette tâche, on exploite les notes de sinistres, c’est-à-dire des textes longitudinaux contenant des séries de documents textuels suivant l’évolution temporelle de la réclamation. Nous proposons et évaluons différents modèles de classification de séquences de textes, dont LongiBERT (Longitudinal BERT) présentant une architecture hiérarchique exploitant un Transformer de la famille encodeur qui est préentraîné avec plusieurs tâches auxiliaires. La prédiction de même réclamation, une tâche développée pour cette thèse, entraîne le modèle à déterminer si deux segments de textes proviennent du même dossier de sinistre, ce qui permet au modèle de langue de mieux capturer les éléments répétés dans une séquence textuelle longitudinale. On présente également différentes approches orientées données et régularisations permettant d’améliorer les performances en classification durant le sinistre et de réduire la dépendance à des attributs fallacieux associés à la longueur des dossiers de réclamation. Une autre contribution est la conception du modèle de classification SMARTR (Survival and Monthly Aggregated Risk from Text Representations). Cette approche permet de convertir le texte contenu dans des notes de sinistres en facteurs de risque et ainsi calculer une probabilité de dépasser éventuellement un certain seuil monétaire. Ces facteurs peuvent être par la suite analysés pour mieux comprendre les risques associés aux réclamations dispendieuses. Finalement, le dernier chapitre porte sur l’explicabilité des modèles, c’est-à-dire l’évaluation de la capacité des modèles à exploiter l’information importante lors de l’inférence. On présente un cadre d’évaluation de l’explicabilité permettant de comparer l’appréciation humaine de deux modèles à l’aide de tests statistiques.
Note: La présentation sera donnée en français.
Bienvenue à tous !