Programme de doctorat

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

SOUTENANCE DE THÈSE
de

Jean-Thomas Baillargeon

Le lundi 23 septembre 2024 à 9h30

Local 3840, Pavillon Alexandre-Vachon

Lien Zoom : https://ulaval.zoom.us/j/67769815185?pwd=W4HNPASwGzeVsYYPqY8gCO49alaxtP.1 

Passcode: 252847

Classification et analyse de sinistres dispendieux dans les
réclamations d’assurance à l’aide de réseaux de neurones profonds

 

 

Membres du jury

 

 

Présidente

Madame Laurence Capus, Ph.D.

Comité de programme de 2e et 3e cycles

Département d’informatique et de génie logiciel

Université Laval

Examinateurs

 

Monsieur Luc Lamontagne, Ph.D. (Directeur de recherche)

Département d’informatique et de génie logiciel

Université Laval

Monsieur Richard Khoury, Ph.D. (Examinateur)

Département d’informatique et de génie logiciel

Université Laval

 

Monsieur Michael Morin, Ph.D. (Examinateur)

Département d’opérations et systèmes de décisions

Faculté des sciences de l’administration, Université Laval

Monsieur Jian-Yun Nie, Ph.D. (Examinateur externe)

Département d’informatique et de recherche opérationnelle

Université de Montréal

Résumé

Cette thèse porte sur l’analyse de réclamations en assurance de dommage grâce aux techniques de pointe en intelligence artificielle. Plus particulièrement, on tente d’effectuer, à l’aide de réseaux de neurones, une classification permettant d’identifier les sinistres qui engendreront des pertes parmi les 10% plus dispendieuses pour un assureur. Afin de réaliser cette tâche, on exploite les notes de sinistres, c’est-à-dire des textes longitudinaux contenant des séries de documents textuels suivant l’évolution temporelle de la réclamation. Nous proposons et évaluons différents modèles de classification de séquences de textes, dont LongiBERT (Longitudinal BERT) présentant une architecture hiérarchique exploitant un Transformer de la famille encodeur qui est préentraîné avec plusieurs tâches auxiliaires. La prédiction de même réclamation, une tâche développée pour cette thèse, entraîne le modèle à déterminer si deux segments de textes proviennent du même dossier de sinistre, ce qui permet au modèle de langue de mieux capturer les éléments répétés dans une séquence textuelle longitudinale. On présente également différentes approches orientées données et régularisations permettant d’améliorer les performances en classification durant le sinistre et de réduire la dépendance à des attributs fallacieux associés à la longueur des dossiers de réclamation. Une autre contribution est la conception du modèle de classification SMARTR (Survival and Monthly Aggregated Risk from Text Representations). Cette approche permet de convertir le texte contenu dans des notes de sinistres en facteurs de risque et ainsi calculer une probabilité de dépasser éventuellement un certain seuil monétaire. Ces facteurs peuvent être par la suite analysés pour mieux comprendre les risques associés aux réclamations dispendieuses. Finalement, le dernier chapitre porte sur l’explicabilité des modèles, c’est-à-dire l’évaluation de la capacité des modèles à exploiter l’information importante lors de l’inférence. On présente un cadre d’évaluation de l’explicabilité permettant de comparer l’appréciation humaine de deux modèles à l’aide de tests statistiques.

Note: La présentation sera donnée en français.

Bienvenue à tous !