Programme de Doctorat en informatique
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
Présentation orale de la proposition de projet de recherche
(IFT-8003)
de
Sandrine Blais-Deschênes
Le lundi 28 août 2023 à 11 h
Local PLT-3904
La présentation sera diffusée sur Zoom :
https://ulaval.zoom.us/j/63922739734?pwd=S1hUVUJxZ0tsVEV1b2VGakpXMzAxUT09
Des arbres de décision parcimonieux pour
une interprétabilité accrue
Membres du comité d’encadrement
Pr. Josée Desharnais, Ph.D. (Directrice de recherche)
Département d’informatique et de génie logiciel
Pr. Pascal Germain, Ph.D. (Co-directeur de recherche)
Département d’informatique et de génie logiciel
Pr. Mario Marchand, Ph.D.
Département d’informatique et de génie logiciel
Pr. Richard Khoury, Ph.D.
Département d’informatique et de génie logiciel
Résumé
L’intelligence artificielle (IA) responsable est un enjeu d’une grande importance sociétale et qui touche directement les informaticiens. Nous nous intéressons surtout à l’interprétabilité qui se définit par la propriété de pouvoir comprendre pourquoi une décision a été rendue par un modèle prédictif. Nous verrons comment ce sujet se situe directement dans une pratique responsable de l’IA.
En IA et plus particulièrement en apprentissage automatique supervisé, il arrive parfois que des modèles prédictifs soient biaisés. Les modèles opaques sont problématiques, car ils rendent difficile l’identification des biais. Les métriques d’équité et les méthodes d’explicabilité permettent de les atténuer, mais comportent plusieurs limites. L’interprétabilité se distingue de l’explicabilité et permet de résoudre le problème des biais dans les modèles. Cette notion est particulièrement importante dans les contextes d’analyse où il y a des risques de discrimination, comme en santé. D’abord, car il est primordial de savoir pourquoi une décision est prise par un modèle lorsque celle-ci a un impact sur une personne, par exemple dans l’aide au diagnostic médical. Ensuite, en recherche, ces types de modèles sont très utiles, car ils dévoilent souvent des pistes d’investigations. Cette solution s’inscrit aussi dans un contexte social plus large, notamment dans la régulation et la décolonisation de l’IA.
Les modèles logiques parcimonieux comme les arbres de décision et les Set Covering Machines (SCM) sont hautement interprétables. La parcimonie des SCM préserve ce haut niveau d’interprétabilité, alors que les arbres de décision permettent d’améliorer la prédiction en augmentant légèrement la complexité du modèle. L’objectif de cette étude est de combiner les forces de ces deux modèles pour améliorer autant l’interprétabilité que la performance.
Nous proposons un nouvel algorithme, le SCM subversif (sSCM) basé sur le SCM. L’intérêt de s’inspirer de l’algorithme du SCM provient du fait que sa performance est particulièrement intéressante pour les données larges (fat data), très présentes dans les données liées à la santé comme les données omiques. De plus, cet algorithme utilise une borne de compression d’échantillon (sample compression) garantissant la bonne généralisation du modèle. Nous présenterons les différentes stratégies d’apprentissage de l’algorithme et de généralisation de la borne que nous souhaitons explorer dans la suite de nos recherches.
Abstract
Titre en Anglais : Sparse Decision Trees for Increased Interpretability
Responsible artificial intelligence (AI) is an issue of great societal importance, and one that directly affects computer scientists. We are particularly interested in interpretability, which is defined as the property of being able to understand why a decision has been made by a predictive model. We will see how this topic relates directly to a responsible AI practice.
In AI, and more specifically in supervised machine learning, predictive models can sometimes be biased. Non-transparent models are problematic, as they make it difficult to identify biases. Fairness metrics and explainability methods help to mitigate biases, but have several limitations. Interpretability is distinct from explicability, and helps solve the problem of bias in models. This notion is particularly important in analytical contexts where there are discrimination risks, such as healthcare. Firstly, because it is essential to know why a decision is made by a model when it has an impact on a person, for instance in medical diagnostic assistance. Secondly, in research, these types of models are very useful, as they often reveal avenues of investigation. This solution is also part of a wider social context, notably in the regulation and decolonization of AI.
Sparse logical models such as decision trees and Set Covering Machines (SCM) are highly interpretable. The sparsity of SCM preserves this high level of interpretability, while decision trees improve prediction by slightly increasing model complexity. The aim of this study is to combine the strengths of these two models to improve both interpretability and performance.
We propose a new algorithm, the subversive SCM (sSCM) based on the SCM. The interest in taking inspiration from the SCM algorithm stems from the fact that its performance is particularly interesting for fat data, which is very common in health-related data such as omics. What’s more, this algorithm uses a sample compression bound to guarantee the model’s correct generalization. We will present the different strategies for the learning algorithm and generalizing the bound that we intend to explore in our further research.
Note: La présentation sera donnée en français.
Bienvenue à tous!