Programme de doctorat
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
SOUTENANCE DE THÈSE
de
Baptiste Bauvin
Le mardi 14 novembre 2023 à 9 h
Local PAP-3316, Pavillon Palasis-Prince
Lien Zoom pour se joindre à distance : https://ulaval.zoom.us/j/6342856953
Multiview Machine Learning And
Its Applications To Multi-Omic Tasks
Président du jury
Monsieur Brahim Chaib-draa, Ph.D.
Directeur des programmes gradués
Département d’informatique et de génie logiciel
Université Laval
Examinateurs
Monsieur Jacques Corbeil Ph.D. (Directeur de recherche)
Département de Médecine Moléculaire
Université Laval
Madame Cécile Capponi (Co-directrice de recherche)
Laboratoire d’Informatique et Système
Université d’Aix Marseille, France
Madame Audrey Durand, Ph.D. (Examinatrice)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Clovis Galiez, Ph.D. (Examinateur)
Laboratoire Jean Kuntzmann
Université Grenoble Alpes, France
Monsieur Marc Sebban, Ph.D. (Examinateur externe)
Laboratoire Hubert Curien
Université Jean Monet, France
Résumé
Cette thèse se situe à l’intersection de plusieurs domaines d’études. Elle traite principalement d’apprentissage automatique, un champ d’études de l’intelligence artificielle. Plus particulièrement, elle se focalise sur la classification supervisée, un cas particulier où l’objectif est de séparer des exemples dans des classes, pour lequel on utilise des exemples étiquetés sur lesquels on apprend un classifieur. Plus précisément, nous nous concentrons sur l’apprentissage multi-vues, pour lequel les classifieurs ont accès à plusieurs types de données. De plus, cette thèse traite de l’application de l’apprentissage multivue à des données biologiques. Les données dites -omiques, qui regroupent plusieurs analyses d’un échantillon sanguin, décrivant une grande variété de processus naturels sont notre axe principal. Ces données présentent plusieurs défis, que nous explorons tout au long de cette thèse. Pour ce faire, nous présentons également plusieurs outils spécifiquement conçus pour comparer des algorithmes d’apprentissage automatique sur des données multivues. En effet, si le domaine monovue peut se reposer sur un grand nombre d’outils robustes, ils ne sont pas utilisables dans le paradigme multivues. Ainsi une partie de ce doctorat a été dédiée au développement d’outils de qualité pour l’apprentissage multivues. En outre, nos analyses expérimentales sur les données réelles nous ont suggéré que le développement d’algorithmes spécifiques pour le multivues était moins une priorité que la conception d’approches relevant les défis des données -omiques. Ainsi, la seconde partie de cette thèse est consacrée à l’étude des méthodes d’ensembles monovues. Ce domaine regroupe tous les algorithmes construits par l’agrégation de plusieurs sous-méthodes tels que les votes de majorité, particulièrement intéressants pour l’application sur les données -omiques. De ce fait, nous proposons deux nouveaux algorithmes basés sur la méthode gloutonne pour apprendre sur des données en grande dimension. Le premier, CB-Boost, se repose sur l’optimisation efficace d’une quantité théorique, la C-borne, permettant de construire des votes de majorité performants et robustes. Le second, SamBA, est une généralisation du boosting permettant de prendre en compte des expertises locales dans son modèle pour se reposer sur une fonction de décision particulièrement parcimonieuse et interprétable.
Abstract
This thesis lies at the intersection of multiple fields of study. It mainly focuses on machine learning, a domain of artificial intelligence. More specifically, we study supervised classification, which goal is to separate samples in several classes, relying on labelled samples on which a classifier is fitted. More precisely, we focus on multi-view machine learning, for which the classifiers can access multiple data types. In addition, this thesis studies the application of multi-view machine learning on biological data. More particularly, we focus on -omics data, a set of biological data that regroups several analyses derived from a biological sample, covering a large range of natural processes. This type of data is characterized by multiple challenges that we explore in this thesis. To do so, we present several tools designed specifically to allow the comparison of machine learning algorithms on multi-view data. Indeed, if the mono-view case can rely on a large number of robust libraries, they are not compatible with multi-view learning. As a consequence, a section of this thesis is dedicated to present python tools for multi-view learning. Furthermore, our experimental studies on real-life -omic data suggested that the design of multi-view specific algorithms was less of a priority than the conception of approaches specifically designed to tackle the challenges of -omic data. As a consequence, the second part of this thesis is dedicated to the study of mono-view ensemble methods. This domain regroups all the algorithms built from the aggregation of several sub-methods, such as majority votes. It is particularly interesting and useful for applications on -omic data. Consequently, we propose two algorithms based on greedy optimization, designed to learn on large dimension data. The first one, CB-Boost relies on the efficient optimization of a theoretical quantity, the C-bound, to build accurate and robust majority votes. The second one, SamBA, is a generalization of the boosting framework allowing local expertise in its model, with the objective of outputting particularly sparse and interpretable decision functions.
Note: La présentation sera donnée en français.
Bienvenue à tous !