Programme de Doctorat en informatique

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

Présentation orale de la proposition de projet de thèse

(IFT-8004)

De

Baptiste Bauvin

Jeudi 2 Février 2022 à 8h00

Par vidéoconférence (voir lien ci-dessous)

Rejoindre la réunion Zoom :

https://ulaval.zoom.us/j/6342856953

« L’Apprentissage Automatique Multi-Vues Et Ses Applications Aux Taches Multi-Omiques»

 

Multiview machine learning and its applications to multi-omic tasks

Membres du comité d’encadrement

Pr. Jacques Corbeil, Ph.D. (Directeur de recherche)
Département de médecine moléculaire

Pr. Elsa Rousseau, Ph.D.
Département d’informatique et de génie logiciel

Pr. Pascal Germain, Ph.D.
Département d’informatique et de génie logiciel

Résumé

(en français)

Cette proposition de thèse a pour but de reprendre les différentes contributions de ce doctorat sur l’apprentissage machine multi-vue appliqué aux données multi-omiques, mises en contexte dans l’état de l’art. En effet, l’apprentissage machine a tellement évolué pendant les dix dernières années que pour construire un projet sensé, il est nécessaire de se restreindre à un sous-domaine en se basant sur des hypothèses quant aux types de modèles pertinents dans le champ d’application visé.

Ainsi, dans notre cas nous allons focaliser notre attention sur l’apprentissage multi-vues dans le but de l’appliquer aux données multi-omiques. Ce type de données est constitué de plusieurs sorties de capteurs décrivant des processus biologiques à différents niveaux. De ce fait, l’apprentissage multi-vues, qui se concentre sur le traitement de données présentant plusieurs types, telles que des données multi-média, semble être le paradigme le plus judicieux à utiliser.

De plus, l’apprentissage multi-vues, comme beaucoup de champs de l’apprentissage machine possède une branche non-négligeable commune avec le domaine des méthodes d’ensembles, qui regroupe l’intégralité des méthodes d’apprentissages construites par l’agrégation de plusieurs sous-modèles, souvent naïfs, pour consolider une approche, notamment en termes de robustesse. Ce domaine est donc d’une extrême importance dans notre étude, et nous permet d’utiliser des idées existantes en apprentissage mono-vue pour les généraliser au multi-vue.

Cependant, l’apprentissage multi-vues n’étant que très peu développé pour les données médicales, une des taches principales de cette thèse sera de mettre au point des modèles pertinents, notamment par le biais d’hypothèses sur les données multi-omiques. Pour ce faire, la première étape est de construire un modèle mono-vue basé sur les méthodes d’ensemble. Puis, se basant sur la revue de littérature et sur des hypothèses sur les spécificités de l’apprentissage multi-vues, nous proposons deux outils développés en Python permettant la génération et l’analyse de bases de données multi-vues.

Finalement, en nous reposant sur des hypothèses dérivées de résultats empiriques obtenus sur des bases de données multi-omiques, nous porposons un modèle d’apprentissage basé sur les méthodes d’ensemble, permettant l’apprentissage mono- et multi-vues, exploitant les avantages des expertises locales.

Abstract

(résumé en anglais)

This thesis proposal aims at describing the state-of-the-art and strategies used in order to build a thesis on multi-view machine learning applied to multi-omics data. Indeed, machine learning has evolved so considerably during the last ten years that to build a meaningful project, it is necessary to restrict oneself to a sub-field based on assumptions made on the types of models relevant to the targeted application.

Thus, in our case, we focus our attention on multi-view learning with the goal of applying it to multi-omics data. This type of data consists in several sensor outputs describing biological processes at multiple levels. Therefore, multi-view learning, which focuses on the processing of data with numerous types such as multi-media data, seems to be the most appropriate family of models to use in our case.

Moreover, multi-view learning, like many fields of machine learning, has developed a non-negligible branch in the domain of ensemble methods, which gathers all learning methods built by aggregating several models. This domain is therefore of extreme importance in our study, and allows us to base our work on existing concepts in mono-view learning to transfer them to multi-view learning.

However, as multi-view learning is not yet completely established on medical data, one of the main tasks of this thesis will be to develop relevant models for multi-view learning, based on assumptions about multi-omics data. To do so, out first step is to build a mono-view approaches based on ensemble methods.

Then, relying on the literature review and on hypotheses established about the specificities of multi-view learning, we propose two Python tools allowing to generate and analyze multi-view datasets.

Finally, based on hypotheses derived from empirical results on multi-omic databases, we introduce a novel ensemble method algorithm, allowing moon- and multi-view learning by taking advantage of local experts properties

Note: La présentation sera donnée en français.

Bienvenue à tous!