Programme de Doctorat en informatique

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

Présentation orale de la proposition de projet de recherche doctorale

de

Baptiste Bauvin

Jeudi 29 septembre à 9h30

Par vidéoconférence (voir lien ci-dessous)

Rejoindre la réunion Zoom :

https://ulaval.zoom.us/j/6342856953

Meeting ID: 634 285 6953

« Apprentissage automatique multi-vues appliqué aux données multi-omiques »

Multi-view machine learning and its applications to multi-omic tasks

Membres du comité d’encadrement

Pr. Jacques Corbeil, Ph.D. (Directeur de recherche)

Département de médecine moléculaire

Pr. Elsa Rousseau, Ph.D.

Département d’informatique et de génie logiciel

Pr. Pascal Germain, Ph.D.

Département d’informatique et de génie logiciel

 

 

Résumé

Cette proposition de recherche a pour but de décrire l’état de l’art et les directions pour construire une thèse sur l’apprentissage machine multi-vue appliqué aux données multi-omiques.

En effet, l’apprentissage machine a tellement évolué pendant les dix dernières années que pour construire un projet sensé, il est nécessaire de se restreindre à un sous-domaine en se basant sur des hypothèses quant aux types de modèles pertinents dans le champ d’application visé.

Ainsi, dans notre cas nous allons focaliser notre attention sur l’apprentissage multi-vues dans le but de l’appliquer aux données multi-omiques. Ce type de données est constitué de plusieurs sorties de capteurs décrivant des processus biologiques à plusieurs niveaux. De ce fait, l’apprentissage multi-vues, qui se concentre sur le traitement de données présentant plusieurs types, telles que des données multi-média, semble être le paradigme le plus judicieux à utiliser.

De plus, l’apprentissage multi-vues, comme beaucoup de champs de l’apprentissage machine possède une branche non-négligeable commune avec le domaine des méthodes d’ensembles,

qui regroupe l’intégralité des méthodes d’apprentissages construites par l’agrégation de plusieurs sous-modèles, souvent naïfs, pour consolider une approche, notamment en termes de

robustesse. Ce domaine est donc d’une extrême importance dans notre étude, et nous permet de nous reposer sur des concepts existants en apprentissage mono-vue pour les transférer à

l’apprentissage multi-vues.

Cependant, l’apprentissage multi-vues n’étant que très peu développé pour les données médicales, une des tâches principales de cette thèse sera de mettre au point des modèles pertinents, notamment par le biais d’hypothèses sur les données multi-omiques. Pour ce faire, la première étape est de construire des modèles mono-vues permettant de modéliser le plus pertinemment possible chacune des vues pour les tâches à accomplir. En effet, l’extraction de l’information de chacune des vues est un jalon crucial du processus d’apprentissage multi-vues.

Dans un deuxième temps, la modélisation des interactions entre les vues sera la seconde priorité de cette thèse, permettant de justifier de l’usage des méthodes multi-vues dans le cadre des données multi-omiques. Ce type de travail ne pourra être fait qu’en comprenant intrinsèquement les interactions biologiques et en ayant à disposition les modèles mathématiques

permettant de les modéliser et de les intégrer dans un algorithme d’apprentissage.

Abstract

 This research proposal aims at describing the state-of-the-art and strategies in order to build a thesis on multi-view machine learning applied to multi-omics data. Indeed, machine learning has evolved so considerably during the last ten years that to build a meaningful project, it is necessary to restrict oneself to a sub-field based on assumptions made on the types of models relevant to the targeted application.

Thus, in our case, we focus our attention on multi-view learning with the goal of applying it to multi-omics data. This type of data consists in several sensor outputs describing biological processes at multiple levels. Therefore, multi-view learning, which focuses on the processing of data with numerous types such as multi-media data, seems to be the most appropriate family of models to use in our case.

Moreover, multi-view learning, like many fields of machine learning, has developed a non-negligible branch in the domain of ensemble methods, which gathers all learning methods built by aggregating several models. This domain is therefore of extreme importance in our study, and allows us to base our work on existing concepts in mono-view learning to transfer them to multi-view learning.

However, as multi-view learning is not yet completely established on medical data, one of the main tasks of this thesis will be to develop relevant models for multi-view learning, based on assumptions about multi-omics data. To do so, out first step is to build mono-view approaches that allow to model each view as relevantly as possible. Indeed, the extraction of information from each view is a crucial step in the multi-view learning process.

Parallelly, the modeling of the interactions between the views is the second priority of this thesis, in order to justify the use of multi-view methods in the multi-omics framework.

This type of work can only be done thanks to an profound understanding of biological interactions and thanks to the mathematical groundwork to model them and integrate them into a learning algorithm.

Note: La présentation sera donnée en français

Bienvenue à tous!