Programme de Doctorat en informatique

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

Présentation orale de la proposition de recherche doctorale

(IFT-8003)

de

Thibaud Godon

 

Le lundi 24 avril 2023 à 14h30

En présentiel au local PLT-2750 et à distance (voir lien ci-dessous)

La présentation sera diffusée sur Zoom :
https://ulaval.zoom.us/j/4780165761

Recherche de biomarqueurs en données biologiques de
grande dimension, par des méthodes d’apprentissage
automatique interprétables et l’invariance

  

Membres du comité d’encadrement

 Pr. Pascal Germain, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel

Pr. Mario Marchand, Ph.D.
Département d’informatique et de génie logiciel

Pr. Jacques Corbeil, Ph.D.
Département de médecine moléculaire, CHUL
Faculté de médecine, Université Laval

Pr. Alexandre Drouin, Ph.D.
Professeur associé
Département d’informatique et de génie logiciel

Pr. Denis Talbot, Ph.D.
Département de médecine sociale et préventive
Faculté de médecine, Université Laval

Résumé

Mes travaux se concentrent sur deux types de données biologiques, la métabolomique et la génomique. La métabolomique étudie les molécules du métabolisme d’un être vivant en estimant les concentrations de milliers de molécules par spectrométrie de masse. La génomique est l’étude du génome. Dans les deux cas, on cherche à mieux comprendre les liens entre les données et une caractéristique de l’individu. Par exemple, on cherche quelles sont les molécules qui sont des marqueurs de maladie chez un patient (métabolomique). Ou quelles sont les mutations qui causent la résistance à un antibiotique chez une bactérie (génomique). C’est la recherche de biomarqueurs.

Ces données ont la caractéristique de contenir un grand nombre de variables. Cette grande dimension contraste avec le petit nombre d’exemples sur lesquels ces variables sont observées. Ces données larges (fat data) constituent un premier défi, celui de la dimension.

L’apprentissage automatique propose des méthodes très performantes pour la recherche de biomarqueurs. Il s’agit d’utiliser des modèles prédictifs construits par des méthodes d’apprentissage automatique, qui sont ensuite étudiés pour identifier des biomarqueurs potentiels. Les modèles doivent donc pouvoir être étudiés et compris pour savoir quelles sont les variables qui servent à faire la prédiction. Cette nécessité constitue le deuxième défi, celui de l’interprétabilité. L’interprétabilité permet d’orienter l’étude des biomarqueurs potentiels révélés par l’analyse des données.

Les modèles doivent aussi être valides dans un contexte plus général que celui de l’étude qui a généré les données. On voudrait distinguer les variables causales des simples corrélations. En métabolomique, cela permet de guider la recherche vers des marqueurs valides dans un large contexte. Dans le contexte de recherche de mutations responsables de la résistance aux antibiotiques, cette approche a pour but de se concentrer sur les mutations causales et de les distinguer des biais liés aux conditions d’expérimentation. Ceci constitue notre troisième défi, celui de la causalité.

Pour atteindre ces objectifs, mes travaux s’appuient sur les modèles prédictifs à base de règles et sur l’utilisation de méthodes d’inférence causale. On s’intéresse aux modèles basés sur des règles de décision, comme les arbres de décision et les modèles produits par Set Covering Machine (Marchand and Shawe-Taylor, 2002).

Note: La présentation sera donnée en français.

 Bienvenue à tous !