Programme de Doctorat en informatique
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
Présentation orale de la proposition de recherche doctorale
(IFT-8003)
de
Thibaud Godon
Le lundi 24 avril 2023 à 14h30
En présentiel au local PLT-2750 et à distance (voir lien ci-dessous)
La présentation sera diffusée sur Zoom :
https://ulaval.zoom.us/j/4780165761
Recherche de biomarqueurs en données biologiques de
grande dimension, par des méthodes d’apprentissage
automatique interprétables et l’invariance
Membres du comité d’encadrement
Pr. Pascal Germain, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Pr. Mario Marchand, Ph.D.
Département d’informatique et de génie logiciel
Pr. Jacques Corbeil, Ph.D.
Département de médecine moléculaire, CHUL
Faculté de médecine, Université Laval
Pr. Alexandre Drouin, Ph.D.
Professeur associé
Département d’informatique et de génie logiciel
Pr. Denis Talbot, Ph.D.
Département de médecine sociale et préventive
Faculté de médecine, Université Laval
Résumé
Mes travaux se concentrent sur deux types de données biologiques, la métabolomique et la génomique. La métabolomique étudie les molécules du métabolisme d’un être vivant en estimant les concentrations de milliers de molécules par spectrométrie de masse. La génomique est l’étude du génome. Dans les deux cas, on cherche à mieux comprendre les liens entre les données et une caractéristique de l’individu. Par exemple, on cherche quelles sont les molécules qui sont des marqueurs de maladie chez un patient (métabolomique). Ou quelles sont les mutations qui causent la résistance à un antibiotique chez une bactérie (génomique). C’est la recherche de biomarqueurs.
Ces données ont la caractéristique de contenir un grand nombre de variables. Cette grande dimension contraste avec le petit nombre d’exemples sur lesquels ces variables sont observées. Ces données larges (fat data) constituent un premier défi, celui de la dimension.
L’apprentissage automatique propose des méthodes très performantes pour la recherche de biomarqueurs. Il s’agit d’utiliser des modèles prédictifs construits par des méthodes d’apprentissage automatique, qui sont ensuite étudiés pour identifier des biomarqueurs potentiels. Les modèles doivent donc pouvoir être étudiés et compris pour savoir quelles sont les variables qui servent à faire la prédiction. Cette nécessité constitue le deuxième défi, celui de l’interprétabilité. L’interprétabilité permet d’orienter l’étude des biomarqueurs potentiels révélés par l’analyse des données.
Les modèles doivent aussi être valides dans un contexte plus général que celui de l’étude qui a généré les données. On voudrait distinguer les variables causales des simples corrélations. En métabolomique, cela permet de guider la recherche vers des marqueurs valides dans un large contexte. Dans le contexte de recherche de mutations responsables de la résistance aux antibiotiques, cette approche a pour but de se concentrer sur les mutations causales et de les distinguer des biais liés aux conditions d’expérimentation. Ceci constitue notre troisième défi, celui de la causalité.
Pour atteindre ces objectifs, mes travaux s’appuient sur les modèles prédictifs à base de règles et sur l’utilisation de méthodes d’inférence causale. On s’intéresse aux modèles basés sur des règles de décision, comme les arbres de décision et les modèles produits par Set Covering Machine (Marchand and Shawe-Taylor, 2002).
Note: La présentation sera donnée en français.
Bienvenue à tous !