Programme de Doctorat en informatique

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

Présentation orale de la proposition de projet de thèse

(IFT-8004)

de

Mathieu Pagé Fortin

Mercredi 11 octobre 2023 13h30

À la salle PLT-3904

Adaptabilité et extensibilité des  

réseaux de neurones profonds  

Membres du comité d’encadrement

Pr. Brahim Chaib-draa, Ph.D. (Directeur de recherche)

Département d’informatique et de génie logiciel

Pr. Luc Lamontagne, Ph.D.

Département d’informatique et de génie logiciel

Pr. Robert Bergevin, Ph.D.

Département de génie électrique et de génie informatique

 

Résumé

L’apprentissage profond s’est particulièrement illustré en vision par ordinateur depuis la dernière décennie grâce à son impressionnante capacité à résoudre une tâche déterminée directement à partir de données. Cette qualité, que nous nommons « ajustabilité » (tunability) et qui inclut de nombreux facteurs tant au niveau des modèles que des données, a catapulté les réseaux de neurones à l’avant-plan de l’apprentissage machine. Cependant, l’ajustabilité se limite à optimiser la résolution d’une tâche bien précise. Si un nouveau problème doit être résolu, tout est à refaire, ou presque, à commencer par la récolte et l’annotation de grandes quantités de données associées à la nouvelle tâche et l’entraînement de nouveaux modèles.

Dans nos travaux, nous visons à améliorer l’adaptabilité et l’extensibilité des réseaux de neurones, c’est-à-dire leur capacité à apprendre de nouvelles tâches efficacement et leur capacité à acquérir continuellement de nouvelles connaissances sans oublier leurs acquis précédents au fil du temps. Dans le cadre de cette thèse, nous avons étudié ces deux propriétés, l’adaptabilité et l’extensibilité, en travaillant sur l’apprentissage à partir de peu d’exemples (few-shot learning) et l’apprentissage continuel.

Premièrement, nous avons proposé une méthode d’apprentissage qui exploite des relations contextuelles et des représentations multimodales pour former de meilleurs prototypes de classe, permettant l’adaptation à de nouvelles tâches avec seulement quelques exemples. Deuxièmement, nous avons proposé un module d’apprentissage faiblement supervisé pour l’apprentissage continuel de la segmentation sémantique afin d’aborder les problèmes de dérive de l’arrière-plan (background shift) et des coûts élevés d’annotation. Nous avons également introduit deux variantes d’un mécanisme de révision qui permet de rejouer des régions d’images ou des caractéristiques intermédiaires sous la forme d’une technique d’augmentation de données. Nous avons ensuite exploré l’apprentissage incrémental de la segmentation d’instances en développant la première architecture dynamique conçue pour cette tâche, une nouvelle méthode de distillation des connaissances qui améliore la plasticité, et une astuce de moyennage des poids pour équilibrer manuellement l’apprentissage et l’oubli. Enfin, nous avons appliqué ce modèle à l’apprentissage incrémental de la détection d’objets dans un contexte d’applications agricoles telles que la détection de plantes et de maladies.

Abstract 

Deep learning has particularly stood out in computer vision over the past decade thanks to its impressive ability to solve a specific task directly from data. This quality, which we call ‘tunability’ and which includes many factors at both the model and data levels, has catapulted neural networks to the forefront of machine learning. However, tunability is limited to optimizing the resolution of a very specific task. If a new problem needs to be solved, everything, or almost everything, has to be done again, starting with the collection and annotation of large amounts of data associated with the task and training new models.

In our work, we aim to improve the adaptability and extensibility of neural networks, that is, their ability to learn new tasks efficiently and their ability to continuously acquire new knowledge without forgetting their past acquisitions over time. In this thesis, we have studied these two properties, adaptability and extensibility, by working on few-shot learning and continual learning.

First, we proposed a learning method that exploits contextual relationships and multimodal representations to form better class prototypes, allowing adaptation to new tasks with only a few examples. Second, we proposed a weakly-supervised learning module for the continual semantic segmentation to address the problems of background shift and high annotation costs. We also introduced two variants of a rehearsal mechanism that allows replaying image regions or intermediate features in the form of a data augmentation technique. We then explored incremental learning of instance segmentation by developing the first dynamic architecture designed for this task, a new knowledge distillation method that improves plasticity, and a weight averaging trick to manually balance learning and forgetting. Finally, we applied this model to the incremental learning of object detection in a context of agricultural applications such as plant and disease detection.

Note: La présentation sera donnée en français

 

Bienvenue à tous !