Département d’informatique et de génie logiciel
Faculté des sciences et de génie
SOUTENANCE DE THÈSE
de
Amar Ali-bey
Le jeudi 15 février 2024 à 9h30
Salle PLT-2750, Pavillon Adrien-Pouliot
Lien Zoom:
https://ulaval.zoom.us/j/69318779001?pwd=M0N4ekp1eGNlbC9xRVYrUHp0bmRTZz09
Meeting ID: 693 1877 9001
Passcode: 862283
Apprentissage profond de représentation
pour la reconnaissance visuelle de places
Président du jury
Monsieur Paul Fortier, Ph.D
Directeurs des études graduées
Département de génie électrique et de génie informatique
Université Laval
Examinateurs
Monsieur Brahim Chaib-draa, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Philippe Giguère, Ph.D. (Co-directeur de recherche)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Jean-François Lalonde, Ph.D. (Examinateur)
Département de génie électrique et de génie informatique
Université Laval
Monsieur Guillaume-Alexandre Bilodeau, Ph.D. (Examinateur externe)
Département de génie informatique et génie logiciel
Polytechnique Montréal
Monsieur Abdeslam Boularias, Ph.D. (Examinateur externe)
Department of Computer Science
Rutgers University, USA
Résumé
La Reconnaissance Visuelle de Lieux (RVL) est une tâche en intelligence artificielle qui vise à déterminer le lieu de capture d’une image, en se basant exclusivement sur son contenu visuel. Cette tâche est cruciale pour des applications telles que la navigation autonome et la robotique mobile. Cependant, elle est complexe en raison des changements environnementaux tels que l’éclairage, les conditions météorologiques, les variations de point de vue et les occlusions.Dans le cadre de cette thèse, nous présentons des contributions touchant trois aspects d’apprentissage profond pour la RVL : les données d’entrainement, l’architecture du réseau de neurones et la stratégie d’optimisation. Premièrement, nous introduisons GSV-Cities, une base de données d’entraînement à grande échelle, couvrant plusieurs villes dans le monde. GSV-Cities a permis d’entraîner des modèles plus résilients, améliorant ainsi les performances des techniques existantes tout en réduisant leur temps d’entraînement. Ensuite, nous proposons MixVPR, une nouvelle architecture d’agrégation de caractéristiques, utilisant des perceptrons multicouches pour établir des relations globales entre les caractéristiques d’une image. Cette approche holistique a redéfini l’état de l’art sur plusieurs benchmarks en RVL et est désormais adoptée par plusieurs chercheurs. Enfin, nous présentons GPM, une nouvelle méthode d’échantillonnage de mini-batches visant à optimiser l’entraînement des modèles de RVL, particulièrement dans des contextes de ressources limitées.
Abstract
Visual Place Recognition (VPR) is a crucial task in computer vision for applications such as autonomous navigation and mobile robotics. It aims to determine the location where an image was taken based solely on its visual content. However, this task is challenging due to various environmental changes such as lighting, weather, viewpoint variations, and occlusions. In this thesis, we address three key aspects of deep learning for VPR: training data, neural network architecture, and optimization strategy. Firstly, we introduce GSV-Cities, a large-scale training dataset covering multiple cities, enabling the training of more robust models and improving performance, all while reducing training time. Next, we propose MixVPR, a novel feature aggregation architecture that employs multi-layer perceptrons (MLPs) to establish global relationships between image features. This holistic approach has set a new state-of-the-art on multiple VPR benchmarks and is now adopted by several researchers. Finally, we introduce GPM, a new method for mini-batch sampling aiming to optimize the training of VPR models in resource-constrained scenarios. This approach represent an advancement in overcoming challenges associated with existing « hard mining » methods.
Note: La présentation sera donnée en français.
Bienvenue à tous !