Programme de doctorat

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

SOUTENANCE DE THÈSE
de

Amar Ali-bey

Le jeudi 15 février 2024 à 9h30

Salle PLT-2750, Pavillon Adrien-Pouliot

Lien Zoom:

https://ulaval.zoom.us/j/69318779001?pwd=M0N4ekp1eGNlbC9xRVYrUHp0bmRTZz09

Meeting ID: 693 1877 9001
Passcode: 862283

Apprentissage profond de représentation
pour la reconnaissance visuelle de places

 

Président du jury

Monsieur Paul Fortier, Ph.D

Directeurs des études graduées

Département de génie électrique et de génie informatique

Université Laval

Examinateurs

 

Monsieur Brahim Chaib-draa, Ph.D. (Directeur de recherche)

Département d’informatique et de génie logiciel

Université Laval

Monsieur Philippe Giguère, Ph.D. (Co-directeur de recherche)

Département d’informatique et de génie logiciel

Université Laval

 

Monsieur Jean-François Lalonde, Ph.D. (Examinateur)

Département de génie électrique et de génie informatique

Université Laval

Monsieur Guillaume-Alexandre Bilodeau, Ph.D. (Examinateur externe)

Département de génie informatique et génie logiciel

Polytechnique Montréal

Monsieur Abdeslam Boularias, Ph.D. (Examinateur externe)

Department of Computer Science

Rutgers University, USA

 

Résumé

La Reconnaissance Visuelle de Lieux (RVL) est une tâche en intelligence artificielle qui vise à déterminer le lieu de capture d’une image, en se basant exclusivement sur son contenu visuel. Cette tâche est cruciale pour des applications telles que la navigation autonome et la robotique mobile. Cependant, elle est complexe en raison des changements environnementaux tels que l’éclairage, les conditions météorologiques, les variations de point de vue et les occlusions.Dans le cadre de cette thèse, nous présentons des contributions touchant trois aspects d’apprentissage profond pour la RVL : les données d’entrainement, l’architecture du réseau de neurones et la stratégie d’optimisation. Premièrement, nous introduisons GSV-Cities, une base de données d’entraînement à grande échelle, couvrant plusieurs villes dans le monde. GSV-Cities a permis d’entraîner des modèles plus résilients, améliorant ainsi les performances des techniques existantes tout en réduisant leur temps d’entraînement. Ensuite, nous proposons MixVPR, une nouvelle architecture d’agrégation de caractéristiques, utilisant des perceptrons multicouches pour établir des relations globales entre les caractéristiques d’une image. Cette approche holistique a redéfini l’état de l’art sur plusieurs benchmarks en RVL et est désormais adoptée par plusieurs chercheurs. Enfin, nous présentons GPM, une nouvelle méthode d’échantillonnage de mini-batches visant à optimiser l’entraînement des modèles de RVL, particulièrement dans des contextes de ressources limitées.

Abstract

 

Visual Place Recognition (VPR) is a crucial task in computer vision for applications such as autonomous navigation and mobile robotics. It aims to determine the location where an image was taken based solely on its visual content. However, this task is challenging due to various environmental changes such as lighting, weather, viewpoint variations, and occlusions. In this thesis, we address three key aspects of deep learning for VPR: training data, neural network architecture, and optimization strategy. Firstly, we introduce GSV-Cities, a large-scale training dataset covering multiple cities, enabling the training of more robust models and improving performance, all while reducing training time. Next, we propose MixVPR, a novel feature aggregation architecture that employs multi-layer perceptrons (MLPs) to establish global relationships between image features. This holistic approach has set a new state-of-the-art on multiple VPR benchmarks and is now adopted by several researchers. Finally, we introduce GPM, a new method for mini-batch sampling aiming to optimize the training of VPR models in resource-constrained scenarios. This approach represent an advancement in overcoming challenges associated with existing “hard mining” methods.

 

Note: La présentation sera donnée en français.

Bienvenue à tous !