Programme de Doctorat en informatique

Département d’informatique et de génie logiciel

Faculté des sciences et de génie

Mardi 6 avril 2021 à 14 h

Par vidéoconférence via le lien Zoom

https://ulaval.zoom.us/j/85884443156?pwd=ekdTeWZURjZTVHIrcDFaZzdFTFY0UT09

Code secret : 864806

Apprentissage profond pour la Reconnaissance visuelle de Lieux

Comité d’encadrement

 

Pr. Brahim Chaib-draa, Ph.D. (Directeur)

Département d’informatique et de génie logiciel, Université Laval

Pr. Philippe Giguère, Ph.D. (Co-directeur)

Département d’informatique et de génie logiciel, Université Laval

Pr. Abdeslam Boularias, Ph.D.

Rutgers Robot Learning Lab, Rutgers University, USA

Pr. Jean-François Lalonde, Ph.D.

Département de génie électrique et génie informatique, Université Laval

 

Résumé

 

La reconnaissance visuelle de lieux est la capacité d’un système à déterminer avec précision la localisation d’un lieu donné. Cette tâche est difficile à réaliser au vu des variations environnementales qui se manifestent sous forme de changements d’apparence. Les techniques traditionnelles de la reconnaissance visuelle de lieux se basent généralement sur des descripteurs issus de l’ingénierie de caractéristiques, où une expertise dans le domaine est souvent nécessaire. Cette expertise est utilisée pour représenter et extraire les « bonnes » caractéristiques dont on aurait besoin pour lancer les algorithmes sous-tendant l’apprentissage machine.

Récemment, les réseaux de neurones convolutifs (CNN) ont permis de passer outre l’expertise du domaine tout en offrant de très bonnes performances au niveau de plusieurs tâches de vision par ordinateur. À cet égard, plusieurs architectures CNN ont été proposées pour aborder le problème à grande échelle, où l’apprentissage est basé sur une fonction de perte à triplets permettant l’entraînement sur des images téléchargées à partir de la plateforme Google Street View.

Dans cette proposition de recherche, nous proposons trois objectifs pour adresser le problème de la reconnaissance visuelle de lieux (RVL) sous de nouvelles perspectives. Le premier objectif fait état de l’élaboration d’une base de données collectées (GSV600k) par nos soins et permettant d’établir un lien entre la reconnaissance visuelle de lieux et l’apprentissage profond de similarités. Avec une telle base, on pourrait ainsi étudier et développer de nouvelles fonctions de perte spécifiques au problème de reconnaissance de lieux.

Le deuxième objectif fait état, quant à lui, de la conception d’une nouvelle architecture CNN pour détecter et décrire les régions d’intérêt dans les images de lieux. Nous proposons dans ce cadre un framework dans lequel les pseudoétiquettes (bounding boxes) sont générées à la volée durant l’entraînement.

Finalement, comme troisième objectif nous proposons une nouvelle formulation du problème de la reconnaissance des lieux qui utilise les Transformers préentraînés, et ce en tenant compte de la capacité des nouvelles architectures de Transformers à généraliser sur différentes tâches de vision.

 

 

Title: Deep Metric Learning for Large-Scale Visual Place Recognition

 

Abstract

Visual location recognition is the ability of a system to accurately determine the location of a given location. This task is difficult to accomplish given the environmental variations that manifest themselves in the form of changes in appearance. Traditional techniques of visual recognition of places are generally based on descriptors derived from characteristic engineering, where expertise in the field is often required. This expertise is used to represent and extract the “good” features (i.e., engineering features) that would be needed to launch the algorithms underlying machine learning.

Recently, convoluted neural networks (CNN) have allowed to bypass the engineering feature while offering very good performance at the level of several computer vision tasks. In this regard, several CNN architectures have been proposed to address the problem on a large scale, where learning is based on a triplet loss function allowing training on images downloaded from the Google Street View platform.

In this research proposal, we propose three objectives to address the problem of visual recognition of places (RVL) from new perspectives. The first objective relates to the development of a database collected (GSV600k) by us that links visual recognition of places to deep learning of similarities. With such a base, one could thus study and develop new loss functions specific to the problem of place recognition.

In a second objective, we propose a new CNN architecture, that detects and describes regions of interest specific to VPR in an end-to-end fashion, without the need for accurate bounding box labels. To do so, we propose a framework in which weak annotations (pseudo-labels) are generated on the fly for every image in the training batch.

Finally, as a third objective, we propose a new formulation of the problem of place recognition that uses pre-trained transformers, taking into account the ability of the new Transformers architectures to generalize on different vision tasks.

 

Note: la présentation sera donnée en français.

 

 

 

Bienvenue à tous!