Résumé: La reconnaissance visuelle de lieux est la capacité d’un système à déterminer la l’emplacement d’un lieu présent dans une photographie. Cette tâche est difficile à réaliser au vu des variations environnementales qui se manifestent sous forme de changements d’apparence. Les techniques traditionnelles de la reconnaissance visuelle de lieux se basent généralement sur des descripteurs issus de l’ingénierie de caractéristiques.
Récemment, les réseaux de neurones convolutifs (CNN) ont montré de très bonnes performances au niveau de plusieurs tâches de vision par ordinateur. À cet égard, plusieurs architectures CNN ont été proposées pour aborder la reconnaissance visuelle de lieux à grande échelle, où l’apprentissage est basé sur une fonction de perte à triplets permettant l’entraînement sur des images téléchargées à partir de la plateforme Google Street View.
Dans ce séminaire, nous présentons le problème de la reconnaissance visuelle de lieux (RVL) sous une nouvelle perspective. À cette fin, nous avons collecté une nouvelle base de données (GSV-Cities) qui établit un lien entre la reconnaissance visuelle de lieux et l’apprentissage profond de similarités (Deep Metric Learning). Une telle base de données pourrait être utilisée dans le but d’étudier et de développer de nouvelles fonctions de perte spécifiques au problème de la RVL. Enfin, nous montrons, à travers diverses expériences, comment la reconnaissance visuelle de lieux peut grandement bénéficier des techniques d’apprentissage profond de similarités.
Pour accéder aux enregistrements: http://www2.ift.ulaval.ca/~quimper/Seminaires/