Présentation de la proposition de recherche doctorale (IFT-8003)
de
Alexandre Lemire Paquin
Le mercredi 4 octobre 2017 à 10 h
Local 3904, Pavillon Adrien Pouliot
Régularisation au travers de l’optimisation
pour l’apprentissage profond
Membres du jury
Brahim Chaib-draa, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Philippe Giguère, Ph.D. (Co-directeur)
Département d’informatique et de génie logiciel
Mario Marchand, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
Résumé
Cette proposition de projet de recherche doctorale s’intéresse à l’étude de stratégies de régularisation pour les réseaux de neurones profonds. Nous proposons de centrer notre étude sur l’influence des algorithmes d’optimisation sur la performance de généralisation de ces réseaux. À cet effet, nous avons été principalement motivés par les travaux de (Zhang et al., 2017) et (Neyshabur et al., 2015) qui pointent vers une forme de régularisation implicite provenant de l’algorithme d’optimisation. En particulier l’article de Neyshabur et al., (2015) propose de reconsidérer le choix de la géométrie euclidienne pour la descente de gradient.
Dans ce contexte, nous introduisons une approche flexible permettant d’intégrer différents régularisateurs et permettant même des applications à d’autres scénarios comme l’apprentissage multi-tâches et l’adaptation de domaines. Notre approche consiste à choisir localement une norme-P afin de rendre plus difficile le déplacement le long des directions faisant varier davantage le régularisateur.
D’autres choix au niveau de l’algorithme d’optimisation peuvent aussi avoir un impact sur la performance de généralisation des réseaux de neurones profonds. Un exemple important est la taille des lots de données pour entraîner le réseau. En effet, utiliser de plus petits lots de données semble avoir un effet de régularisation (Keskar et al., 2017). L’explication avancée dans (Keskar et al., 2017) pour expliquer ce phénomène est que le bruit plus élevé dans le gradient pourrait permettre d’échapper des minimums locaux ayant de plus fortes courbures au profit de minimums plus plats. Nous discuterons aussi des problèmes ouverts en lien avec cette problématique.
Bienvenue à tous!