Résumé: Au cours des dernières années, l’apprentissage profond a réussi à établir des performances de pointe dans une grande variété de tâches dans des domaines comme la vision par ordinateur, le traitement du langage naturel et la bioinformatique (LeCun et al., 2015). Comprendre quand et comment ces réseaux généralisent mieux est important pour continuer à améliorer leurs performances. De nombreux travaux à partir principalement de (Neyshabur et al., 2015), (Zhang et al., 2017) et (Keskar et al., 2017) suggèrent une interaction riche entre la régularisation et le processus d’optimisation qui permet d’apprendre les poids du réseau. L’idée est qu’ une forme de biais inductif peut être réalisée implicitement par l’ algorithme d’optimisation. L’algorithme le plus populaire pour entraîner les réseaux de neurones est la descente de gradient stochastique (SGD). Il est donc d’un grand intérêt d’étudier les propriétés de généralisation de cet algorithme. Une approche particulièrement bien adaptée pour étudier directement les algorithmes d’apprentissage est la stabilité algorithmique (Bousquet and Elisseeff, 2002), (Elisseeff et al., 2005). Il est argumenté dans (Nagarajan and Kolter, 2019) que les bornes de généralisation basées sur la convergence uniforme pourraient être condamnées à être essentiellement vides pour les réseaux profonds. Les bornes basées sur la stabilité offrent une alternative possible en essayant de borner directement l’erreur de généralisation de la sortie de l’algorithme. Dans cette présentation, nous allons introduire le(s) concept(s) de stabilité algorithmique ainsi que son application à l’étude de la descente du gradient stochastique. Nous présenterons aussi nos travaux en cours sur le sujet.
Pour visionner les enregistrements: http://www2.ift.ulaval.ca/~quimper/Seminaires/