Programme de Doctorat en informatique
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
Présentation orale de soutenance de thèse de doctorat
De
Gaël Letarte
Le vendredi 28 avril 2023 à 9h30
Local 2750, Pavillon Adrien-Pouliot
PAC-Bayesian Representation Learning
Président du jury
Monsieur Brahim Chaib-draa, Ph.D.
Directeur des programmes gradués
Département d’informatique et de génie logiciel
Université Laval
Examinateurs
Monsieur Pascal Germain, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Mario Marchand, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Claude-Guy Quimper, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Guillaume Rabusseau, Ph.D. (Examinateur externe)
Département d’informatique et de recherche opérationnelle
Université de Montréal
En apprentissage automatique, des algorithmes sont utilisés pour apprendre des modèles mathématiques à partir de données recueillies afin de résoudre une tâche. Trouver une représentation appropriée pour décrire les données d’entrée est une étape essentielle pour obtenir un résultat favorable. Initialement, les données d’un problème spécifique étaient représentées par des attributs élaborés manuellement dans le cadre d’un processus long et ardu. Cette étape a été révolutionnée avec l’avènement de l’apprentissage de représentations, un ensemble de techniques permettant de construire automatiquement une représentation pour une tâche donnée. En pratique, les succès de l’apprentissage de représentations ont conduit à des percées remarquables dans divers domaines, notamment grâce aux méthodes d’apprentissage profond des dernières années. Cependant, ces réalisations empiriques manquent souvent d’analyse théorique solide pour fournir des garanties statistiques et une compréhension poussée. La théorie de l’apprentissage statistique, telle que la théorie PAC-Bayésienne, est un outil puissant pour étudier les algorithmes d’apprentissage automatique et les performances de généralisation des modèles. La théorie PAC-Bayésienne exprime des garanties de généralisation sur des prédicteurs qui sont construits comme une agrégation de plusieurs prédicteurs plus simples.
Dans ce travail, nous nous concentrons sur l’utilisation de la théorie PAC-Bayésienne pour développer de nouvelles techniques d’apprentissage de représentations ayant des propriétés intéressantes. Tout d’abord, nous explorons l’apprentissage par noyau en nous appuyant sur la méthode des attributs aléatoires de Fourier interprétée comme un vote de majorité et analysée dans le cadre PAC-Bayésien. Nous proposons deux approches d’apprentissage : un algorithme d’alignement de noyaux et un apprentissage par mesure de similarité basée sur des points de repère. Ensuite, nous adaptons nos travaux d’apprentissage par noyau à un cadre non supervisé en utilisant des données non étiquetées avec des informations de similarité afin d’apprendre des représentations pertinentes. Finalement, nous analysons les réseaux de neurones profonds avec activation binaire en utilisant la théorie PAC-Bayésienne. Nous développons une approche pour apprendre de tels réseaux et nous obtenons des garanties de généralisation non triviales pour nos modèles.
Abstract
In machine learning, algorithms are used to learn mathematical models from gathered data to solve a task. Finding a suitable representation to describe the input data is an essential step towards a favorable outcome. Originally, hand-crafted features were designed in a time-consuming process to represent data for a specific problem. This was revolutionized with the advent of representation learning, which is a set of techniques to automatically build a representation for a given task. The practical successes of representation learning led to remarkable breakthroughs in various domains, notably driven by deep learning methods in recent years. However, those empirical achievements often lack a sound theoretical analysis to provide statistical guarantees and in-depth insights. A powerful tool to study machine learning algorithms and the generalization performance of models is statistical learning theory, such as the PAC-Bayesian theory. PAC-Bayes express generalization guarantees on predictors that are built as an aggregation of multiple simpler predictors.
In this work, we focus on leveraging the PAC-Bayesian theory to develop novel representation learning techniques with advantageous properties. First, we explore kernel learning by building upon the kernel random Fourier features method interpreted as a majority vote and analyzed in the PAC-Bayesian framework. We propose two learning approaches: a kernel alignment algorithm and a landmarks-based similarity measure learning. Then, we adapt our kernel learning work for an unsupervised setting using unlabeled data with similarity information to learn relevant representations. Finally, we analyze deep neural networks with binary activation using the PAC-Bayesian theory. We develop a framework to train such networks, and we obtain nonvacuous generalization bounds for our approach.
Bienvenue à tous !
Note: La présentation sera donnée en français.