Programme de Doctorat en informatique
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
Présentation orale de la proposition de projet de recherche
(IFT-8003)
de
Abdelali Bouyahia
Le lundi 2 décembre 2024 à 9 h
Local 3904, Pavillon Adrien Pouliot
« Invariance and generalization in machine learning »
Membres du comité d’encadrement
Monsieur Mario Marchand, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Monsieur Pascal Germain, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
Madame Audrey Durand (Examinatrice)
Département d’informatique et de génie logiciel et
Département de génie électrique et de génie informatique
Résumé
De nombreuses tâches en apprentissage automatique présentent une invariance par rapport à certains types de transformations des données d’entrée. Un modèle est dit invariant si sa sortie reste inchangée lorsque l’entrée est transformée de manière à être non pertinente pour la tâche. Par exemple, les étiquettes des images demeurent invariantes sous des transformations telles que les translations ou les rotations, et les étiquettes des graphes restent identiques sous des permutations des nœuds. Ces dernières années, diverses techniques et architectures ont été développées pour capter cette invariance, sur la conviction que son intégration dans les modèles améliore la complexité d’échantillonnage et la capacité de généralisation. Toutefois, malgré la diversité des implémentations et des applications pratiques, notre compréhension théorique de l’invariance reste encore limitée.
Cette proposition de recherche vise à étudier les avantages d’incorporer l’invariance en tant que biais inductif dans les modèles d’apprentissage automatique. Dans un premier temps, nous proposons d’étudier les bénéfices de l’augmentation de données pour apprendre des modèles invariants. Nous fournissons une borne théorique basée sur la théorie de l’information et, dans le cadre de travaux futurs, nous chercherons à démontrer comment cette approche améliore la généralisation en réduisant l’information mutuelle entre l’ensemble d’entraînement et les paramètres du modèle appris. Ensuite, nous proposons d’étudier un concept lié à l’invariance : la robustesse des modèles d’apprentissage automatique face à de petites perturbations additives. Plus précisément, nous nous concentrons sur l’algorithme de descente de gradient stochastique appliqué sur des données perturbées par un bruit Gaussien et établissons une borne de généralisation pour les modèles appris à l’aide de cet algorithme. Enfin, nous proposons une approche efficace pour apprendre des prédicteurs invariants en transférant l’apprentissage de l’espace des instances vers son espace associé de distributions de probabilité.
Abstract
Many tasks in machine learning exhibit invariance to certain sets of transformations of the input data. A model is invariant if its output does not change when its input is transformed in ways that are irrelevant to the task. In particular, labels of images remain invariant under translations and rotations, and labels of graphs are identical under nodes permutations. In recent years, various techniques and models have been developed to capture invariance, with the belief that incorporating invariance into models improves sample complexity and generalization capability. However, despite the abundance of implementations and practical applications, our theoretical understanding of invariance remains limited.
This research proposal focuses on studying the benefits of incorporating invariance as an inductive bias in machine learning. First, we propose to investigate the benefits of data augmentation to learn invariant models. We provide an information-theoretic bound and, as future work, aim to demonstrate how this technique improves generalization by reducing the mutual information between the training set and the learned model parameters. Second, we propose to study a concept related to invariance: the robustness of machine learning models to small additive perturbations. Specifically, we focus on stochastic gradient descent algorithm applied on Gaussian perturbed data and derive a generalization bound for models learned using this algorithm. Third, we propose an effective approach for learning invariant predictors by forwarding the learning from the instance space to its associated space of probability distributions.
Note: La présentation sera donnée en français.
Bienvenue à toutes et tous !