Programme de Doctorat en informatique
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
Présentation orale de la proposition de projet de recherche
De
Wissam Akretche
Vendredi 27 mai 2022 à 9h00
Par vidéoconférence (voir lien ci-dessous)
Rejoindre la réunion Zoom :
https://ulaval.zoom.us/j/62188157995?pwd=cHNSZURJcVRYdmxNZXhvVzd6cWMwdz09
« Limites de risque théoriques sur les mélanges interprétables d’experts»
Theoretical risk bounds on interpretable mixtures of experts
Membres du comité d’encadrement
Pr. Mario Marchand, Ph.D., (directeur de recherche)
Département d’informatique et de génie logiciel, Université Laval
Pr. Audrey Durand, Ph.D., (co-directrice)
Département d’informatique et de génie logiciel, Université Laval
Pr. Pascal Germain, Ph.D., (co-directeur)
Département d’informatique et de génie logiciel, Université Laval
Résumé
En apprentissage automatique, le mécanisme d’attention est une technique très connue qui imite l’attention cognitive, en se concentrant sélectivement sur un ensemble d’éléments, jugés pertinents, tout en ignorant les autres. Il a été largement utilisé dans divers domaines d’application, mais son principal succès vient de son application aux tâches de traitement du langage naturel. L’utilisation des représentations cachées, offertes par ces unités, pour expliquer les décisions d’un modèle donné a montré un intérêt croissant. Cependant, les modules les plus couramment utilisés sont généralement très complexes et ne présentent pas ou peu de garanties théoriques. Dans ce projet, nous abordons les mélanges d’experts, qui ont été proposés au début des années 90 et qui constituent les premières briques des mécanismes d’attention. Nous introduisons un cadre général qui est utilisé pour analyser les nombreuses variantes possibles des mélanges d’experts et rendre explicite le rôle du mécanisme d’attention. Dans ce cadre, nous fournissons des garanties théoriques et montrons que la combinaison de modèles interprétables très simples permet de s’attaquer à des tâches complexes tout en conservant l’interprétabilité.
Abstract
In machine learning, the attention mechanism is a very well-known technique that mimics cognitive attention by selectively concentrating on a few relevant things, while ignoring others. It has been widely used in diverse application domains but its main breakthrough and success come from its application in Natural Language Processing (NLP) tasks. The use of the hidden representations, offered by these units, to explain the decisions of a given model has shown an increasing interest. However, the most commonly used modules are generally very complex and do not present any or few theoretical guarantees. In this project, we approach Mixtures of Experts; which were proposed in the early 90s and are the early building blocks of attention mechanisms. We introduce a unifying framework that is used to analyze the many possible variants of Mixtures of Experts and make explicit the role of the attention mechanism. Within this framework, we provide theoretical guarantees and show that the combination of very simple interpretable models enables us to tackle complex tasks while keeping interpretability.
Note: La présentation sera donnée en français.
Bienvenue à tous!