Programme de doctorat
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
SOUTENANCE DE THÈSE
de
Qi Chen
Le jeudi 11 janvier 2024 à 10h
Local 2500, Pavillon Adrien-Pouliot
Lien Zoom:
https://ulaval.zoom.us/j/3056637000?pwd=RGlDK3NNREZjbk5GQ3RGRlQramFHdz09&omn=62113781859
Meeting ID: 305 663 7000
Passcode: XS81Zp
Theoretical Framework for Prior Knowledge Transfer
in Deep Learning
Président
Monsieur Brahim Chaib-draa, Ph.D.
Directeur des programmes gradués
Département d’informatique et de génie logiciel
Université Laval
Examinateurs
Monsieur Mario Marchand, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Université Laval
Madame Audrey Durand, Ph.D. (Examinatrice)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Pascal Germain, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
Université Laval
Monsieur Yongyi Mao, Ph.D. (Examinateur externe)
Dept. Electrical Engineering and Computer Science
Université d’Ottawa
Le transfert des connaissances préalables joue un rôle crucial dans l’amélioration des performances et de l’efficacité tout en minimisant les coûts dans les méthodes modernes d’apprentissage en profondeur. Cette thèse vise à aborder cet aspect important en développant des cadres théoriques systématiques pour le transfert de connaissances préalables en apprentissage profond.
Premièrement, nous introduisons un cadre théorique unifié reliant les approches de méta-apprentissage conventionnelles et profondes. Nous proposons des bornes dépendantes de l’algorithme et dépendantes des données qui garantissent l’efficacité des schémas de formation conjoints et alternés en méta-apprentissage. Nous analysons également l’impact des “méta-train-validation splits” sur les approches de formation alternées et fournissons une bound non vide avec incohérence de gradient liée à un apprentissage profond en peu de coups.
Par la suite, pour l’adaptation de domaine (DA), la thèse procède à une analyse complète des travaux théoriques antérieurs, visant à aborder leurs limites dans l’alignement de la représentation, le changement de distribution cible et le pseudo-étiquetage. Concrètement, nous présentons des analyses rigoureuses basées sur la théorie de l’information mutuelle pour Multi-source DA (MDA), proposant un algorithme qui effectue un alignement de représentation conjointe avec des pseudo-étiquettes pour atténuer le changement de distribution cible qui surpasse les travaux précédents dans le scénario non supervisé.
Enfin, nous visons à résoudre le dilemme stabilité-plasticité dans le méta-apprentissage continu (CML). Nous sommes les premiers à formuler théoriquement ce problème mélange d’apprentissage statistique et en ligne dans des environnements statiques et changeants. La théorie proposée identifie les facteurs influençant le compromis apprentissage-oubli à deux niveaux dans des environnements changeants. Nous proposons en outre un algorithme qui équilibre le compromis à deux niveaux avec des performances empiriques améliorées.
Dans l’ensemble, cette thèse fournit un cadre théorique unifié pour le méta-apprentissage, aborde les limites de l’adaptation de domaine et aborde le dilemme stabilité-plasticité dans le méta-apprentissage continu. Ses contributions améliorent notre compréhension de ces domaines et ouvrent la voie à un meilleur transfert de connaissances dans l’apprentissage en profondeur.
Abstract
The transfer of prior knowledge plays a crucial role in enhancing performance and efficiency while minimizing costs in modern deep learning methods. This thesis aims to address this important aspect by developing systematic theoretical frameworks for prior knowledge transfer in deep learning.
Firstly, we introduce a unified theoretical framework connecting conventional and deep meta- learning approaches. We propose algorithm-dependent and data-dependent bounds that guarantee the effectiveness of both joint and alternate training schemes in meta-learning. We also analyze the impact of “meta-train-validation splits” on alternating training approaches and provide non-vacuous gradient-incoherence bound for deep few-shot learning.
Subsequently, for Domain Adaptation (DA), the thesis conducts a comprehensive analysis of previous theoretical works, aiming to address their limitations in representation alignment, target shift, and pseudo-labeling. Concretely, we present rigorous analyses based on mutual information theory for Multi-source DA (MDA), proposing an algorithm that conducts joint representation alignment with pseudo labels to mitigate target shift that outperforms previous works in the unsupervised scenario.
Finally, we aim to address the stability-plasticity dilemma in Continual Meta-Learning (CML). We are the first to theoretically formulate this online statistical mixture learning problem in static and shifting environments. The proposed theory identifies factors influencing the bi-level learning-forgetting trade-off in shifting environments. We further propose an algorithm that balances the bi-level trade-off with enhanced empirical performance.
Overall, this thesis provides a unified theoretical framework for meta-learning, addresses limitations in Domain Adaptation, and tackles the stability-plasticity dilemma in Continual Meta-Learning. Its contributions improve our understanding of these areas and pave the way for enhanced knowledge transfer in deep learning.
Note: La présentation sera donnée en anglais.
Bienvenue à tous !