Résumé: Les modèles basés la sémantique distributionnelle tels que GloVE et word2vec utilisent les co-occurrences entre les mots dans des gros corpus en langages naturels. Bien que ces co-occurences démontrent des relations entre les concepts, l’information sur le type de relations qui les relie n’est pas explicitement encodé. Un exemple de type d’erreur et de conséquence sur une tâche est qu’il est parfois difficile de discerner les synonymes des antonymes, ce qui mène à de graves confusions dans des tâches de simplification de texte. Les lexiques sémantiques (qui sont un type de graphe de connaissances), tels que WordNet ou ConceptNet, annotent explicitement les relations qui relient différents concepts sans être suffisants pour pré-entrainer des word embeddings de manière pertinente. Ce séminaire présente quelques enjeux, techniques et applications de l’utilisation des lexiques sémantiques pour augmenter la qualité de représentation des word embedding distributionnels.
Roxane Debruyker
Étudiant au doctorat, membre du GRAAL
Heure: 13h30
Local: PLT-3775