Programme de Doctorat en informatique
Département d’informatique et de génie logiciel
Faculté des sciences et de génie
Présentation de la proposition de projet de thèse (IFT-8004)
de
Idrissa Abdou
Le lundi 27 mai 2024 à 13h30
Local PLT-3904
Lien Zoom : https://ulaval.zoom.us/j/69886375758?pwd=dmhRLzRlV2xhZXVnK29HZk94WlNydz09
ID de réunion : 698 8637 5758
Code secret : 649867
« Évaluation automatique de questions ouvertes :
calcul de score par similarité textuelle sémantique »
Membres du comité d’encadrement
Thierry Eude, Ph.D. (Directeur de recherche)
Département d’informatique et de génie logiciel
Bernard Moulin, Ph.D. (Examinateur) Professeur associé UL
Département d’informatique et de génie logiciel
Luc Lamontagne, Ph.D. (Examinateur)
Département d’informatique et de génie logiciel
France Lafleur, Ph.D. (Examinatrice externe)
Département des sciences de l’éducation, UQTR
Résumé
L’évaluation d’épreuves pour la validation des connaissances est un élément incontournable pour tout processus d’apprentissage. Deux principaux modes d’évaluation s’opposent : l’évaluation subjective et l’évaluation automatisée. L’évaluation subjective est taxée de beaucoup de tares telles que l’inconsistance du correcteur humain et le temps qu’elle nécessite. Ces insuffisances de l’évaluation subjective ont encouragé les enseignants à se tourner vers l’évaluation automatisée, surtout pour les grands groupes. Cependant, l’enthousiasme suscité par l’évaluation automatisée s’est vite retrouvé confronté à un problème de mise en œuvre. S’il est aisé de concevoir un outil de correction automatique entièrement satisfaisant pour les questions fermées, il est aussi difficile de le faire pour les questions ouvertes. En effet, le constat est que l’évaluation de celles-ci est complexe à automatiser de manière à être exploitée à grande échelle avec une précision similaire à celle d’un correcteur humain. C’est cette problématique qui nous intéresse.
Nous avons mis en œuvre une première solution en exploitant des modèles de langue pré-entraînés francophones (Camembert et Flaubert). Cela nous a permis d’obtenir nos premiers résultats qui sont plutôt satisfaisants comparativement à notre situation de référence qu’est l’évaluation du correcteur humain. Pour améliorer ceux-ci, nous avons ajusté les modèles ci-dessus avec deux jeux de données : STSB (Semantic Textual Similarity Benchmark) et SITEXSE (SImilarité TEXtuelle SEmantique). Ce dernier est un jeu de données que nous avons créé pour pallier au manque de jeux de données francophones dédiés au calcul de la similarité textuelle sémantique. STSB est un jeu de données multilangue prenant en charge le français.
Les études qui offrent présentement les meilleurs résultats utilisent les LLMs (Large Language Models). Certes, ces résultats sont encourageants mais toutes ces études ont un dénominateur commun : le calcul de la similarité textuelle sémantique est fait en examinant l’intégralité du texte. Nous appelons ces méthodes, des méthodes à couverture globale. Or, pour le cas d’évaluation des réponses des apprenants, le correcteur humain n’a pas besoin de lire l’intégralité de la réponse. Dès qu’il juge que l’apprenant a compris et répondu correctement à la question, il donne la totalité des points et passe à la réponse suivante. Fort de ce constat et pour se rapprocher davantage de l’évaluation du correcteur humain, nous proposons d’aborder le problème en utilisant une approche à couverture partielle, en l’occurrence, les expressions pondérées. Nous appelons expressions pondérées, des expressions suffisamment pertinentes pour équivaloir ensemble à la réponse de référence. Elles sont donc contenues dans cette dernière. Elles sont censées figurer sémantiquement dans la réponse de l’apprenant. Cette présentation s’appesantira sur les pistes que nous proposons pour la mise en œuvre de cette approche.
Note: La présentation sera donnée en français.
Bienvenue à tous !