Vendredi 5 juillet 2024

Evaluation automatique de questions ouvertes : calcul de score par similarité textuelle sémantique
Idrissa Abdou
Doctorant à la Chaire de leadearship en enseignement à distance en matière d’informatique et de génie logiciel

Heure: 13h30
Local: PLT 2341

Résumé: L’évaluation d’épreuves pour la validation des connaissances est un élément incontournable pour tout processus d’apprentissage. Deux principaux modes d’évaluation s’opposent : l’évaluation subjective et l’évaluation automatisée. L’évaluation subjective est taxée de beaucoup de tares telles que l’inconsistance du correcteur humain et le temps qu’elle nécessite. Ces insuffisances de l’évaluation subjective ont encouragé les enseignants à se tourner vers l’évaluation automatisée, surtout pour les grands groupes. Cependant, l’enthousiasme suscité par l’évaluation automatisée s’est vite retrouvé confronté à un problème de mise en oeuvre. S’il est aisé de concevoir un outil de correction automatique entièrement satisfaisant pour les questions fermées, il est aussi difficile de le faire pour les questions ouvertes. En effet, le constat est que l’évaluation de celles-ci est complexe à automatiser de manière à être exploitée à grande échelle avec une précision similaire à celle d’un correcteur humain. C’est cette problématique qui nous intéresse.

Nous avons mis en oeuvre une première solution en exploitant des modèles de langue pré-entraînés francophones (Camembert et Flaubert). Cela nous a permis d’obtenir nos premiers résultats qui sont plutôt satisfaisants comparativement à notre situation de référence qu’est l’évaluation du correcteur humain. Pour améliorer ceux-ci, nous avons ajusté les modèles ci-dessus avec deux jeux de données : STSB (Semantic Textual Similarity Benchmark) et SITEXSE (SImilarité TEXtuelle SEmantique). Ce dernier est un jeu de données que nous avons créé pour pallier au manque de jeux de données francophones dédiés au calcul de la similarité textuelle sémantique. STSB est un jeu de données multilangue prenant en charge le français.

Les études qui offrent présentement les meilleurs résultats utilisent les LLMs (Large Language Models). Certes, ces résultats sont encourageants mais toutes ces études ont un dénominateur commun : le calcul de la similarité textuelle sémantique est fait en examinant l’intégralité du texte. Nous appelons ces méthodes, des méthodes à couverture globale. Or, pour le cas d’évaluation des réponses des apprenants, le correcteur humain n’a pas besoin de lire l’intégralité de la réponse. Dès qu’il juge que l’apprenant a compris et répondu correctement à la question, il donne la totalité des points et passe à la réponse suivante. Fort de ce constat et pour se rapprocher davantage de l’évaluation du correcteur humain, nous proposons d’aborder le problème en utilisant une approche à couverture partielle, en l’occurrence, les expressions pondérées. Nous appelons expressions pondérées, des expressions suffisamment pertinentes pour équivaloir ensemble à la réponse de référence. Elles sont contenues dans cette dernière. Elles sont censées figurer sémantiquement dans la réponse de l’apprenant. Cette présentation s’appesantira sur les pistes que nous proposons pour la mise en oeuvre de cette approche.