Résumé:
Dans ce séminaire, nous présentons tout d’abord un nouvel ensemble de données Data-to-Text francophone pour la génération automatique de contenu textuel dans le domaine juridique, Plum2Text. Ce nouvel ensemble de données a des entrées et sorties qui sont uniques en soi ; du côté de la table (data), les valeurs contiennent de longs énoncés textuels, et du côté du texte (text), on retrouve souvent une paraphrase des valeurs du tableau. Nous décrivons la manière dont nous avons conçu les annotations tables-textes en introduisant un outil d’annotation et une méthodologie spécifique à la tâche de génération de langage naturel « Data-to-Text ».
Nous présentons ensuite une nouvelle métrique d’évaluation utilisant la recherche d’informations (DEIR), qui est mieux adaptée que les métriques introduites précédemment lorsque les tables contiennent du texte pouvant être associé à de multiples références. Cette métrique constitue notre principale contribution.
Nous menons également des expériences en utilisant un modèle de génération de référence sur notre ensemble de données et évaluons sa performance avec notre métrique, qui démontre la nécessité d’une architecture spécifique étant donné la nature de l’ensemble de données que nous introduisons, surtout lorsque les ressources sont limitées.
Date: 29 janvier 2021, 13h30
Lien Zoom: https://tinyurl.com/y3np3zws