Résumé: Dans le domaine juridique, de nombreux jugements sont rendus publics et les informations qu’ils contiennent pourraient être réutilisées pour des fins de jurisprudence, d’analyse de risque (financiers ou autre) ou de compilation de statistiques. Cependant, le format non structuré de ces jugements (des textes) représente un frein à l’exploitation des informations pertinentes.
Au cours des derniers mois, nous avons mené une étude sur des documents de la cour des petites créances comportant des jugements favorables ou non par rapport à une personne ou compagnie. Plusieurs méthodes existent pour arriver à extraire l’information de tels documents et je vous en présenterai une qui utilise un corpus annoté, soit une méthode supervisée. Nous avons mis en place une manière rapide et efficace pour construire un modèle d’extraction d’information en partant de zéro, c.-à-d. sans corpus annoté. Je présenterai d’abord 2 modèles d’extraction d’information, soient un modèle d’extraction d’entités nommées (Named Entity Recognition) et un modèle d’extraction de relations (Relation Extraction). Ces deux modèles sont mis en oeuvre par des réseaux de neurones et constitueront l’objet principal de cette présentation. Je présenterai ensuite un outil d’annotation fréquemment utilisé dans la communauté du traitement automatique de la langue naturelle (TALN ou NLP en anglais) pour ajouter efficacement les annotations à notre corpus. J’ai modifié cette librairie pour utiliser mes modèles d’extraction et ainsi itérer rapidement sur le processus d’annotation/entraînement de modèle ce qui accélère de beaucoup la construction d’un corpus de texte annoté. Je conclurai par la présentation des résultats expérimentaux que nous avons obtenus dans le cadre de ces travaux.
http://www2.ift.ulaval.ca/~quimper/Seminaires/