DEFT 2024

Créé en 2005 à l'image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d'évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée.

Cette nouvelle édition du défi est dans la continuité de l'édition 2023. Elle porte sur la mise en place d'approches permettant de répondre automatiquement à des questionnaires à choix multiples issus d'annales d'examens de pharmacie. Le corpus utilisé, FrenchMedMCQA, se compose de questions fermées en français provenant d'annales d'examens de pharmacie. Chaque question contient : un identifiant, la question, cinq options et l'ensemble des réponse(s) correcte(s). Pour cette nouvelle édition 2024, un nouveau corpus de test a été collecté. Afin de permettre aux équipes d'explorer de nouvelles techniques comme par exemple le Retrieval-Augmented Generation (RAG), le corpus NACHOS et Wikipedia seront également mis à disposition et pourra servir de corpus additionnel. Cette deuxième édition sur le corpus FrenchMedMCQA permettra de comparer les résultats obtenus par les participants de l'année passée et l'étude de l'évolution des méthodes employées.

Dates importantes

Inscription: dès maintenant, jusqu'au début de la phase de test
Diffusion des corpus d'entraînement: 11 mars 2024
Phase de test: 27 mai ⇢ 31 mai 2024
Soumission des articles (date stricte): 14 juin 2024 (première version), 21 juin 2024 (version finale)
Atelier: 8 juillet 2024, pendant la conférence TALN 2024 à Toulouse

Description des tâches

Nous proposons d'utiliser pour ce défi le corpus FrenchMedMCQA. Le corpus FrenchMedMCQA est composé de 3 105 questions fermées, extraites d'annales d'examens de pharmacie en français, contenant pour chacune d'entre elles : un identifiant, la question, cinq options et l'ensemble de réponse(s) correcte(s). Pour cette nouvelle édition 2024, un nouveau corpus de test a été collecté. Nous proposons deux tâches :

Tâche principale : identifier automatiquement l'ensemble des réponses correctes parmi les cinq proposées pour une question donnée. Les systèmes proposaient dans cette tâche devront faire moins de 3 milliards de paramètres.

Tâche annexe : cette tâche est identique à la tâche principale à savoir identifier automatiquement l'ensemble des réponses correctes parmi les cinq proposées pour une question données mais il n'y a aucune limite sur la taille des modèles.

Les métriques utilisées pour évaluer les tâches seront l'Exact Match Ratio (taux de réponses parfaitement juste) et le Hamming Score (taux de réponses justes parmi l'ensemble des réponses et référence). L'Exact Match Ratio sera utilisé comme métrique officielle et permettant ainsi de classer les participants.

Attention seuls les systèmes qui respectent les conditions suivantes sont acceptés : ne pas rechercher sur internet les originaux des données fournies, utiliser des modèles pré-entraînés dont les données d'entraînement sont connues (i.e. ChatGPT, Mistral et autres modèles de ce type ne peuvent pas être utilisés) et utiliser uniquement comme corpus additionnels NACHOS et Wikipedia.

Exemple d'une question extraite depuis le corpus d'apprentissage :

Inscription

L'accès aux données ne sera rendu possible qu'après signature d'un accord d'utilisation des données par l'ensemble des membres de l'équipe. En accédant aux données, les participants sont libres de participer à une ou deux tâches mais s'engagent moralement à participer jusqu'au bout (soumettre des résultats et présenter les résultats pendant l'atelier).

Pour participer au défi merci d'envoyer l'accord d'utilisation des données signé à deft-2024@listes.univ-avignon.fr.

Format des soumissions

Le fichier de sortie doit être au format CSV avec des points-virgules (;) comme séparateurs. Le fichier doit contenir deux colonnes : la première l'identifiant de la question, et la seconde l'ensemble des réponses correctes parmi les cinq proposées. Si plusieurs réponses sont correctes, elles doivent être séparées par un symbole de barre verticale (|).

Exemple de sortie d'un système au format CSV :

5987fa6bffd499eb439c90679d7fbca822d62bc639d1b9c94c68ae20e46f6004;b
6e87c8575bb9327470a27b7b51f7ea797802157bf3b0e985f62b9164a2ec3287;a|e
e0e98b574405e9131352337b65e76ce9c8bee4837790d7ad189f63fc40a70899;a
b0fd1cbf8968b8c825e35f3f085fe176831b8ac4f4fa0de63ee7b5111e063c82;a|b|c|d
2c5fde04eac867475f9fe49f7699cd67ea0e542c932f2d9ea514e6ba4808a43e;a
...

Comités

Comité scientifique

Nathalie Camelin (LIUM, Le Mans Université)
Corinne Fredouille (LIA, Avignon Université)
Pierre-Antoine Gourraud (CHU de Nantes)
Natalia Grabar (STL, CNRS, Université de Lille)
Cyril Grouin (LISN, CNRS, Université Paris-Saclay)
Pierre Jourlin (LIA, Avignon Université)
Solen Quiniou (LS2N, Nantes Université)
Didier Schwab (LIG, Grenoble Alpes Université)
Pierre Zweigenbaum (LISN, CNRS, Université Paris-Saclay)

Comité d'organisation

Richard Dufour (LS2N, Nantes Université)
Benoit Favre (LIS, Aix-Marseille Université)
Mickael Rouvier (LIA, Avignon Université)
Adrien Bazoge (Clinique des données - CHU de Nantes et LS2N, Nantes Université)
Yanis Labrak (LIA, Avignon Université - Zenidoc)