Atelier sur l'évaluation des modèles génératifs (LLM) et challence d'extraction d'information few-shot

09:15 - 09:25

Introduction - Organisateurs

09:25 - 09:40

MeLaSSS : Metric in the Latent Space on Simplified Sentences - Tanguy Herserant, Tristan Luiggi, Laure Soulier, Vincent Guigue: (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université, CNRS)

09:40 - 09:55

Résumé automatique de textes d'enquêtes judiciaires : retour d'expérience - Thibault Roy (OPPSCIENCE)

09:55 - 10:20

Évaluation de grands modèles de langue pour la classification de concepts et la génération de descriptions dans les études aréales - Xinyi Shen, Damien Nouvel, Peter Stockinger (LaCAS, INalCO)

10:20 - 10:35

Pause café

10:35 - 10:50

Vers une conceptualisation du micro-benchmarking pour l'évaluation des LLM dans un cadre opérationnel - William Babonnaud (Centre recherche et Innovation de Talan)

10:50 - 11:05

Réflexions pour la conception d'un protocole expérimental de détection des biais dans le triage d'urgence hospitalière à l'aide de modèles de langage - Ariel Guerra-Adames, Marta Avalos, Dalia Cohen, Melissa Davids, Dylan Russon, Océane Doremus, Gabrielle Chenais, Eric Tellier, Cédric Gil-Jardiné, Emmanuel Lagarde (Université de Bordeaux, CHU Bordeaux)

11:05 - 11:30

Evaluation de Génération de Texte en Domaine Spécifique, Cas d'étude - Ulysse Oliveri, Guillaume Gadek, Alexandre Dey, Arnaud Delhay-Lorrain, Damien Lolive, Benjamin Costé, Bruno Carron, Claude Fendzi, Bruno Grilheres (IRISA, Airbus)

11:30 - 12:20

Keynote - OpenLLM-France : un projet et une communauté pour développer des LLMs - Jean-Pierre Lorré

12:20 - 14:00

Déjeuner

14:00 - 14:15

Challenge - Introduction et annonce du gagnant

14:15 - 14:25

Challenge - LLM Génératif Zero/Few Shots ou Annotation Manuelle ? Retours d'Expériences du défi EvalLLM 2024 - Maxime Prieur, Sylvain Verdy, Vuth Nakanyseth, Gilles Sérasset, Didier Schwab, Cédric Lopez

14:25 - 14:35

Challenge - Participation d'OppScience au challenge EvalLLM 2024 : une approche hybride applicable en contexte industriel - Frédérik Bilhaut, David Condaminet, Elias LIMOUNI, Ferial YAHIAOUI, Thibault Roy

14:35 - 14:45

Challenge - Évaluation des modèles génératifs dans un contexte few-shot ciblant la reconnaissance des entités nommées - Mustapha BENBARKA

14:50 - 15:00

Challenge - Rapport de Participation de Smart Tribune à EvalLLM2024 : Quelques Usages de LLMs dans l'Univers de la Reconnaissance d'Entités Nommées - Guillaume De Murcia, Ilyas El-Allali, Ludovic Meineri, Laurent Gillard, Samy Lastmann

15:00 - 15:15

Challenge - CEA-List@EvalLLM2024 : prompter un très grand modèle de langue ou affiner un plus petit ? - Robin Armingaud, Arthur Peuvot, Romaric Besançon, Olivier Ferret, Sondes Souihi, Julien Tourille

15:15 - 15:30

Challenge - Kairntech à EvalLLM 2024 - Hugo Lafayette, Kévin Deturck, Olivier Terrier

15:30 - 15:55

Évaluer BLOOM en français - Rachel Bawden, Hatim Bourfoune, Bertrand Cabot, Nathan Cassereau, Pierre Cornette, Marco Naguib, François Yvon, (Inria ALMAnaCH, CNRS IDRIS, CNRS LISN, CentraleSupélec, Université Paris-Saclay)

16:00 - 16:15

Pause café

16:15 - 16:30

Utilisation d'un LLM pour le couplage faible de services web - Kevin Séjourné, Alexandru Lata (Cloud Temple)

16:30 - 16:45

Génération et annotation de corpus pour l'entraînement et l'évaluation de modèles d'extraction de relations : utilisation de bibliothèques de génération de données et de LLMs - Ferial Yahiaoui, Elias Limouni (OPPSCIENCE)

16:45 - 17:10

Les modèles de langage pour la génération de code tiennent-ils leurs promesses ? - Gaël De Chalendar, Pauline Auda , Jérôme Deshayes-Chaussard, Olivier Ferret, Patrick Hède, Hervé Le Borgne, Adolphe Ngosso Ebene, Ansgar Radermacher, Julien Tourille, CEA-LIST

17:10 - 17:25

Évaluation des modèles génératifs (LLMs) concernant la détection des problèmes mentaux en basant sur les réseaux sociaux chinois : le cas de l'humeur dépressif - Jinyuan Xu, Tian Lan, Pierre Magistry, Mathieu Valette (ERTIM)

17:25 - 17:40

Analyse des Métriques de Tokenisation et Leur Corrélation avec les Performances de Traduction Automatique Multilingue - Serge Molina, Josiane Mothe (IRIT)

Programme