Les grands modèles de langue (LLM) génératifs se démocratisent et s’intègrent dans des chaines de traîtements de plus en plus complexes, offrant une grande variété de cas d’usage. L’évaluation de ces objets protéiformes pose cependant des problèmes sérieux : les benchmarks existants sont largement anglo-centrés (aussi bien en matière de langue que de culture), parfois eux-mêmes issus de LLM anglo-centrés, et ne couvrent pas forcément l’ensemble des usages. La question de leur évaluation se pose en particulier pour le français et plus généralement pour des langues autres que l’anglais.
Présentation de l'atelier
Dans cet atelier, nous proposons de réunir les chercheuses et chercheurs, industriels et académiques, confrontés aux multiples facettes de l’évaluation des LLM sur des langues autres que l’anglais. Nous sollicitons des propositions de communication sur tous les travaux relevant de ce périmètre.
Une présentation invitée sera donnée par J-P Lorré sur "OpenLLM-France : un projet et une communauté pour développer des LLMs multimodaux souverains"
Dans le cadre de l’atelier, nous proposons un challenge d’évaluation de LLM par la tâche. Il s’agit d’extraction d’information en français dans un contexte few-shot où seuls seront donnés le guide d’annotation décrivant les classes d’entités et leurs conventions d’annotation et quelques documents annotés.