Nous discutons ici du jeu de données françaises de référence MEDIA, créé en 2005 et distribuépar ELRA gratuitement pour la recherche académique depuis 2020. Bien que parmi les plus richeset complexes à traiter, ces données sont rarement utilisées au-delà de la communauté scientifiquefrançaise. Pour en faciliter l’usage dans un contexte d’apprentissage profond, une recette complètea été intégrée à SpeechBrain, une boite à outils logicielle dédiée au traitement de la parole par desapproches neuronales, de plus en plus populaire au niveau international. De plus, des corrections ontété apportées aux annotations manuelles, proposées par différents chercheurs ayant régulièrementtravaillé sur ces données. Cette nouvelle version du corpus sera intégrée au catalogue de ELRA. Unnouvel ensemble de données jamais utilisées jusqu’à présent mais collectées durant la création ducorpus original, est également décrit. Enfin, nous abordons des considérations liées à l’évaluation dela tâche MEDIA.