Accueil > Recherche > Contrats & Projets > IDEX (JEDI) - Vidéo Ethnotextes et Ressources Associées (VERA)

IDEX (JEDI) - Vidéo Ethnotextes et Ressources Associées (VERA)


L’équipe de dialectologie du laboratoire BCL a réalisé ces 10 dernières années une centaine d’enquêtes linguistiques de terrain, réparties sur 75 points d’enquête (France méridionale et vallées occitanes du Piémont), avec plus de 120 locuteurs interviewés, soit plus de 60 h de vidéo, majoritairement en occitan mais aussi quelques fois en ligurien, et un total de 58 ethnotextes qui ont ainsi été récoltés. Ces données dialectales recèlent un intérêt scientifique ainsi que patrimonial : des données inédites, précisément géolocalisées, récoltées auprès des derniers locuteurs natifs ; clairement situées sur le terrain de l’oralité et de la diversité linguistique, à l’opposé d’un occitan « standardisé », ou « normatif » que l’on peut retrouver dans nombre de vidéos déjà présentes sur le web.

Pour chaque enregistrement, un certain nombre de ressources associées seront fournies (sous licence LGPL-LR) : métadonnées (aux formats Dublin-Core qualifié et OLAC) avec coordonnées GPS permettant des traitements cartographiques sur les données ; transcriptions en phonétique API ainsi qu’en graphie (format TEI-XML, P5) permettant de rechercher un terme particulier dans le contenu des vidéos ; traduction en français permettant de rendre ces contenus accessibles à tous sans avoir besoin de compétences linguistiques dans tel ou tel dialecte ; textes d’accompagnement (rédigés par des historiens) permettant de resituer le discours dans le contexte de l’époque ; segmentation (minutage phrase par phrase) au format XML permettant un certain nombre d’applications (clic sur une phrase pour écouter ce passage dans la vidéo, possibilité de comparer la prononciation d’une même phrase dans plusieurs dialectes différents, sous-titrage au format WebVTT, etc.) ; et annotations linguistiques (lemmatisation et étiquetage morphosyntaxique) permettant aux linguistes d’étudier la microvariation dialectale.

Toutes ces vidéos et ressources associées seront librement accessibles en ligne sur le web et consultables par 4 canaux : archivage pérenne de toutes les données sur CoCoON ; développement d’une plateforme web participative (afin de proposer aux internautes une interface plus ergonomique et plus adaptée pour consulter et cartographier les données) ; implémentation d’une API REST (permettant d’interroger directement la base de données et d’assurer l’interopérabilité avec des moteurs de recherche spécialisés tels que Edisyn ou le dicod’Òc / vèrb’Òc) ; et mise en ligne des ethnotextes sur la chaîne YouTube™ du THESOC (enregistrements sous licence CC-BY-NC-ND).

Dans la mouvance Open Data, il s’agit in fine d’ouvrir ces données à l’ensemble de la communauté scientifique, mais également aux enseignants et apprenants de langue régionale, et plus généralement au grand public ; avec de nombreuses applications possibles : industries de la langue (intelligences artificielles), linguistique (lexique, phonétique, syntaxe), communication non verbale, histoire, sociologie, ethnologie…