Corpus, textométrie, didactique et langues étrangères
Cet axe concentre ses efforts sur les relations entre corpus, textométrie, didactique et langues étrangères. Il s’agira de poursuivre les travaux sur l’exploration textométrique des niveaux du CECRL (Cadre Européen Commun de Référence pour les Langues) sur la base de corpus de textes issus de manuels et de méthodes d’une part, et de corpus d’apprenants d’autre part (travaux initiés par S. Ruggia lors du dernier contrat, et déjà engagés en FLE et en russe avec le développement et la mise en ligne des plateformes DeepFLE et Russian Wheel), au moyen notamment du deep learning.
Les annotations des corpus d’apprenants seront utilisées dans une perspective nouvelle : le traitement automatique des textes sera appliqué à des fins de repérage des erreurs et de correction des textes d’apprenants. Les recherches préliminaires ont montré la faisabilité d’un tel projet et nous nous focaliserons sur l’élaboration d’un tel outil.
Enfin, sera également développée la perspective d’une linguistique outillée dont les problématiques et questionnements prennent leur source dans des exigences didactiques, avec un focus sur l’argumentation. Quelles constructions, stratégies discursives, les apprenants de L2 ont-ils besoin de maîtriser pour appréhender l’argumentation dans le cadre de certifications en langues telles que le CLES notamment ? Des corpus authentiques, essentiellement des débats télévisés, sont donc statistiquement analysés en termes de phénomènes pragmatico-énonciatifs et de stratégies argumentatives. Les énoncés jugés saillants et transférables sont extraits pour être ensuite proposés aux apprenants suivant les fonctions discursives identifiées en amont.
Plusieurs volets de notre axe 3 sont en cours, à mi et à long terme.
- Poursuivre l’exploration textométrique des niveaux du CECRL (Cadre Européen Commun de Référence pour les Langues) sur la base de corpus de textes issus de manuels de FLE ;
- Continuer la collecte et constitution d’un corpus oral d’apprenants de Français Langue Étrangère afin d’explorer les spécificités textométriques des niveaux du CECRL. Ce corpus constituera le corpus d’apprentissage, base pour l’application du deep learning afin de développer la plateforme DeepFLE avec une nouvelle fonctionnalité : l’évaluation automatique de la production orale en FLE.
- Constituer un corpus oral longitudinal annoté d’apprenants de FLE nouvellement arrivés scolarisés en France (UPE2A). L’objectif de cette étude est d’analyser la progression des apprenants (enfants et adolescents) et de mesurer les effets de plusieurs expérimentations (enseignement explicite et interventions orthopédagogiques) menées au sein des collèges niçois.
- Enrichir (nouveau sous corpus 2026-2027) et exploiter le corpus oral SAM21 en Espagnol Langue Étrangère et trianguler des données (offline) issues du corpus avec des données (online) issues de méthodologies expérimentales (eye-tracking et/ou self paced reading).