Accueil > Actualités > Colloques et Journées > Colloque ViGramm

16 Novembre - Campus Saint-Jean-d’Angély 2 - Salle 2A46

Colloque ViGramm

Reinventing linguistic atlases. Old data, current methods, future questions

Visualizing grammars across space and time (ViGramm)

Le projet est porté par Diego Pescarini (BCL, Nice) spécialiste de syntaxe et dialectologie Italo-Romane, en collaboration avec Anne Dagnac (CLLE, Toulouse), spécialiste de syntaxe du français et du picard, et Stella Retali-Medori (LISA, Corte), spécialiste des parlers corses.

Le projet en bref

La grammaire est une connaissance implicite. Elle fait partie de notre patrimoine culturel immatériel, mais elle est aussi le fruit d’une faculté cognitive qui s’est développée au cours de l’évolution biologique. L’étude de la grammaire s’articule donc autour de la dichotomie Nature vs Culture.

Le projet ViGramm vise à modéliser de la variation grammaticale dans les langues romanes. Par le terme langues romanes, il est entendu toutes les variétés linguistiques qui dérivent du latin : les langues officielles comme le français ou le roumain, mais surtout les variétés mineures (les « dialectes ») qui n’ont pas été standardisées ni normées par la grammaire scolaire. Les variétés roman(e)s offrent un terrain d’étude fertile. D’une part elles montrent un ensemble de traits innovants, absents dans leur ancêtre commun (le latin), d’autre part ces caractéristiques varient d’un dialecte à l’autre.

Les questions de recherche qui seront abordées dans le projet sont les suivantes :

  • Quelles sont les variables pertinentes ?
  • Ces variables sont-elles corrélées ?
  • Ces corrélations forment un réseau de clusters. Quelle est la structure de ce réseau ?
  • Ces variables sont-elles distribuées de manière régulière dans l’espace ?
  • La distribution spatiale de ces variables (ou des clusters de variables) est-elle corrélée à des facteurs extralinguistiques ? (ex. barrières politiques, frontières physiques, etc.)

Pour répondre à ces questions, la recherche vise à :

  • collecter un grand nombre de données à partir des sources déjà existantes telles que les atlas linguistiques et les bases de données ;
  • manipuler ces données à travers la statistique et les techniques de visualisation des données pour donner un sens à la variation grammaticale dans son intégralité, sans se focaliser sur des dialectes ou des phénomènes isolés.
  • analyser les données statistiques avec le prisme théorique de la grammaire générative. Le principe théorique qui est à la base de ces recherches est que toutes les différences syntaxiques peuvent être ramenées aux propriétés des éléments fonctionnels tels que les déterminants, les pronoms, les auxiliaires, etc.

Méthodologie

Le projet est basé sur une méthodologie simple, mais innovante. Ces dernières années, beaucoup de projets ont été consacrés à la numérisation des principales sources de données comme les grands atlas papier, qui ont paru au début du XXe siècle. La numérisation avait pour objectif principal la préservation d’ouvrages scientifiques qu’il n’aurait pas été possible de réimprimer en raison de leur taille et la mise à disposition en ligne des données originales sous forme numérique et annotée.

Le projet ViGramm s’inscrit dans une toute autre perspective, qui ne vise pas à préserver la source, mais à la réutiliser à nouveau. Le mot clé est extraction, c’est-à-dire l’opération à travers laquelle les données des atlas sont transformées en métadonnées : des variables numériques qui représentent : a) les propriétés syntaxiques présentes dans chacune des millions de phrases qui forment le corpus ; b) la provenance de chaque item ; c) les coordonnées géographiques de chaque dialecte.

Le protocole a été testé sur un ensemble de phénomènes (la négation et des questions connexes) et sur un échantillon de dialectes italo et gallo-romans. Les données primaires proviennent de l’Atlas Linguistique de la France (ALF), de l’Atlas Italo-Suisse (AIS), de l’Atlas Syntaxique de l’Italie (ASIt), du Thesaurus Occitan (Thesoc).

Les métadonnées sont organisées en fichiers portables (.csv), qui seront pérennisés en libre accès selon les guides de bonnes pratiques de l’infrastructure Huma-Num. Ces variables numériques se prêtent à de nombreuses formes de réutilisation : de la cartographie numérique à l’analyse statistique.

Science ouverte

Les cartes et les supports visuels issus du projet se prêtent à des activités de diffusion visant à accroître la collaboration entre la communauté scientifique et les communautés de locuteurs. Nous essaierons de diffuser certains des matériaux du projet dans les réseaux sociaux pour accroître l’interaction avec les communautés de locuteurs. En plus des publications scientifiques, les matériaux du projet peuvent être publiés sur un site avec des fiches d’information rédigées par des experts renommés et rendues accessibles au grand public.

Voir en ligne : SOSI

publié par Odile Deangeli - mis à jour le