Accueil > Recherche > Thématiques > Réseaux et structures textuelles

Réseaux et structures textuelles

Dans le prolongement et le dépassement des travaux de l’équipe qui ont établi la cooccurrence simple comme molécule sémantique élémentaire, la cooccurrence généralisée comme facteur de textualité et les motifs comme éléments structurants des discours, l’équipe se propose d’analyser lors du prochain contrat les réseaux (formels, lexicaux ou grammaticaux) jacents ou sous-jacents des textes.
Les corpus textuels numériques sont théorisés comme des objets dotés d’une ou de plusieurs structures réticulaires, locales comme globales, dont le traitement statistique doit rendre compte ; particulièrement, comme l’objectif du quinquennal passé était le passage d’une statistique occurrentielle à une statistique cooccurrentielle, l’objectif est ici de passer du schéma d’urne traditionnel (dans lequel les unités linguistiques sont indépendantes) au traitement des connexités textuelles (selon lesquelles les unités linguistiques sont inter-reliées).
Les développements logiciels que l’équipe propose implémentent cette vision du texte (traitements et graphes de cooccurrences complexes ; graphes connexes ; réseaux de neurones) et doivent permettre de traiter de manière automatique et semi-automatique les corpus dans une perspective typologique (classer et caractériser les textes selon leur(s) structure(s) réticulaire(s)). Des outils d’analyse textométrique autononomes du logiciel HYPERBASE seront mis à disposition sur le web selon les standards Web 2.0 et la logique open access (outil d’analyse factorielle des correspondances, outil d’analyse arborée, outil de visualisation cooccurrentielle, outils deep learning). Les supports calcul et serveur seront assurés au niveau national par la TGIR Huma-Num et l’Equipex Outils et Ressources pour un Traitement Optimisé de la LANGue (ORTOLANG) et au niveau local par la Maison de la Modélisation, de la Simulation et des Interactions de l’IDEX UCAJEDI ; cette organisation se mettra en place dès l’hiver 2016-2017.
Les résultats linguistiques de l’équipe en matière de description et de modélisation des textes-réseaux, que ce soit dans le domaine des textes politiques, scientifiques et littéraires ou sur de nouveaux corpus CMC tel Wikipédia (cf. infra), seront réinvestis dans un double dialogue interdisciplinaire. Au sein du laboratoire d’abord par (a) le dialogue entamé avec les psychologues cognitivistes travaillant sur les associations sémantiques : l’hypothèse est que les structures linguistiques élémentaires qui font réseaux dans les textes et que la statistique textuelle peut mettre au jour constituent par leur récurrence des candidats privilégiés, quoique complexes, aux phénomènes d’amorçage (priming) et (b) l’axe inter-équipe Nouvelles textualités : statistique, pragmatique, énonciation avec l’équipe Enonciation. Au sein de l’IDEX ensuite, les collaborations avec I3S ici aussi entamées, et des Académies 1 et 2 doivent nous permettre, au plus profond de la réticularité textuelle, de révéler l’architecture profonde des textes et des corpus (deep learning) à l’instar de la reconnaissance automatique des images.