UMR 7320 : Bases, Corpus, Langage

Un des axes de l’équipe lors de la dernière vague a proposé des modèles statistiques et convolutionnels pour traiter des textes ; ce travail a fait l’objet de nombreuses publications déposées sur HAL et d’un ouvrage collectif paru chez Honoré Champion en 2021 : L’intelligence artificielle des textes. Des algorithmes à l’interprétation.

Dans le prolongement et le dépassement de ces travaux, l’équipe se propose d’étendre la réflexion dans deux directions. D’une part, développer des modèles complémentaires aux modèles convolutionnels jusqu’ici envisagés ; modèle récurrents susceptibles de prendre en considération l’axe syntagmatique ou la mémoire des unités textuelles sur la chaîne. Nos premières expériences indiquent que les modèles basés sur les mécanismes de self-attention seront nécessaires puisque les processus de lecture et d’écriture, ou encore les processus interprétatifs par l’analyste, ne fonctionnent pas seulement de gauche à droite (par convolution) mais dans les deux sens en prenant en compte les dépendances à long terme entre les mots (lecture récursive possible, reprise et ratures des manuscrits, réinterprétation au fil de l’avancement du texte, etc). D’autre part, les méthodes proposées autant que la modélisation de la textualité doivent nous permettre d’objectiver l’intertextualité. Sur les vastes corpus que nous possédons, un texte-palimpeste doit révéler dans sa profondeur (deep) les emprunts et les empreintes, les échos voire les plagiats. La classification puis la description linguistique multichannel (formes, lemmes, morphosyntaxe, syntaxe) concernent ainsi non seulement les textes, les auteurs ou les genres discursifs mais de manière interne au texte les paragraphes ou les séquences possiblement inspirés.

Menu

Supervisory authorities

Our partners

Search

Deep learning, texte et intertextualité