Home > Education > Doctorat > Thèses en cours > Dans la profondeur des corpus. Vers l’intelligibilité de l’intertexte par le Deep Learning.

Hadi Mahmoudi [2022 - ]

Dans la profondeur des corpus. Vers l’intelligibilité de l’intertexte par le Deep Learning.

PhD director(s): Damon Mayaffre et Laurent Vanni

Mots clés : Intertextualité, intertexte, cotexte, corpus, synapse, passage, motif, linguistique, deep learning, intelligence artificielle, zone de pertinence, objectivation, trace, TAL, NLP
Résumé : L’intertextualité désigne toute similitude verbale ou sémantique au sein du système littéraire, allant de la citation directe aux similitudes topiques (Kristeva, 1980 ; Juvan, 2009). Dès lors, la typologie des apparences possibles de l’intertextualité semble contenir en germe des éléments complexes que les études linguistes peinent à épuiser.
En dehors du parcours interprétatif décrit notamment par François Rastier, qui s’appuie sur le cercle herméneutique et des analyses qualitatives, les outils les plus utilisés aujourd’hui pour la détection de l’intertextualité sont basés sur l’appariement lexical de mots ou de phrases répétés (Coffee et al., 2012, 2013 ; Heslin, 2019), l’utilisation de l’alignement de séquences (Chaudhuri et al., 2015 ; Chaudhuri et Dexter, 2017) et l’appariement sémantique (Scheirer et al., 2016).
Un signe linguistique est porteur de sens, mais il ne l’est pas lorsqu’il est isolé. Par extension, un texte hors de son contexte n’a pas de sens et le global détermine le local. Ainsi, dans ma thèse, je me propose d’étudier non seulement la textualité mais l’intertextualité au sein de corpus bien formés. Trois corpus de genres différents seront mis à l’épreuve : corpus politique, corpus littéraire et corpus médiatique.
L’enjeu de ma thèse est d’objectiver l’intertextualité par des méthodes plus dures que la lecture intuitive. Je convoquerai l’intelligence artificielle et les algorithmes d’apprentissage profond (Deep Learning) pour étudier le texte comme l’empirie où se trouvent les traces de l’intertexte. Ces algorithmes de type convolutionnel ou transformer traitent en parallèle des formes, les lemmes et les codes morpho-syntaxiques. Au sein du corpus d’apprentissage, qui représente par postulat l’intertexte des textes qui le composent, un indice d’attention révèle les unités et les motifs du texte B au sein du texte A.
En utilisant l’apprentissage profond, le linguiste est ainsi censé trouver les corrélations possibles entre les unités qui construisent le texte, et d’identifier les cotextes inspirés d’autres textes du corpus. Je considérerai le texte non seulement comme une combinaison de mots et de phrases, mais comme un tissage de codes grammaticaux, de lexique, de passages, de molécules sémiques, etc. Je vise à objectiver les synapses, à la fois linguistique et informatique, qui tissent les unités textuelles et font apparaître des zones de pertinences. De cette méthode surgit une classification des cotextes, une objectivation de l’intertexte et la description de traces ou de motifs structurant de l’(inter)textualité.

published by Damon Mayaffre - updated on