Accueil > Actualités > Soutenances > De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Soutenance de thèse : Laurent VANNI

De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Vendredi 10/12/2021 - Campus Saint Jean d’Angely 2 - Salle 206

De l'analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Résumé

  • Au croisement de la statistique textuelle, de l’analyse automatique des langues et du deep learning, cette thèse propose une méthodologie nouvelle pour l’analyse des textes. L’hypothèse de départ repose sur l’architecture des réseaux de neurones et leur capacité à extraire automatiquement l’information contenue dans un texte. La précision des modèles convolutionnels pour la classification de textes souligne l’importance des marqueurs linguistiques identifiés. Pour rendre accessible aux linguistes cette information d’un genre nouveau nous développons un protocole d’analyse qui combine l’approche informatique avec l’approche linguistique. Plus particulièrement : 1) La deconvolution (Zeiler et Fergus 2014), procédé algorithmique utilisé dans l’analyse d’images, est appliquée aux textes pour pouvoir décoder la représentation des mots engendrés par le réseau de neurones. Plus généralement nous nous intéressons à l’ensemble des couches d’un modèle profond pour comprendre et transmettre aux linguistes la chaine de traitements qui existe entre les données brutes (le texte) en entrée du réseau et la prédiction en sortie du réseau (classification). Une nouvelle mesure est proposée pour rendre compte du poids des mots dans un modèle profond : le Text Deconvolution Saliency (TDS). 2) Les motifs linguistiques fortement théorisés par (Mellet et Longrée 2009) accompagnent notre raisonnement sur les réseaux de neurones. Leur nature nous pousse à concevoir des architectures profondes capables de considérer le texte comme un objet complexe et multidimensionnel. Les motifs nous conduisent à entrevoir des passages-clés à la sortie d’une déconvolution et des motifs profonds lorsque le modèle utilise plusieurs représentations des mots (forme graphique, catégorie grammaticale, lemme). Ce lien que nous tentons de créer entre observations empiriques (TDS) et théories linguistiques ouvre des voies nouvelles d’interprétation des textes. Les cas d’utilisation de notre méthode sont nombreux et font déjà l’objet de plusieurs études que nous verrons tout au long de cette thèse. L’exploration des réseaux de neurones profonds pour la linguistique de corpus n’en est encore qu’à ses débuts, mais les premiers résultats que nous présentons ici sont dès à présent encourageants.

Abstract

  • This thesis presents a new methodology for text analysis which is situated at the intersection of textual statistics, automatic language analysis and deep learning. It draws on the architecture of neural networks and its potential to extract information from texts. The accuracy of convolutional models for text classification depends on the quality of the linguistic markers which are identified. To make these markers accessible to linguists, we implement an algorithm that combines the following computational and linguistic approaches : 1) Deconvolution (Zeiler et Fergus 2014), is an algorithmic process used in image analysis which we apply here to written texts in order to interpret the representations of words which are learned by the neural network. In particular, we analyse each layer of a deep model to understand the mechanisms linking the raw data which forms the input to the network (the text) with the predictions which constitute its output (classification). The aim is to express these connections in ways which are useful to linguists. We propose a new measure to express the relative weight of words in a deep model : Text Deconvolution Saliency (TDS). 2) Our approach also comprises a linguistic theory of textual motifs or patterns developed by (Mellet et Longrée 2009) which informs the design of deep architectures which allow the analysis of texts as complex, multidimensional linguistic objects. The motif theory permits the detection of key passages in the output of deconvolution, and even the identification of deep motifs in cases where the model propose suggests several representations of words (e.g., full-form, part-of-speech, and lemma). The new methodology developed in our research connects empirical observations (TDS) with linguistic analysis in ways which open up new possibilities for the interpretation of texts. A number of studies of the application of this protocol in different contexts have served to test the methodology and will be used to illustrate its effectiveness throughout this doctoral thesis. Although deep neural network interpretation for linguistics analysis is a very new field, the initial results presented here are encouraging, and the thesis concludes with suggestions for further research in this domain.

Jury

- Beaudouin Valérie, Professor Télécom Paris (Reviewer)

- Huet Fabrice, Professor Université Côte d’Azur (Examiner)

- Longrée Dominique, Professor Université de Liège (Examiner)

- Mayaffre Damon, CR, CNRS (PhD advisor)

- Précioso Frédéric, Professor Université Côte d’Azur (PhD advisor)

- Sèdes Florence, Professor Université Toulouse III (Reviewer)

publié par Odile Deangeli - mis à jour le