Accueil > Formation > Doctorat > Thèses soutenues > De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Laurent Vanni

De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Sous la direction de Damon Mayaffre & Frédéric Precioso

Thèse soutenue le 10/12/2021.

Au croisement de la statistique textuelle, de l’analyse automatique des langues et du deep learning, cette thèse propose une méthodologie nouvelle pour l’analyse des textes. L’hypothèse de départ repose sur l’architecture des réseaux de neurones et leur capacité à extraire automatiquement l’information contenue dans un texte. La précision des modèles convolutionnels pour la classification de textes souligne l’importance des marqueurs linguistiques identifiés. Pour rendre accessible aux linguistes cette information d’un genre nouveau nous développons un protocole d’analyse qui combine l’approche informatique avec l’approche linguistique. Plus particulièrement : 1) La deconvolution (Zeiler et Fergus 2014), procédé algorithmique utilisé dans l’analyse d’images, est appliquée aux textes pour pouvoir décoder la représentation des mots engendrés par le réseau de neurones. Plus généralement nous nous intéressons à l’ensemble des couches d’un modèle profond pour comprendre et transmettre aux linguistes la chaine de traitements qui existe entre les données brutes (le texte) en entrée du réseau et la prédiction en sortie du réseau (classification). Une nouvelle mesure est proposée pour rendre compte du poids des mots dans un modèle profond : le Text Deconvolution Saliency (TDS). 2) Les motifs linguistiques fortement théorisés par (Mellet et Longrée 2009) accompagnent notre raisonnement sur les réseaux de neurones. Leur nature nous pousse à concevoir des architectures profondes capables de considérer le texte comme un objet complexe et multidimensionnel. Les motifs nous conduisent à entrevoir des passages-clés à la sortie d’une déconvolution et des motifs profonds lorsque le modèle utilise plusieurs représentations des mots (forme graphique, catégorie grammaticale, lemme). Ce lien que nous tentons de créer entre observations empiriques (TDS) et théories linguistiques ouvre des voies nouvelles d’interprétation des textes. Les cas d’utilisation de notre méthode sont nombreux et font déjà l’objet de plusieurs études que nous verrons tout au long de cette thèse. L’exploration des réseaux de neurones profonds pour la linguistique de corpus n’en est encore qu’à ses débuts, mais les premiers résultats que nous présentons ici sont dès à présent encourageants.

Jury :
Beaudouin Valérie, Professeure Télécom Paris (Rapportrice)
Huet Fabrice, Professeur Université Côte d’Azur (Examinateur)
Longrée Dominique, Professeur Université de Liège (Examinateur)
Mayaffre Damon, Chargé de Recherche, CNRS (Directeur de Thèse)
Précioso Frédéric, Professeur Université Côte d’Azur (Directeur de Thèse)
Sèdes Florence, Professeure, Université Toulouse III (Rapportrice)

publié par Pierre-Aurélien Georges - mis à jour le