Accueil > Pages Perso > Laurent Vanni

Laurent Vanni

IR -  CNRS

Dernières publicationsHAL

pour l'idHal "lvanni" :

titre
Littérature et intelligence artificielle
auteur
Étienne Brunet, Ludovic Lebart, Laurent Vanni
article
D. Mayaffre, L. Vanni. L'intelligence artificielle des textes, Honoré Champion, pp.73-130, 2021, Lettres Numériques, 9782745356406
annee_publi
2021
resume
De Homère à Shakespeare les questions de paternité littéraire ou de datation passionnent la critique. Or le décryptage de l’ADN résout sans discussion les problèmes de criminalité ou de paternité. L’Intelligence artificielle peut-elle jouer le même rôle dans le déchiffrement des textes? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du deep learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le deep learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est là aussi catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le deep learning. Il s’agit d’abord de contrôler les résultats du deep learning en les confrontant non seulement aux acquis de l’histoire littéraire mais à l’approche classique de la statistique linguistique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Tantôt on évalue la distance intertextuelle à partir des fréquences basses (grâce aux formules convergentes de, Jaccard , Evrard ou Muller), tantôt on s’appuie sur les hautes fréquences en recourant à l’analyse factorielle et à l’analyse arborée. Dans les deux corpus les procédures éprouvées de la lexicométrie confirment l’approche algorithmique du deep learning. On cherche aussi à imiter la démarche du deep learning en appliquant la statistique non pas aux mots individuels mais à des chaînes obtenues par glissement de trois mots adjacents (les triplets) ou bien en séparant, comme fait le deep learning, les textes soumis à l’apprentissage et les textes proposés à la prédiction (ces derniers traités en éléments supplémentaires dans l’analyse factorielle), ou bien en recourant à d’autres méthodes relevant de la technique neuronale (cartes de Kohonen). On vise aussi à expliquer, de l’intérieur, le processus , ici convolutionnel, du deep learning. Par une démarche rétroactive , dite de déconvolution, on s’applique à retrouver les marqueurs qui ont pesé sur les choix et à en relever la trace dans le texte. Mais le but principal est de comprendre et de maîtriser la démarche du deep learning et de la guider dans ses tentatives en s’appuyant sur des procédures plus exploratoires, transparentes, interprétables à chaque étape, avec des résultats visualisés (plans, arbres) ou évalués (zones de confiance bootstrap par exemple). On montre en particulier que l’analyse de correspondance peut obtenir les mêmes résultats que le deep learning, sans se soumettre à la nécessité d’un apprentissage supervisé : en traitant les pages du corpus en vrac, au kilomètre, sans partition explicite des textes.
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture
auteur
Laurent Vanni, Marco Corneli, Damon Mayaffre, Frédéric Precioso
article
2021
annee_publi
2021
resume
A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03142170/file/wTDS_HAL.pdf BibTex
titre
Deep learning et description des textes Architecture méthodologique
auteur
Laurent Vanni, Frédéric Precioso
article
L’intelligence artificielle des textes, Champion, pp.15 - 72, 2021
annee_publi
2021
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Du texte à l'intertexte. Le palimpseste Macron au révélateur de l'Intelligence artificielle
auteur
Damon Mayaffre, Camille Bouzereau, Magali Guaresi, Frédéric Precioso, Laurent Vanni
article
CMLF 2020 - 7ème Congrès mondiale de linguistique française, Jul 2020, Montpellier / Online, France
annee_publi
2020
resume
L'intertexte est la condition de l'interprétation de tout texte. Cependant, sa matérialisation, son explicitation, son implémentation ont toujours paru difficile pour la linguistique textuelle. Cette contribution propose une matérialisation de l'intertexte au sein de corpus réflexifs numériques, et convoque de manière originale l'intelligence artificielle (deep learning, modèle convolutionnel) et la logométrie pour explorer de manière systématique l'intertexte ainsi matérialisé. Pour cette étude, nous postulons que le corpus élyséen depuis 1958 constitue l'intertexte des discours d'Emmanuel Macron, dans lequel le président puise de manière consciente ou inavouée pour construire ses discours. A titre d'exemple, nous mettons ainsi au jour automatiquement les empreintes grammaticales de Giscard dans le discours de Macron, et les emprunts lexicaux que le nouveau président concède à de Gaulle.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02520224/file/CMLF_Intertexte_Mayafffe_et_al_DEF.pdf BibTex
titre
Hyperdeep : deep learning descriptif pour l'analyse de données textuelles
auteur
Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article
JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi
2020
resume
Depuis peu, les outils d'aide à l'interprétation des résultats du deep learning font leur apparition (LIME, LSTMVIS, TDS). Dans cette communication nous proposons d'aller plus loin en allant chercher l'information cachée au plus profond des couches intermédiaires du deep learning grâce à un nouvel outil. Hyperdeep permet d'une part de prédire l’appartenance d’un texte et d’en apprécier les emprunts à différents styles ou auteurs et d’autre part, par déconvolution, d'analyser les saillances du texte afin d’en faire remonter les marqueurs linguistiques appris par le réseau. Cette information d’un genre nouveau est rassemblée et mise en valeur dans un nouvel outil mêlant visualisations graphiques et texte dynamique. Son utilisation est accompagnée d’une intégration complète dans la plateforme Hyperbase Web qui propose l’environnement adéquate et un point de départ naturel pour toute étude mêlant deep learning et statistiques du texte.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02926880/file/jadt2020.pdf BibTex
titre
Objectiver l'intertexte ? Emmanuel Macron, deep learning et statistique textuelle
auteur
Damon Mayaffre, Laurent Vanni
article
JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi
2020
resume
Cette contribution propose un parcours méthodologique susceptible d’objectiver l’intertexte ; l’intertexte politique des discours du président français Emmanuel Macron en l’occurrence.Le deep learning (modèle convolutionnel) est d’abord utilisé pour « apprendre » (taux d’accuracy satisfaisant de 92,3%) le discours présidentiel français depuis 1958 : les discours de de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande sont alors considérés comme l’intertexte potentiel des discours de Macron.Ensuite, les textes de Macron – inconnus jusqu’ici du système – sont versés dans le modèle et nous forçons la machine à attribuer les passages de Macron à l’un de ses prédécesseurs en fonction de leur composition linguistique. Enfin, l’algorithme extrait et décrit les passages et les unités linguistiques (wTDS, spécificités lexicales, cooccurrences, étiquettes morpho-syntaxiques) de Macron interprétées par la machine comme ressemblant à celles de de Gaulle ou Sarkozy, à celles de Mitterrand ou de Hollande.Le discours de Macron est traversé, de manière explicite parfois, de manière implicite le plus souvent, par les discours de ses prédécesseurs – phénomène que l’on appellera « intertextualité » – et l’Intelligence artificielle et la statistique textuelle peuvent repérer les phénomènes d’emprunt, d’imitation voire de plagiat.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02894990/file/Mayaffre_Vanni_jadt2020_Intertexte_DEF.pdf BibTex
titre
Ces mots que Macron emprunte à Sarkozy. Discours et intelligence artificielle
auteur
Damon Mayaffre, Magali Guaresi, Laurent Vanni
article
Corpus, Bases, Corpus, Langage - UMR 7320, 2020
annee_publi
2020
resume
La logométrie et l’Intelligence artificielle (deep learning) appliquées aux textes politiques permettent de repérer dans le discours d’Emmanuel Macron les emprunts linguistiques qu’il contracte auprès de ses prédécesseurs à l’Elysée (de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande). Les emprunts les plus importants, lexicaux autour de la valeur travail et énonciatifs autour de l’exhibition du « je » et du « je veux », concernent statistiquement Nicolas Sarkozy.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02503269/file/corpus-5105.pdf BibTex
titre
Key Passages : From statistics to Deep Learning
auteur
Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article
Domenica Fioredistella Iezzi; Damon Mayaffre; Michelangelo Misuraca. Text Analytics. Advances and Challenges, Springer, pp.41-54, 2020, 978-3-030-52679-5. ⟨10.1007/978-3-030-52680-1_4⟩
annee_publi
2020
resume
This contribution compares statistical analysis and deep learning approaches to textual data. The extraction of "key passages" using statitics and deep learning is implemented using the Hyperbase sofware.
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Deep learning et authentification des textes
auteur
Étienne Brunet, Laurent Vanni
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2019, Texto! Textes et cultures, Volume XXIV, (n°1), pp.1-34
annee_publi
2019
resume
Résumé. Deep Learning et authentification des textes Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02561039/file/BrunetVanniVersion3.pdf BibTex
titre
Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis
auteur
Laurent Vanni, Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Dominique Longrée, Veeresh Elango, Nazly Santos Buitrago, Juan Gonzales Huesca, Luis Galdo, Carlos Aguilar
article
56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France
annee_publi
2018
resume
In this paper, we propose a new strategy , called Text Deconvolution Saliency (TDS), to visualize linguistic information detected by a CNN for text classification. We extend Deconvolution Networks to text in order to present a new perspective on text analysis to the linguistic community. We empirically demonstrated the efficiency of our Text Decon-volution Saliency on corpora from three different languages: English, French, and Latin. For every tested dataset, our Text Deconvolution Saliency automatically encodes complex linguistic patterns based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01804310/file/acl2018.pdf BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL