UMR 7320 : Bases, Corpus, Langage

titre: L'intelligence artificielle des textes. Présentation
auteur: Damon Mayaffre, Laurent Vanni
article: L'intelligence artificielle des textes. Des algorithmes à l'interprétation, 15, Honoré Champion, pp.9-14, 2021, Lettres numériques, 978-2-7453-5640-6
annee_publi: 2021
resume: Les arts et les sciences du texte peuvent-ils tirer parti de la puissance nouvelle des machines ? Que peuvent nous apprendre les algorithmes de deep learning sur une œuvre, un auteur, un genre, une époque ? L’Intelligence artificielle peut-elle offrir à l’analyste des parcours de lecture inédits et faire émerger de nouveaux observables textuels comme autant de passages pertinents à interpréter ? En retour enfin, l’expertise linguistique du texte permet-elle d’éclairer le fonctionnement des réseaux de neurones artificiels ? C’est à ces questions ambitieuses que les auteurs de cet ouvrage, linguistiques et informaticiens proposent des réponses.
typdoc: Book sections
Accès au texte intégral et bibtex

titre: L'intelligence artificielle des textes. Des algorithmes à l'interprétation
auteur: Damon Mayaffre, Laurent Vanni
article: Damon Mayaffre; Laurent Vanni. Honoré Champion, 265 p., 2021, Lettres numériques, 9782745356406
annee_publi: 2021
resume: Les arts et les sciences du texte peuvent-ils tirer parti de la puissance nouvelle des machines ? Que peuvent nous apprendre les algorithmes de deep learning sur une œuvre, un auteur, un genre, une époque ? L’Intelligence artificielle peut-elle offrir à l’analyste des parcours de lecture inédits et faire émerger de nouveaux observables textuels comme autant de passages pertinents à interpréter ? En retour enfin, l’expertise linguistique du texte permet-elle d’éclairer le fonctionnement des réseaux de neurones artificiels ? C’est à ces questions ambitieuses que les auteurs de cet ouvrage, linguistiques et informaticiens proposent des réponses.
typdoc: Books
Accès au bibtex

titre: Macron ou le mystère du verbe
auteur: Damon Mayaffre
article: L'Aube, 342 p., 2021, Monde en cours, Jean Viard, 9782815937467
annee_publi: 2021
resume: Le mystère Macron est un mystère du verbe. Ce n’est pas la politique de Macron en elle-même qui intrigue puisqu’elle est relativement convenue dans l’espace européen au début du XXIème siècle, mais ses mots et son discours. Le postulat de cet ouvrage est que la compréhension du macronisme passe par l’étude critique du corpus des textes du candidat en 2016-2017 et du président depuis qu’il est à l’Elysée. 1000 discours ont été rassemblés de de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande pour servir de comparaison, et les 100 plus grands discours de Macron ont été ajoutés : ses vœux aux Français, ses discours devant le Congrès, ses interviews télévisées, ses tribunes dans la presse, ses discours de meeting ou ses allocutions solennelles. Et l’Intelligence artificielle et la logométrie ont appris les tournures et les mots favoris, les propositions originales ou celles au contraire reprises, les emprunts sinon les plagiats, les références revendiquées ou les idéologies cachées, les richesses rhétoriques et les tics de langages, afin de baliser les parcours de lecture de l’analyste. De quels discours Macron s’inspire-t-il le plus ? Ceux de De Gaulle ou ceux de Hollande ? Ceux de Pompidou ou ceux de Sarkozy ? Quelles sont les thématiques favorites de Macron et ses propositions phares ? L’égalité entre les hommes et les femmes, le « travailler plus », l’écologie, la crise sanitaire évidemment, les politiques territoriales ? Quelles sont les vertus et les vices d’un discours parfois performant et performatif, parfois incantatoire ? Et d’abord, Macron tient-il un discours de droite ou un discours de gauche ? Jacobin ou girondin ? Classique ou moderne ? Saint-simonien ou ricœurien ? L’ouvrage se termine par un clin d’œil et une prouesse méthodologique : la génération automatique du discours que le président prononcera fin 2021 ou début 2022 pour annoncer sa candidature à un second mandat à l’Elysée. Dans cet ouvrage, les algorithmes IA ont appris à parler le Macron, sa grammaire, son lexique, sa syntaxe. Dès lors, leur serait-il possible de produire un avatar de discours ou discours numérique pastiche, en tout point ressemblant, pour permettre au président de se faire réélire ?
typdoc: Books
Accès au bibtex

titre: From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture
auteur: Laurent Vanni, Marco Corneli, Damon Mayaffre, Frédéric Precioso
article: 2021
annee_publi: 2021
resume: A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc: Preprints, Working Papers, ...
Accès au texte intégral et bibtex

titre: Les proclamations électorales des députés méditerranéens de 1881 à 2002 : diachronie politique et diatopie
auteur: Magali Guaresi, Damon Mayaffre, Laurent Vanni
article: Jean-Paul Pellegrinetti. Pour une histoire politique de la France méditerranéenne, PUR, pp.231-274, 2021, 9782753581661
annee_publi: 2021
resume: Cette contribution entend traiter la parole politique méditerranéenne en France sur le temps long : 1881-2002. Le corpus étudié rassemble toutes les professions de foi de tous les députés français du pourtour méditerranéen sur plus d'un siècle. Systématiquement traquées, scannées et océrisées dans le Barodet depuis la naissance de la III e République, les professions de foi, premier et deuxième tour, que nous avons rassemblées couvrent 28 législatures de 1881 à 2002, et 12 départements de l'arc méditerranéen des Pyrénées-Orientales à la Corse, de la Lozère aux Bouches-du-Rhône ; elles s'élèvent au nombre de 1523 et représentent 1 613 042 mots. Deux arguments centraux seulement seront discutés dans ce chapitre : la diachronie, ry la diatopie. (1) C’est d’abord le temps, les rythmes, la chronologie du corpus qui seront mis à l’épreuve. Si les trois Républiques semblent devoir scander naturellement l’organisation du corpus, avec un fort soupçon que le régime institutionnel informe les discours, nous établirons une chronologie endogène aux professions de foi étudiées en comparant les 28 législatures. Ce sera alors la dialectique entre permanence et changement, rupture et continuité qui sera travaillée sur un temps politique long de 121 ans. (2) C’est ensuite l’espace, la (dis)continuité territoriale, la géographie qui seront pris en compte. De manière synchronique et sur une longue durée (les trois Républiques), les 12 départements méditerranéens sélectionnés seront comparés. C’est l’identité du discours méditerranéen - unité ou pluralité ? - qui sera alors discutée. Les zones de clivages - littoral/pays intérieur ; est/ouest de part et d’autre du Rhône ; départements urbains/départements ruraux, etc. - seront décrites dans leurs expressions discursives
typdoc: Book sections
Accès au texte intégral et bibtex

titre: Du texte à l'intertexte. Le palimpseste Macron au révélateur de l'Intelligence artificielle
auteur: Damon Mayaffre, Camille Bouzereau, Magali Guaresi, Frédéric Precioso, Laurent Vanni
article: CMLF 2020 - 7ème Congrès mondiale de linguistique française, Jul 2020, Montpellier / Online, France
annee_publi: 2020
resume: L'intertexte est la condition de l'interprétation de tout texte. Cependant, sa matérialisation, son explicitation, son implémentation ont toujours paru difficile pour la linguistique textuelle. Cette contribution propose une matérialisation de l'intertexte au sein de corpus réflexifs numériques, et convoque de manière originale l'intelligence artificielle (deep learning, modèle convolutionnel) et la logométrie pour explorer de manière systématique l'intertexte ainsi matérialisé. Pour cette étude, nous postulons que le corpus élyséen depuis 1958 constitue l'intertexte des discours d'Emmanuel Macron, dans lequel le président puise de manière consciente ou inavouée pour construire ses discours. A titre d'exemple, nous mettons ainsi au jour automatiquement les empreintes grammaticales de Giscard dans le discours de Macron, et les emprunts lexicaux que le nouveau président concède à de Gaulle.
typdoc: Conference papers
Accès au texte intégral et bibtex

titre: Hyperdeep : deep learning descriptif pour l'analyse de données textuelles
auteur: Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article: JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi: 2020
resume: Depuis peu, les outils d'aide à l'interprétation des résultats du deep learning font leur apparition (LIME, LSTMVIS, TDS). Dans cette communication nous proposons d'aller plus loin en allant chercher l'information cachée au plus profond des couches intermédiaires du deep learning grâce à un nouvel outil. Hyperdeep permet d'une part de prédire l’appartenance d’un texte et d’en apprécier les emprunts à différents styles ou auteurs et d’autre part, par déconvolution, d'analyser les saillances du texte afin d’en faire remonter les marqueurs linguistiques appris par le réseau. Cette information d’un genre nouveau est rassemblée et mise en valeur dans un nouvel outil mêlant visualisations graphiques et texte dynamique. Son utilisation est accompagnée d’une intégration complète dans la plateforme Hyperbase Web qui propose l’environnement adéquate et un point de départ naturel pour toute étude mêlant deep learning et statistiques du texte.
typdoc: Conference papers
Accès au texte intégral et bibtex

titre: Objectiver l'intertexte ? Emmanuel Macron, deep learning et statistique textuelle
auteur: Damon Mayaffre, Laurent Vanni
article: JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi: 2020
resume: Cette contribution propose un parcours méthodologique susceptible d’objectiver l’intertexte ; l’intertexte politique des discours du président français Emmanuel Macron en l’occurrence.Le deep learning (modèle convolutionnel) est d’abord utilisé pour « apprendre » (taux d’accuracy satisfaisant de 92,3%) le discours présidentiel français depuis 1958 : les discours de de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande sont alors considérés comme l’intertexte potentiel des discours de Macron.Ensuite, les textes de Macron – inconnus jusqu’ici du système – sont versés dans le modèle et nous forçons la machine à attribuer les passages de Macron à l’un de ses prédécesseurs en fonction de leur composition linguistique. Enfin, l’algorithme extrait et décrit les passages et les unités linguistiques (wTDS, spécificités lexicales, cooccurrences, étiquettes morpho-syntaxiques) de Macron interprétées par la machine comme ressemblant à celles de de Gaulle ou Sarkozy, à celles de Mitterrand ou de Hollande.Le discours de Macron est traversé, de manière explicite parfois, de manière implicite le plus souvent, par les discours de ses prédécesseurs – phénomène que l’on appellera « intertextualité » – et l’Intelligence artificielle et la statistique textuelle peuvent repérer les phénomènes d’emprunt, d’imitation voire de plagiat.
typdoc: Conference papers
Accès au texte intégral et bibtex

titre: Ces mots que Macron emprunte à Sarkozy. Discours et intelligence artificielle
auteur: Damon Mayaffre, Magali Guaresi, Laurent Vanni
article: Corpus, 2020, 21
annee_publi: 2020
resume: La logométrie et l’Intelligence artificielle (deep learning) appliquées aux textes politiques permettent de repérer dans le discours d’Emmanuel Macron les emprunts linguistiques qu’il contracte auprès de ses prédécesseurs à l’Elysée (de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande). Les emprunts les plus importants, lexicaux autour de la valeur travail et énonciatifs autour de l’exhibition du « je » et du « je veux », concernent statistiquement Nicolas Sarkozy.
typdoc: Journal articles
Accès au texte intégral et bibtex

titre: Key Passages : From statistics to Deep Learning
auteur: Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article: Domenica Fioredistella Iezzi; Damon Mayaffre; Michelangelo Misuraca. Text Analytics. Advances and Challenges, Springer, pp.41-54, 2020, 978-3-030-52679-5. ⟨10.1007/978-3-030-52680-1_4⟩
annee_publi: 2020
resume: This contribution compares statistical analysis and deep learning approaches to textual data. The extraction of "key passages" using statitics and deep learning is implemented using the Hyperbase sofware.
typdoc: Book sections
Accès au bibtex

UMR 7320 : Bases, Corpus, Langage

Menu

Supervisory authorities

Our partners

Search

Damon Mayaffre

CV

Site personnel

Latest publications