Home > Personal Pages > Laurent Vanni

Laurent Vanni

IR -  CNRS

Latest publicationsHAL

pour l'idHal "lvanni" :

titre
DeepFLE : la plateforme pour évaluer le niveau d’un texte selon le CECRL
auteur
Simona Ruggia, Laurent Vanni
article
Dialogues et cultures, Fédération internationale des professeurs de français, A paraître, Dialogues et cultures, pp.235-254
annee_publi
2022
resume
Cette contribution présente la plateforme DeepFLE, un outil conçu pour tous les acteurs du français langue étrangère (FLE), qui est le résultat d’une recherche en cours, dont l’approche interdisciplinaire engage un dialogue entre la didactique du français langue étrangère (FLE), le deep learning et l’analyse des données textuelles (ADT). DeepFLE permet d’évaluer le niveau d’un texte en français selon les échelles du Cadre européen commun de référence pour les langues (CERCL). Plus précisément, cette plateforme propose une analyse à la fois prédictive et descriptive du niveau d’un texte grâce au modèle novateur de deep learning : le Text Deconvolution Saliency (TDS) (Vanni et al. 2018a ; 2018b ; 2021) qui opère une extraction automatique des saillances qui marquent un changement de niveau en distinguant les marqueurs qui contribuent le plus fortement à l’attribution à un niveau.
typdoc
Journal articles
Accès au bibtex
BibTex
titre
Louis Meigret et la réutilisabilité des données
auteur
Cendrine Pagani, Laurent Vanni
article
10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique, Jun 2021, Bordeaux, France
annee_publi
2021
resume
La question de la réutilisation des données est au cœur du projet de la Base Louis Meigret. Au-delà des gestes techniques que suppose la mise à disposition de données réutilisables, c’est un principe adéquat à la singularité de l’œuvre de Louis Meigret. Le projet est né à l’occasion du colloque consacré à cet auteur en 2018 à Nice. Il s’agissait au départ de créer un lieu de référence, destiné à favoriser les échanges entre chercheurs. Les personnes qui travaillent sur Meigret ne se connaissent pas toujours, et pour peu qu’elles évoluent dans des cercles différents, ignorent leurs activités respectives. Au moment du colloque une base venait d’être mise en ligne (Bettens 2017), parallèlement, et à peu près à la même époque, Le Tretté faisait l’objet d’une transcription par A. Pelfrêne et B. Colombat (mise en ligne sur le site du CTLF). Ce doublon, outre la fragmentation qu’il manifeste, rappelait un déséquilibre : la surexposition de certaines œuvres du grammairien, notamment Le Tretté de la grammere françoeze, et le relatif oubli de l’œuvre traduite. En outre, les œuvres linguistiques – et particulièrement Le Tretté - ont elles-mêmes été enfermées dans des modes de lecture qui en occultent bien des dimensions. Compte tenu de la grande diversité des travaux suscités par Louis Meigret (histoire de la langue, histoire des idées, histoire des techniques, histoire du livre), ce que devait offrir cette base à l’usager était à définir (ou peut-être à ne pas définir). D’emblée donc s’est posée la question de la réutilisation : réutilisation des données existantes (la base conçue par O. Bettens), réutilisation de celles qu’on envisageait de mettre à disposition des futurs usagers (l’intégralité de l’œuvre de Louis Meigret, textes personnels et traductions). Le projet était a minima de rassembler l’ensemble des textes, de faciliter la circulation d’un texte à l’autre, et de faire jaillir la cohérence quasiment organique de l’œuvre de Louis Meigret. Il s’agissait de permettre une appréhension globale de l’œuvre, tout en conservant la possibilité de revenir à la spécificité de chaque texte, sans l’assigner a priori à un genre (traité sur la langue / traduction), sans conditionner sa lecture par un outillage envahissant qui le rendrait « illisible » sous d’autres approches. Toutes les recommandations favorisant la réutilisation des données rejoignent donc la conviction que pour mieux connaître l’œuvre de Louis Meigret, l’essentiel réside dans la liberté laissée à l’usager (qu’il soit chercheur ou lecteur non expert) de choisir son mode de lecture (choix du support, choix des outils de visualisation et d’exploration), de réinventer le texte en modulant les points de vue. La base est à l’heure actuelle dans une phase intermédiaire : elle est utilisable mais en train de se faire. Utilisable parce que les traductions ont été numérisées (pour celles qui ne l’étaient pas), transcrites et mises en ligne sur le site d’Hyperbase, avec toutes les fonctionnalités que permet cet outil. La matière est disponible mais encore partiellement fragmentée, et pas forcément réutilisable. Il convient de réfléchir à la manière de faire fusionner les deux bases existantes : celle qui rassemble les traductions et celle qui concerne les textes en graphie rénovée. Les deux ensembles ont leur cohérence interne mais cela ne justifie pas une dualité que dément la démarche originale de Meigret. Démarche qui se manifeste de manière exemplaire dans une œuvre comme Le Menteur. Le Menteur est une œuvre bicéphale. Par sa préface, c’est un traité sur l’orthographe. Intégralement composé en graphie rénovée, il appartient à la base conçue par O. Bettens qui rassemble les autres textes de Meigret relatifs à la langue française publiés chez C. Wechel. Conserver les particularités graphiques et ménager un accès au support original est donc crucial. Mais Le Menteur intéresse aussi l’histoire de la traduction : le dialogue de Lucien engage vers d’autres formes de lecture et d’exploration qui peuvent justifier son intégration à la base des traductions, et à d’autres corpus (alignement avec les textes sources et les traductions ultérieures). Enfin reste à définir l’interface qui permettra de répondre aux questions qui ont motivé la création de l’outil tout en restant disponible pour des investigations nouvelles. Un projet d’édition collective sur les traductions de Louis Meigret doit créer les conditions d’un dialogue entre chercheurs d’horizons divers, et permettre à l’usager d’expérimenter l’outil et d’en suggérer des améliorations. On voudrait en somme que l’usager crée la base et puisse la recréer à chaque moment.
typdoc
Conference papers
Accès au bibtex
BibTex
titre
Littérature et intelligence artificielle
auteur
Étienne Brunet, Ludovic Lebart, Laurent Vanni
article
D. Mayaffre, L. Vanni. L'intelligence artificielle des textes, Honoré Champion, pp.73-130, 2021, Lettres Numériques, 9782745356406
annee_publi
2021
resume
De Homère à Shakespeare les questions de paternité littéraire ou de datation passionnent la critique. Or le décryptage de l’ADN résout sans discussion les problèmes de criminalité ou de paternité. L’Intelligence artificielle peut-elle jouer le même rôle dans le déchiffrement des textes? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du deep learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le deep learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est là aussi catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le deep learning. Il s’agit d’abord de contrôler les résultats du deep learning en les confrontant non seulement aux acquis de l’histoire littéraire mais à l’approche classique de la statistique linguistique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Tantôt on évalue la distance intertextuelle à partir des fréquences basses (grâce aux formules convergentes de, Jaccard , Evrard ou Muller), tantôt on s’appuie sur les hautes fréquences en recourant à l’analyse factorielle et à l’analyse arborée. Dans les deux corpus les procédures éprouvées de la lexicométrie confirment l’approche algorithmique du deep learning. On cherche aussi à imiter la démarche du deep learning en appliquant la statistique non pas aux mots individuels mais à des chaînes obtenues par glissement de trois mots adjacents (les triplets) ou bien en séparant, comme fait le deep learning, les textes soumis à l’apprentissage et les textes proposés à la prédiction (ces derniers traités en éléments supplémentaires dans l’analyse factorielle), ou bien en recourant à d’autres méthodes relevant de la technique neuronale (cartes de Kohonen). On vise aussi à expliquer, de l’intérieur, le processus , ici convolutionnel, du deep learning. Par une démarche rétroactive , dite de déconvolution, on s’applique à retrouver les marqueurs qui ont pesé sur les choix et à en relever la trace dans le texte. Mais le but principal est de comprendre et de maîtriser la démarche du deep learning et de la guider dans ses tentatives en s’appuyant sur des procédures plus exploratoires, transparentes, interprétables à chaque étape, avec des résultats visualisés (plans, arbres) ou évalués (zones de confiance bootstrap par exemple). On montre en particulier que l’analyse de correspondance peut obtenir les mêmes résultats que le deep learning, sans se soumettre à la nécessité d’un apprentissage supervisé : en traitant les pages du corpus en vrac, au kilomètre, sans partition explicite des textes.
typdoc
Book sections
Accès au bibtex
BibTex
titre
L'intelligence artificielle des textes. Présentation
auteur
Damon Mayaffre, Laurent Vanni
article
L'intelligence artificielle des textes. Des algorithmes à l'interprétation, Honoré Champion, pp.9-14, 2021, Lettres numériques, 978-2-7453-5640-6
annee_publi
2021
resume
Les arts et les sciences du texte peuvent-ils tirer parti de la puissance nouvelle des machines ? Que peuvent nous apprendre les algorithmes de deep learning sur une œuvre, un auteur, un genre, une époque ? L’Intelligence artificielle peut-elle offrir à l’analyste des parcours de lecture inédits et faire émerger de nouveaux observables textuels comme autant de passages pertinents à interpréter ? En retour enfin, l’expertise linguistique du texte permet-elle d’éclairer le fonctionnement des réseaux de neurones artificiels ? C’est à ces questions ambitieuses que les auteurs de cet ouvrage, linguistiques et informaticiens proposent des réponses.
typdoc
Book sections
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03344917/file/Pages%20de%20IA_CameraReady_BAT_Def9-2.pdf BibTex
titre
From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture
auteur
Laurent Vanni, Marco Corneli, Damon Mayaffre, Frédéric Precioso
article
2021
annee_publi
2021
resume
A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Preprints, Working Papers, ...
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03142170/file/wTDS_HAL.pdf BibTex
titre
Les proclamations électorales des députés méditerranéens de 1881 à 2002 : diachronie politique et diatopie
auteur
Magali Guaresi, Damon Mayaffre, Laurent Vanni
article
Jean-Paul Pellegrinetti. Pour une histoire politique de la France méditerranéenne, PUR, pp.231-274, 2021, 9782753581661
annee_publi
2021
resume
Cette contribution entend traiter la parole politique méditerranéenne en France sur le temps long : 1881-2002. Le corpus étudié rassemble toutes les professions de foi de tous les députés français du pourtour méditerranéen sur plus d'un siècle. Systématiquement traquées, scannées et océrisées dans le Barodet depuis la naissance de la III e République, les professions de foi, premier et deuxième tour, que nous avons rassemblées couvrent 28 législatures de 1881 à 2002, et 12 départements de l'arc méditerranéen des Pyrénées-Orientales à la Corse, de la Lozère aux Bouches-du-Rhône ; elles s'élèvent au nombre de 1523 et représentent 1 613 042 mots. Deux arguments centraux seulement seront discutés dans ce chapitre : la diachronie, ry la diatopie. (1) C’est d’abord le temps, les rythmes, la chronologie du corpus qui seront mis à l’épreuve. Si les trois Républiques semblent devoir scander naturellement l’organisation du corpus, avec un fort soupçon que le régime institutionnel informe les discours, nous établirons une chronologie endogène aux professions de foi étudiées en comparant les 28 législatures. Ce sera alors la dialectique entre permanence et changement, rupture et continuité qui sera travaillée sur un temps politique long de 121 ans. (2) C’est ensuite l’espace, la (dis)continuité territoriale, la géographie qui seront pris en compte. De manière synchronique et sur une longue durée (les trois Républiques), les 12 départements méditerranéens sélectionnés seront comparés. C’est l’identité du discours méditerranéen - unité ou pluralité ? - qui sera alors discutée. Les zones de clivages - littoral/pays intérieur ; est/ouest de part et d’autre du Rhône ; départements urbains/départements ruraux, etc. - seront décrites dans leurs expressions discursives
typdoc
Book sections
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-03402823/file/Guaresi_et_al.pdf BibTex
titre
Deep learning et description des textes. Architecture méthodologique
auteur
Laurent Vanni, Frédéric Precioso
article
L’intelligence artificielle des textes, Champion, pp.15 - 72, 2021
annee_publi
2021
typdoc
Book sections
Accès au bibtex
BibTex
titre
Du texte à l'intertexte. Le palimpseste Macron au révélateur de l'Intelligence artificielle
auteur
Damon Mayaffre, Camille Bouzereau, Magali Guaresi, Frédéric Precioso, Laurent Vanni
article
CMLF 2020 - 7ème Congrès mondiale de linguistique française, Jul 2020, Montpellier / Online, France
annee_publi
2020
resume
L'intertexte est la condition de l'interprétation de tout texte. Cependant, sa matérialisation, son explicitation, son implémentation ont toujours paru difficile pour la linguistique textuelle. Cette contribution propose une matérialisation de l'intertexte au sein de corpus réflexifs numériques, et convoque de manière originale l'intelligence artificielle (deep learning, modèle convolutionnel) et la logométrie pour explorer de manière systématique l'intertexte ainsi matérialisé. Pour cette étude, nous postulons que le corpus élyséen depuis 1958 constitue l'intertexte des discours d'Emmanuel Macron, dans lequel le président puise de manière consciente ou inavouée pour construire ses discours. A titre d'exemple, nous mettons ainsi au jour automatiquement les empreintes grammaticales de Giscard dans le discours de Macron, et les emprunts lexicaux que le nouveau président concède à de Gaulle.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02520224/file/CMLF_Intertexte_Mayafffe_et_al_DEF.pdf BibTex
titre
Hyperdeep : deep learning descriptif pour l'analyse de données textuelles
auteur
Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article
JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi
2020
resume
Depuis peu, les outils d'aide à l'interprétation des résultats du deep learning font leur apparition (LIME, LSTMVIS, TDS). Dans cette communication nous proposons d'aller plus loin en allant chercher l'information cachée au plus profond des couches intermédiaires du deep learning grâce à un nouvel outil. Hyperdeep permet d'une part de prédire l’appartenance d’un texte et d’en apprécier les emprunts à différents styles ou auteurs et d’autre part, par déconvolution, d'analyser les saillances du texte afin d’en faire remonter les marqueurs linguistiques appris par le réseau. Cette information d’un genre nouveau est rassemblée et mise en valeur dans un nouvel outil mêlant visualisations graphiques et texte dynamique. Son utilisation est accompagnée d’une intégration complète dans la plateforme Hyperbase Web qui propose l’environnement adéquate et un point de départ naturel pour toute étude mêlant deep learning et statistiques du texte.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02926880/file/jadt2020.pdf BibTex
titre
Objectiver l'intertexte ? Emmanuel Macron, deep learning et statistique textuelle
auteur
Damon Mayaffre, Laurent Vanni
article
JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi
2020
resume
Cette contribution propose un parcours méthodologique susceptible d’objectiver l’intertexte ; l’intertexte politique des discours du président français Emmanuel Macron en l’occurrence.Le deep learning (modèle convolutionnel) est d’abord utilisé pour « apprendre » (taux d’accuracy satisfaisant de 92,3%) le discours présidentiel français depuis 1958 : les discours de de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande sont alors considérés comme l’intertexte potentiel des discours de Macron.Ensuite, les textes de Macron – inconnus jusqu’ici du système – sont versés dans le modèle et nous forçons la machine à attribuer les passages de Macron à l’un de ses prédécesseurs en fonction de leur composition linguistique. Enfin, l’algorithme extrait et décrit les passages et les unités linguistiques (wTDS, spécificités lexicales, cooccurrences, étiquettes morpho-syntaxiques) de Macron interprétées par la machine comme ressemblant à celles de de Gaulle ou Sarkozy, à celles de Mitterrand ou de Hollande.Le discours de Macron est traversé, de manière explicite parfois, de manière implicite le plus souvent, par les discours de ses prédécesseurs – phénomène que l’on appellera « intertextualité » – et l’Intelligence artificielle et la statistique textuelle peuvent repérer les phénomènes d’emprunt, d’imitation voire de plagiat.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02894990/file/Mayaffre_Vanni_jadt2020_Intertexte_DEF.pdf BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL