Accueil > Pages Perso > Etienne Brunet

Etienne Brunet

PR retraité -  UNS

membre associé

Dernières publicationsHAL

pour l'idHal "etienne-brunet" :

titre
Littérature et intelligence artificielle
auteur
Étienne Brunet, Ludovic Lebart, Laurent Vanni
article
D. Mayaffre, L. Vanni. L'intelligence artificielle des textes, Honoré Champion, pp.73-130, 2021, Lettres Numériques, 9782745356406
annee_publi
2021
resume
De Homère à Shakespeare les questions de paternité littéraire ou de datation passionnent la critique. Or le décryptage de l’ADN résout sans discussion les problèmes de criminalité ou de paternité. L’Intelligence artificielle peut-elle jouer le même rôle dans le déchiffrement des textes? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du deep learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le deep learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est là aussi catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le deep learning. Il s’agit d’abord de contrôler les résultats du deep learning en les confrontant non seulement aux acquis de l’histoire littéraire mais à l’approche classique de la statistique linguistique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Tantôt on évalue la distance intertextuelle à partir des fréquences basses (grâce aux formules convergentes de, Jaccard , Evrard ou Muller), tantôt on s’appuie sur les hautes fréquences en recourant à l’analyse factorielle et à l’analyse arborée. Dans les deux corpus les procédures éprouvées de la lexicométrie confirment l’approche algorithmique du deep learning. On cherche aussi à imiter la démarche du deep learning en appliquant la statistique non pas aux mots individuels mais à des chaînes obtenues par glissement de trois mots adjacents (les triplets) ou bien en séparant, comme fait le deep learning, les textes soumis à l’apprentissage et les textes proposés à la prédiction (ces derniers traités en éléments supplémentaires dans l’analyse factorielle), ou bien en recourant à d’autres méthodes relevant de la technique neuronale (cartes de Kohonen). On vise aussi à expliquer, de l’intérieur, le processus , ici convolutionnel, du deep learning. Par une démarche rétroactive , dite de déconvolution, on s’applique à retrouver les marqueurs qui ont pesé sur les choix et à en relever la trace dans le texte. Mais le but principal est de comprendre et de maîtriser la démarche du deep learning et de la guider dans ses tentatives en s’appuyant sur des procédures plus exploratoires, transparentes, interprétables à chaque étape, avec des résultats visualisés (plans, arbres) ou évalués (zones de confiance bootstrap par exemple). On montre en particulier que l’analyse de correspondance peut obtenir les mêmes résultats que le deep learning, sans se soumettre à la nécessité d’un apprentissage supervisé : en traitant les pages du corpus en vrac, au kilomètre, sans partition explicite des textes.
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Deep learning et authentification des textes
auteur
Étienne Brunet, Laurent Vanni
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2019, Texto! Textes et cultures, Volume XXIV, (n°1), pp.1-34
annee_publi
2019
resume
Résumé. Deep Learning et authentification des textes Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02561039/file/BrunetVanniVersion3.pdf BibTex
titre
Tous comptes faits
auteur
Etienne Brunet, Bénédicte Pincemin
article
Bénédicte Pincemin. Éditions Honoré Champion, 13, 417 p., 2016, Lettres numériques, François Rastier et Jean-Marie Viprey, 978-2-7453-3553-1
annee_publi
2016
resume
Ce recueil clôt la trilogie des Écrits choisis d'Étienne Brunet en abordant la lexicométrie sous l'angle linguistique. Les trois volumes (littérature, méthodes statistiques, linguistique) donnent ainsi accès à un ensemble complet et représentatif de textes fondateurs de la discipline. Le présent ouvrage s'organise en parties consacrées tour à tour à : la pertinence d'une approche lexicométrique des textes ; l'observation et la mesure des évolutions de la langue française ; l'étude des rythmes textuels (ponctuation, allitération) ; les possibilités ouvertes par la lemmatisation et l'étiquetage grammatical des textes ; l'analyse thématique en corpus par la visualisation méthodique des contextualisations locales et globales ; les applications de la méthode aux questionnements intertextuels comme l'importance des genres textuels pour l'attribution d'auteur, la caractérisation du plagiat, les effets de la traduction sur l'identité textuelle. Le DVD joint au livre permet d'expérimenter les propositions de l'auteur avec le logiciel Hyperbase sur un très riche ensemble de corpus littéraires, mais aussi de données internet (Google Books), comme encore sur des corpus personnels (en les important dans le logiciel). Un index exhaustif et dynamique des trois tomes est également fourni sous la forme d'une base Hyperbase. L'ouvrage concerne directement les chercheurs en sciences humaines et sociales ayant à analyser des données textuelles, intéressés par une approche à la fois quantitative et qualitative, et souhaitant mieux comprendre les propriétés linguistiques de leurs données. Il sera également lu avec profit et plaisir par un plus large public, curieux de la manière renouvelée de découvrir la langue et les textes au prisme des outils numériques.
typdoc
Ouvrage (y compris édition critique et traduction)
Accès au bibtex
BibTex
titre
Le vocabulaire de Giraudoux
auteur
Etienne Brunet
article
Sylviane Coyault (ed.). Le dictionnaire de Giraudoux, Gallimard, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Il y a cinquante ans
auteur
Etienne Brunet
article
Margareta Kastberg (ed.). Vocabulaire de statistique pour l'analyse des textes et des discours, Université de Franche-Comté, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
La phrase de Giraudoux
auteur
Etienne Brunet
article
Sylviane Coyault (ed.). Le dictionnaire de Giraudoux, Gallimard, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
La ponctuation et le rythme du discours
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
La ponctuation est un observable pertinent pour une approche lexicométrique des textes : les signes sont relativement clairement identifiables, ils forment un paradigme réduit ; ils modulent le rythme des phrases, et peuvent jouer un rôle important au plan stylistique. L'enquête est menée sur le corpus du Trésor de la langue française, sur lequel les observations diachroniques (évolution de 1800 à 1960) peuvent être affinées selon les types de textes (7 sous-ensembles, notamment selon la personne grammaticale dominante). Chaque signe -ainsi que quelques marques typographiques comme l'italique ou la majuscule- est tour à tour méthodiquement examiné, en précisant concrètement les limites de son relevé automatique, et les caractéristiques auxquelles porter attention pour l'interprétation quantitative et qualitative de ses usages, selon les types de texte et les époques.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275533/file/brunet3h_ponctuation.pdf BibTex
titre
Le latin dans la littérature française
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
Une enquête sur la présence et l'emploi du latin en français écrit est menée sur le corpus Frantext, rassemblant des textes choisis de littérature française de 1500 à 1980, et à l'aide du logiciel de lexicométrie Hyperbase. La recherche se fait d'abord sémasiologique, sur le mot "latin" lui-même ou la famille de ses dérivés morphologiques ; puis onomasiologique, en se basant sur des listes de mots ou de citations passées dans la langue (établies à partir de dictionnaires français) ; mais aussi en étendant l'enquête au vocabulaire latin. Le logiciel permet alors d'observer précisément la répartition des ocurrences de l'objet d'étude au fil du temps, ou selon les genres textuels (en distinguant notamment les essais), ou selon les auteurs ; il peut aussi constituer des relevés de cooccurents (mots attirés au voisinage) éclairants sur les contextes d'emplois. Les résultats sont contrastés selon les différents objets d'étude. Ils montrent cependant que l'évolution du latin ne suit pas une courbe descendante mais serait plutôt cyclique.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275516/file/brunet3c_latin.pdf BibTex
titre
Quand le temps change avec le temps
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
Sur le corpus littéraire Frantext et à l'aide du logiciel de lexicométrie Hyperbase, la notion de "temps" peut être comprise et observée sous des angles multiples et complémentaires. L'évolution diachronique de la langue montre d'abord un phénomène global d'inflation lexicale, le vocabulaire français s'enrichissant quantitativement au fil du temps, grâce notamment au mécanisme de suffixation qui peut être analysé plus finement (profil temporel varié des différents suffixes). Mais on peut aussi s'intéresser aux temps verbaux dans les romans, et le mouvement de simplification observé s'interprète en lien avec d'autres indices de simplification conjointe de la syntaxe verbale et de l'articulation des propositions. Enfin sous un troisième angle, l'analyse porte sur le lexique des divisions du temps, et une cartographie d'ensemble peut être dressée caractérisant les écrivains par rapport à leur préférence pour l'expression dans leurs textes de rythmes courts (minute, seconde), moyens (moment, jour, âge) ou larges (éternité, époques, générations), ces trois types de rythme se décantant d'eux-mêmes par le calcul sur corpus. Des contrastes analogues séparent les genres textuels et révèlent leurs affinités lexicales et thématiques par rapport à ce vocabulaire du temps, comme le montre une étude focalisée sur l'œuvre de Gracq.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275527/file/brunet3e_temps.pdf BibTex
titre
Apport des technologies modernes à l'histoire littéraire
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
L'approche statistique ouvre de nouvelles perspectives pour la recherche en littérature : pour la caractérisation d'une oeuvre ou d'un auteur, comme pour les analyses thématiques (autour d'un mot ou d'un champ sémantique) ; mais aussi pour une étude plus large des mouvements ou des genres littéraires, voire de l'histoire littéraire et de l'évolution de la langue sur plusieurs siècles. L'exposé est illustré par de nombreux exemples tirés de la pratique de l'auteur.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01261553/file/brunet3b_apport.pdf BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL