Accueil > Pages Perso > Etienne Brunet

Etienne Brunet

PR retraité -  UNS

ancien membre associé

Dernières publicationsHAL

pour l'idHal "etienne-brunet" :

titre
Deep learning et authentification des textes
auteur
Étienne Brunet, Laurent Vanni
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2019, Texto! Textes et cultures, Volume XXIV, (n°1), pp.1-34
annee_publi
2019
resume
Résumé. Deep Learning et authentification des textes Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-02561039/file/BrunetVanniVersion3.pdf BibTex
titre
Tous comptes faits
auteur
Etienne Brunet, Bénédicte Pincemin
article
Bénédicte Pincemin. Éditions Honoré Champion, 13, 417 p., 2016, Lettres numériques, François Rastier et Jean-Marie Viprey, 978-2-7453-3553-1
annee_publi
2016
resume
Ce recueil clôt la trilogie des Écrits choisis d'Étienne Brunet en abordant la lexicométrie sous l'angle linguistique. Les trois volumes (littérature, méthodes statistiques, linguistique) donnent ainsi accès à un ensemble complet et représentatif de textes fondateurs de la discipline. Le présent ouvrage s'organise en parties consacrées tour à tour à : la pertinence d'une approche lexicométrique des textes ; l'observation et la mesure des évolutions de la langue française ; l'étude des rythmes textuels (ponctuation, allitération) ; les possibilités ouvertes par la lemmatisation et l'étiquetage grammatical des textes ; l'analyse thématique en corpus par la visualisation méthodique des contextualisations locales et globales ; les applications de la méthode aux questionnements intertextuels comme l'importance des genres textuels pour l'attribution d'auteur, la caractérisation du plagiat, les effets de la traduction sur l'identité textuelle. Le DVD joint au livre permet d'expérimenter les propositions de l'auteur avec le logiciel Hyperbase sur un très riche ensemble de corpus littéraires, mais aussi de données internet (Google Books), comme encore sur des corpus personnels (en les important dans le logiciel). Un index exhaustif et dynamique des trois tomes est également fourni sous la forme d'une base Hyperbase. L'ouvrage concerne directement les chercheurs en sciences humaines et sociales ayant à analyser des données textuelles, intéressés par une approche à la fois quantitative et qualitative, et souhaitant mieux comprendre les propriétés linguistiques de leurs données. Il sera également lu avec profit et plaisir par un plus large public, curieux de la manière renouvelée de découvrir la langue et les textes au prisme des outils numériques.
typdoc
Ouvrage (y compris édition critique et traduction)
Accès au bibtex
BibTex
titre
Le vocabulaire de Giraudoux
auteur
Etienne Brunet
article
Sylviane Coyault (ed.). Le dictionnaire de Giraudoux, Gallimard, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Il y a cinquante ans
auteur
Etienne Brunet
article
Margareta Kastberg (ed.). Vocabulaire de statistique pour l'analyse des textes et des discours, Université de Franche-Comté, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
La phrase de Giraudoux
auteur
Etienne Brunet
article
Sylviane Coyault (ed.). Le dictionnaire de Giraudoux, Gallimard, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Apport des technologies modernes à l'histoire littéraire
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
L'approche statistique ouvre de nouvelles perspectives pour la recherche en littérature : pour la caractérisation d'une oeuvre ou d'un auteur, comme pour les analyses thématiques (autour d'un mot ou d'un champ sémantique) ; mais aussi pour une étude plus large des mouvements ou des genres littéraires, voire de l'histoire littéraire et de l'évolution de la langue sur plusieurs siècles. L'exposé est illustré par de nombreux exemples tirés de la pratique de l'auteur.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01261553/file/brunet3b_apport.pdf BibTex
titre
Quand le temps change avec le temps
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
Sur le corpus littéraire Frantext et à l'aide du logiciel de lexicométrie Hyperbase, la notion de "temps" peut être comprise et observée sous des angles multiples et complémentaires. L'évolution diachronique de la langue montre d'abord un phénomène global d'inflation lexicale, le vocabulaire français s'enrichissant quantitativement au fil du temps, grâce notamment au mécanisme de suffixation qui peut être analysé plus finement (profil temporel varié des différents suffixes). Mais on peut aussi s'intéresser aux temps verbaux dans les romans, et le mouvement de simplification observé s'interprète en lien avec d'autres indices de simplification conjointe de la syntaxe verbale et de l'articulation des propositions. Enfin sous un troisième angle, l'analyse porte sur le lexique des divisions du temps, et une cartographie d'ensemble peut être dressée caractérisant les écrivains par rapport à leur préférence pour l'expression dans leurs textes de rythmes courts (minute, seconde), moyens (moment, jour, âge) ou larges (éternité, époques, générations), ces trois types de rythme se décantant d'eux-mêmes par le calcul sur corpus. Des contrastes analogues séparent les genres textuels et révèlent leurs affinités lexicales et thématiques par rapport à ce vocabulaire du temps, comme le montre une étude focalisée sur l'œuvre de Gracq.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275527/file/brunet3e_temps.pdf BibTex
titre
La ponctuation et le rythme du discours
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
La ponctuation est un observable pertinent pour une approche lexicométrique des textes : les signes sont relativement clairement identifiables, ils forment un paradigme réduit ; ils modulent le rythme des phrases, et peuvent jouer un rôle important au plan stylistique. L'enquête est menée sur le corpus du Trésor de la langue française, sur lequel les observations diachroniques (évolution de 1800 à 1960) peuvent être affinées selon les types de textes (7 sous-ensembles, notamment selon la personne grammaticale dominante). Chaque signe -ainsi que quelques marques typographiques comme l'italique ou la majuscule- est tour à tour méthodiquement examiné, en précisant concrètement les limites de son relevé automatique, et les caractéristiques auxquelles porter attention pour l'interprétation quantitative et qualitative de ses usages, selon les types de texte et les époques.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275533/file/brunet3h_ponctuation.pdf BibTex
titre
Le latin dans la littérature française
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2016, XXI (1), publication électronique
annee_publi
2016
resume
Une enquête sur la présence et l'emploi du latin en français écrit est menée sur le corpus Frantext, rassemblant des textes choisis de littérature française de 1500 à 1980, et à l'aide du logiciel de lexicométrie Hyperbase. La recherche se fait d'abord sémasiologique, sur le mot "latin" lui-même ou la famille de ses dérivés morphologiques ; puis onomasiologique, en se basant sur des listes de mots ou de citations passées dans la langue (établies à partir de dictionnaires français) ; mais aussi en étendant l'enquête au vocabulaire latin. Le logiciel permet alors d'observer précisément la répartition des ocurrences de l'objet d'étude au fil du temps, ou selon les genres textuels (en distinguant notamment les essais), ou selon les auteurs ; il peut aussi constituer des relevés de cooccurents (mots attirés au voisinage) éclairants sur les contextes d'emplois. Les résultats sont contrastés selon les différents objets d'étude. Ils montrent cependant que l'évolution du latin ne suit pas une courbe descendante mais serait plutôt cyclique.
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275516/file/brunet3c_latin.pdf BibTex
titre
Que disent les tables ? Que disent les chiffres ?
auteur
Étienne Brunet
article
Tous comptes faits Écrits choisis,, tome III, Questions linguistiques, Champion, pp.23-44, 2016, 978-2-7453-3553-1
annee_publi
2016
resume
Les tableaux de la statistique sont-ils les tables de la loi ou des tables tournantes ? Disent-ils quelque chose ? Et si oui, doit-on le croire ? Quel crédit accorder au médium – au statisticien – qui parle en chiffres comme le médium de Hugo dans les réunions spiritistes de Guernesey parlait en vers ? Dans nos sociétés modernes les batailles de chiffres se sont substituées aux guerres de religion et aux conflits idéologiques. Mais on voit souvent les mêmes chiffres servir successivement dans les deux camps, comme les mercenaires des combats d’antan, au point que Platon, s’il écrivait le Gorgias à notre époque, orienterait vers les chiffres les cours de rhétorique et de sophistique et ferait de Calliclès un statisticien. Les chiffres paraissent avoir sur les mots une supériorité de droit divin, car ils donnent lieu à des effectifs dits absolus. Or cet absolutisme, qui en impose à la pensée, recouvre très souvent des opérations relatives et contingentes, qui n’ont rien de nécessaire. Comme la nature reproduit rarement le même objet, le temps le même événement, le discours les mêmes mots et les mots la même signification, les faits dont on fait un effectif ne sont pas rigoureusement identiques. Ils ne le deviennent que par abstraction, par neutralisation des conditions particulières de leur réalisation. Et ils ne se prêtent à la comparaison que si les conditions sont supposées ne pas varier et si l’unité de mesure reste constante. Ce qui se produit rarement. On est ainsi amené à biaiser, à relativiser l’absolu, en pondérant, et, par exemple, en exploitant les données économiques « corrigées des variations saisonnières », ou en corrigeant les chiffres des sondages pour tenir compte des sondés et des sondeurs. Ces difficultés, inhérentes à toutes les sciences humaines, obèrent les travaux de statistique linguistique. Faut-il une fois de plus les passer en revue ? Ce qui manque à cette discipline c’est d’abord une unité de mesure. Ce sont aussi les termes de référence, les points de comparaison. La jeunesse de la discipline explique un certain manque de clarté – ou de modestie - dans les objectifs. Elle s’est imprudemment engagée dans les problèmes les plus épineux, comme ceux de l’attribution des textes douteux ou de leur datation. Ce qui manque surtout à la statistique c’est un consensus sur les méthodes, sur les résultats et sur sa justification même. En dehors du cercle restreint des spécialistes et de leur approbation jalouse ou intéressée, il faut reconnaître que les observateurs littéraires voient les débats statistiques parfois d’un œil amusé, plus souvent d’un œil indifférent et dans certains cas d’un œil courroucé et indigné. Pourtant à l’heure présente, c’est-à-dire en 1989, à l’occasion du deuxième centenaire de la Révolution Française, on a tenté de rassembler les textes qui environnent cet événement majeur et d’en faire une base de données, documentaire et statistique, accessible au public du Centre Pompidou, à Paris. La présente communication s’emploie à exposer et à justifier cette réalisation.
typdoc
Chapitre d'ouvrage
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01786774/file/11_a_tables%20%281%29.pdf BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL