Supervisory authorities

CNRS UNS

Our partners

ILF MSHS-SE

Search





Home > Personal Pages > Etienne Brunet

Etienne Brunet

PR retired -  UNS

associate member

Last publicationsHAL

pour l'idHal "etienne-brunet" :

titre
Tous comptes faits
auteur
Etienne Brunet
article
Bénédicte Pincemin. Éditions Honoré Champion, 13, 417 p., 2016, Lettres numériques, François Rastier et Jean-Marie Viprey, 978-2-7453-3553-1. 〈http://www.honorechampion.com/fr/champion/10503-book-08533553-9782745335531.html〉
annee_publi
2016
resume
Ce recueil clôt la trilogie des Écrits choisis d'Étienne Brunet en abordant la lexicométrie sous l'angle linguistique. Les trois volumes (littérature, méthodes statistiques, linguistique) donnent ainsi accès à un ensemble complet et représentatif de textes fondateurs de la discipline. Le présent ouvrage s'organise en parties consacrées tour à tour à : la pertinence d'une approche lexicométrique des textes ; l'observation et la mesure des évolutions de la langue française ; l'étude des rythmes textuels (ponctuation, allitération) ; les possibilités ouvertes par la lemmatisation et l'étiquetage grammatical des textes ; l'analyse thématique en corpus par la visualisation méthodique des contextualisations locales et globales ; les applications de la méthode aux questionnements intertextuels comme l'importance des genres textuels pour l'attribution d'auteur, la caractérisation du plagiat, les effets de la traduction sur l'identité textuelle. Le DVD joint au livre permet d'expérimenter les propositions de l'auteur avec le logiciel Hyperbase sur un très riche ensemble de corpus littéraires, mais aussi de données internet (Google Books), comme encore sur des corpus personnels (en les important dans le logiciel). Un index exhaustif et dynamique des trois tomes est également fourni sous la forme d'une base Hyperbase. L'ouvrage concerne directement les chercheurs en sciences humaines et sociales ayant à analyser des données textuelles, intéressés par une approche à la fois quantitative et qualitative, et souhaitant mieux comprendre les propriétés linguistiques de leurs données. Il sera également lu avec profit et plaisir par un plus large public, curieux de la manière renouvelée de découvrir la langue et les textes au prisme des outils numériques.
typdoc
Books
Accès au bibtex
BibTex
titre
La phrase de Giraudoux
auteur
Etienne Brunet
article
Sylviane Coyault (ed.). Le dictionnaire de Giraudoux, Gallimard, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Book sections
Accès au bibtex
BibTex
titre
Le vocabulaire de Giraudoux
auteur
Etienne Brunet
article
Sylviane Coyault (ed.). Le dictionnaire de Giraudoux, Gallimard, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Book sections
Accès au bibtex
BibTex
titre
Il y a cinquante ans
auteur
Etienne Brunet
article
Margareta Kastberg (ed.). Vocabulaire de statistique pour l'analyse des textes et des discours, Université de Franche-Comté, sous presse (en 2015), 2016
annee_publi
2016
typdoc
Book sections
Accès au bibtex
BibTex
titre
La ponctuation et le rythme du discours
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Equipe Sémantique des textes, 2016, XXI (1), http://www.revue-texto.net/index.php?id=3758. 〈http://www.revue-texto.net〉
annee_publi
2016
resume
La ponctuation est un observable pertinent pour une approche lexicométrique des textes : les signes sont relativement clairement identifiables, ils forment un paradigme réduit ; ils modulent le rythme des phrases, et peuvent jouer un rôle important au plan stylistique. L'enquête est menée sur le corpus du Trésor de la langue française, sur lequel les observations diachroniques (évolution de 1800 à 1960) peuvent être affinées selon les types de textes (7 sous-ensembles, notamment selon la personne grammaticale dominante). Chaque signe -ainsi que quelques marques typographiques comme l'italique ou la majuscule- est tour à tour méthodiquement examiné, en précisant concrètement les limites de son relevé automatique, et les caractéristiques auxquelles porter attention pour l'interprétation quantitative et qualitative de ses usages, selon les types de texte et les époques.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275533/file/brunet3h_ponctuation.pdf BibTex
titre
Apport des technologies modernes à l'histoire littéraire
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Equipe Sémantique des textes, 2016, XXI (1), http://www.revue-texto.net/index.php?id=3742. 〈http://www.revue-texto.net〉
annee_publi
2016
resume
L'approche statistique ouvre de nouvelles perspectives pour la recherche en littérature : pour la caractérisation d'une oeuvre ou d'un auteur, comme pour les analyses thématiques (autour d'un mot ou d'un champ sémantique) ; mais aussi pour une étude plus large des mouvements ou des genres littéraires, voire de l'histoire littéraire et de l'évolution de la langue sur plusieurs siècles. L'exposé est illustré par de nombreux exemples tirés de la pratique de l'auteur.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01261553/file/brunet3b_apport.pdf BibTex
titre
Le latin dans la littérature française
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Equipe Sémantique des textes, 2016, XXI (1), http://www.revue-texto.net/index.php?id=3749. 〈http://www.revue-texto.net〉
annee_publi
2016
resume
Une enquête sur la présence et l'emploi du latin en français écrit est menée sur le corpus Frantext, rassemblant des textes choisis de littérature française de 1500 à 1980, et à l'aide du logiciel de lexicométrie Hyperbase. La recherche se fait d'abord sémasiologique, sur le mot "latin" lui-même ou la famille de ses dérivés morphologiques ; puis onomasiologique, en se basant sur des listes de mots ou de citations passées dans la langue (établies à partir de dictionnaires français) ; mais aussi en étendant l'enquête au vocabulaire latin. Le logiciel permet alors d'observer précisément la répartition des ocurrences de l'objet d'étude au fil du temps, ou selon les genres textuels (en distinguant notamment les essais), ou selon les auteurs ; il peut aussi constituer des relevés de cooccurents (mots attirés au voisinage) éclairants sur les contextes d'emplois. Les résultats sont contrastés selon les différents objets d'étude. Ils montrent cependant que l'évolution du latin ne suit pas une courbe descendante mais serait plutôt cyclique.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275516/file/brunet3c_latin.pdf BibTex
titre
Quand le temps change avec le temps
auteur
Etienne Brunet
article
Texto ! Textes et Cultures, Equipe Sémantique des textes, 2016, XXI (1), http://www.revue-texto.net/index.php?id=3756. 〈http://www.revue-texto.net〉
annee_publi
2016
resume
Sur le corpus littéraire Frantext et à l'aide du logiciel de lexicométrie Hyperbase, la notion de "temps" peut être comprise et observée sous des angles multiples et complémentaires. L'évolution diachronique de la langue montre d'abord un phénomène global d'inflation lexicale, le vocabulaire français s'enrichissant quantitativement au fil du temps, grâce notamment au mécanisme de suffixation qui peut être analysé plus finement (profil temporel varié des différents suffixes). Mais on peut aussi s'intéresser aux temps verbaux dans les romans, et le mouvement de simplification observé s'interprète en lien avec d'autres indices de simplification conjointe de la syntaxe verbale et de l'articulation des propositions. Enfin sous un troisième angle, l'analyse porte sur le lexique des divisions du temps, et une cartographie d'ensemble peut être dressée caractérisant les écrivains par rapport à leur préférence pour l'expression dans leurs textes de rythmes courts (minute, seconde), moyens (moment, jour, âge) ou larges (éternité, époques, générations), ces trois types de rythme se décantant d'eux-mêmes par le calcul sur corpus. Des contrastes analogues séparent les genres textuels et révèlent leurs affinités lexicales et thématiques par rapport à ce vocabulaire du temps, comme le montre une étude focalisée sur l'œuvre de Gracq.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://halshs.archives-ouvertes.fr/halshs-01275527/file/brunet3e_temps.pdf BibTex
titre
On Very Large Corpora of French
auteur
Etienne Brunet
article
Jacqueline Léon; Sylvain Loiseau. History of Quantitative Linguistics in France, RAM Verlag, pp.137-156, 2016, Studies in Quantitative Linguistics, 978-3-942303-48-4
annee_publi
2016
resume
Concerning French, it would be natural to turn to the French National Library, which is rich in 14 million documents including 11 million books on the Tolbiac site. This would be comparable to Google Books offer, if access was similarly electronic. Unfortunately the number of documents accessible on the Internet, mainly in the Gallica base, is far from reaching that figure. In reality, the most reliable texts of Gallica, aside from newer ones transmitted by publishers in digital form, are those coming from the Frantext legacy. Those owe nothing to scanning, whose invention in 1974 by Ray Kurzweil is after the initial capturing, carried out by keyboardists on perforated tape. This manual input, duly revised and corrected for fifty years, resisted all changes of systems or supports. To that reliability of texts, even when they are older editions, Frantext adds many other virtues: a balance between eras, allowing comparisons and pro¬viding a solid basis for analysing the evolution of the language; covering a wide chronological span of five centuries of publication; a desired homogeneity of texts whose choice is governed by specific criteria, concerning genre and language level; consistency in the services offered to the scientific community, the same soft¬ware being kept unchanged for twenty years on the Internet; a moderate increase and a controlled enrichment of data ensuring compatibility with the previous treatment. The catalogue of Frantext is now expanding by adding more recent production: it has currently 4000 references and 270 million words. The BNF weighs ten times more; Google Books is a thousand times more and its pace of growth is much faster. But other Institutional corpora ( we study Encarta, Wikipedia and some ones) are like huge tanks that distribute their content, word by word, as would a dictionary. The consultation can be only punctual. They do not allow any statistical overview, no overall analysis, as can be seen from three gigantic corpora of the French language built respectively in Germany (Wortschatz), in UK (Sketchengine) and in the USA (Google Books). Wortschatz was build at the University of Leipzig (with collaborators from the University of Neuchâtel). It is a corpus of the French language with 700 million words, 36 million sentences from newspapers (19 million), web (11 million) and Wikipedia (6 million). Sketchengine is an English website which offers (together with corpora of other languages) a corpus of the French language. Like many web-based corpora, Sketchengine is harvesting the web in order to build a large representative corpus of a language rather than to build corpora targeted at analyzing lexical innovations. Culturomics (or Google Books) is the biggest corpus of the French language, with a size 100 times greater than that of Sketchengine (89 billion words in 2012). One can be enthusiastic given the huge size of the corpora. But the doubt remains as to the validity of the statistical results. The doubt grows especial¬ly as the composition of the corpora are still “black boxes”. If the choices underlying the building of the corpus under scrutiny are unknown, the size of the data does not prevent the result from being very difficult to interpret.
typdoc
Book sections
Accès au texte intégral et bibtex
https://hal-unice.archives-ouvertes.fr/hal-01362713/file/Brunet%20V3%20esw_JL%20SL.pdf BibTex
titre
GOOFRE version 2
auteur
Etienne Brunet, Laurent Vanni
article
Emilie Née; Jean-Michel Daube; Mathieu Valette; Serge Fleury. JADT 2014, Jun 2014, Paris, France. p. 106-119
annee_publi
2014
resume
The amount of data contained within Google Books has doubled over the last two years and now exceeds 500 billion words. A new treatment of the data has included a re-examination of scanned images, offering a more accurate recognition of the text. In addition, for the first time, included texts have been subjected to deambigation and lemmatisation. Finally, the website Culturomics has made tools available that facilitate its accessibility. It seemed interesting, therefore, to develop a new expertise and to create a new database, complete with all the necessary statistical tools, available online or locally, for exploiting such large corpora.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01196595/file/jadt2014-paper-62.pdf BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL