Accueil > Pages Perso

Dominique LONGRÉE

PR -  Université de Liège

membre associé

Dernières publicationsHAL

pour "Dominique LONGRÉE" :

titre
Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis
auteur
Laurent Vanni, Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Dominique Longrée, Veeresh Elango, Nazly Santos Buitrago, Juan Gonzales Huesca, Luis Galdo, Carlos Aguilar
article
56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France
annee_publi
2018
resume
In this paper, we propose a new strategy , called Text Deconvolution Saliency (TDS), to visualize linguistic information detected by a CNN for text classification. We extend Deconvolution Networks to text in order to present a new perspective on text analysis to the linguistic community. We empirically demonstrated the efficiency of our Text Decon-volution Saliency on corpora from three different languages: English, French, and Latin. For every tested dataset, our Text Deconvolution Saliency automatically encodes complex linguistic patterns based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01804310/file/acl2018.pdf BibTex
titre
ADT et deep learning, regards croisés. Phrases-clefs, motifs et nouveaux observables
auteur
Laurent Vanni, Damon Mayaffre, Dominique Longrée
article
JADT 2018, Jun 2018, Rome, Italie
annee_publi
2018
resume
L'extraction de passages-clefs statistiques est d'abord proposée selon plusieurs calculs implémentés dans le logiciel Hyperbase. Uné evaluation de ces calculs en fonction des filtres appliqués (prise en compte des spécificités positives seulement, prise en compte de substantifs seulement, etc) est donnée. L'extraction de passages-clefs obtenus par deep learning-c'est-` a-dire des passages qui ont le meilleur taux de reconnaissance au moment d'une prédiction-est ensuite proposée. L'hypothèse est que le deep learning est bien sûr sensible aux unités linguistes sur lesquelles le calcul des phrases-clefs statistiques se fondent, mais sensiblé egalementàegalement`egalementà d'autres phénomènes que fréquentiels et d'autres observables linguistiques complexes que l'ADT a plus de maì a prendre en compte-comme le seraient des motifs sous-jacents (Mellet et Longrée, 2009). Si cette hypothèse se confirmait, elle permettrait d'une part de mieux appréhender la boˆıteboˆıte noire des algorithmes de deep learning et d'autre part d'offriràoffrir`offrirà la communauté ADT de nouveaux points de vue.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01823560/file/JADT2018_Vanni_Mayaffre_Longree_DEF.pdf BibTex
titre
Towards a topological grammar of genres and styles: a way to combine paradigmatic quantitative analysis with a syntagmatic approach
auteur
Dominique Longrée, Sylvie Mellet
article
Dominique Legallois, Thierry Charnois, Meri Larjavaara. The Grammar of Genres and Styles: From Discrete to Non-Discrete Units, 320, de Gruyter Mouton, pp.140-163, 2018, Trends in Linguistics. Studies and Monographs, 9783110595864. 〈10.1515/9783110595864-007〉
annee_publi
2018
resume
We analyze a corpus of classical Latin texts, comprising various literary genres and authors. Two Correspondence Analyses (CA) are based on discrete units (used by Biber 2006). The first one represents the distances between the main works in the classical Latin corpus according to the parts of speech used in the different texts, the second according to the distribution of verb tenses and moods. The paradigmatic approach is efficient for automatically classifying the texts, but provides little new information for the linguist or philologist. We therefore assess the impact on genre characterization of taking the integration of the parts of speech (POS) and grammatical categories in syntactic structures (the syntagmatic approach) into account. However, even when the syntactic dimension is taken into consideration, this method does not really account for the sequential structure of the text’s linearity. Moreover, the choice of the syntactic structures studied depends upon the knowledge already acquired by the Latinist and their detection is always supervised. We therefore propose the new concept of motif in order to handle the different tokens of a given structure and to model them in a single pattern whose identification is based on its unified text dynamics function, disregarding surface variations. As a general pattern, the motif is able to characterize a genre; but its different realizations or tokens may be specific to different authors in a given genre. This claim is exemplified by a contrastive analysis of the style of two Latin historians who both lived at the close of the classical literary period, Caesar and Tacitus. In order to contribute to the discussion herein about what makes a “Grammar of Genres and Styles”, we would like to submit a methodological study based on textual analysis whose aim is to identify formal criteria for distinguishing between different discursive genres or authors’ styles and characterizing them according to their linguistic properties and textual dynamics1. In our previous work, we have used methods relying not only on a paradigmatic, quantitative analysis but also on syntagmatic approaches: sequences (Longree and Luong 2003, 2005), text segmentations (Longree, Luong, and Mellet 2004, 2006; Longree and Mellet 2007), neighbourhoods (Mellet and Barthelemy, 2007; Luong, Julliard, Mellet and Longree, 2007; Barthelemy, Longree, Luong, and Mellet 2009) and bursts (Longree, Luong, and Mellet 2008; Longree and Mellet 2016). This work has led to a theoretical proposal to consider the text as a topological space and to introduce a new analytical unit that we call the “motif” (Longree, Luong and Mellet 2008; Mellet and Longree 2009, 2012; Longree and Mellet 2013, 2014). With this methodological background in mind, we would like to assess here the benefits and limitations of both approaches - paradigmatic and syntagmatic - in the characterization of textual genres and author’s styles.
typdoc
Chapitre d'ouvrage
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01858402/file/Conscila2015_Grammar%20of%20Genres_Longree_Mellet_mis%20en%20forme_r%C3%A9vis%C3%A9%20SM-DL07juin2017doc.pdf BibTex
titre
Analysing and visualizing textual data with Hyperbase Web Edition
auteur
Laurent Vanni, Dominique Longrée
article
4th Digital Humanities Austria (DHA 2017), Dec 2017, Innsbruck, Austria. 2017
annee_publi
2017
typdoc
Poster
Accès au bibtex
BibTex
titre
The contribution of the research on Latin texts to the French quantitative linguistics : from lemmatization to the grammaticometry and textual topology
auteur
Dominique Longrée, Sylvie Mellet
article
Jacqueline Leon, Sylvain Loiseau (eds.). Quantitative Linguistics in France, RAM Verlag, sous presse, 2016
annee_publi
2016
typdoc
Chapitre d'ouvrage
Accès au bibtex
BibTex
titre
Les anaphores rhétoriques : des rafales de motifs ?
auteur
Dominique Longrée, Damon Mayaffre, Sylvie Mellet
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. Presses de FacImprimeur, Jadt 2016 - Statistical Analysis of Textual Data, Volume 1, pp.319-328, 2016, JADT 2016 - Statistical Analysis of Textual Data
annee_publi
2016
resume
L'anaphore rhétorique est un procédé bien connu depuis l'Antiquité, mais ses contours restent souvent flous et imprécis. En nous appuyant sur un outil conceptuel, le « motif », et un outil statistique, le test de Lafon des rafales, nous nous proposons dans cette communication de doter l'anaphore rhétorique d'une définition plus précise et d'en faire un observable linguistique susceptible de repérage automatique et de traitements quantitatifs. Pour ce faire, nous nous appuyons sur des exemples tirés, d'une part du corpus de textes latins classiques du LASLA, d'autre part des discours politiques contemporains de Nicolas Sarkozy lors de l'élection présidentielle de 2007.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01361991/file/JADT2016_Longr%C3%A9e_Mayaffre_Mellet.pdf BibTex
titre
A Text Structure Indicator and two Topological Methods: New Ways for Studying Latin Historic Narratives
auteur
Dominique Longrée, Sylvie Mellet
article
Digital Scholarship in the Humanities, 2016, 〈http://dsh.oxfordjournals.org/cgi/content/full/fqw021? ijkey=wDyZkoG1iV8aqRa&keytype=ref〉. 〈10.1093/llc/fqw021〉
annee_publi
2016
resume
Relying on the analysis of a Latin historical corpus, our research aims to study the markers structuring literary texts in general, and focuses on methods which, by extension, should be valid for any text of some length. Our basic assumption is the following: such texts include complex multilevel structures (i.e. those calling upon lexis, semantics, morphology, syntax...) which function as heterogeneity indicators (progression to a new episode, focalisation on a new point of view, insertion of reported speech, etc.). Additionally, the recurrence of these structures is a factor in textual cohesion. Under certain conditions, they function as topological ‘motifs’ marking the linear progression of the text and ensuring textual unity. We are developing new methods to detect and analyse the distributions of such ‘motifs’ and to support structural comparisons with the objective of contrastive corpus studies (contrasts between genres, authorial styles, etc.). Our methods are based on mathematical models (neighbourhoods, bursts) and combine a qualitative approach with a sequential quantitative analysis in order to comprehend language in a linear fashion.
typdoc
Article dans une revue
Accès au bibtex
BibTex
titre
The contribution of Latin to French-language quantitative linguistics: from lemmatisation to grammaticometry and textual topology
auteur
Dominique Longrée, Sylvie Mellet
article
Jacqueline LEON, Sylvain LOISEAU. History of Quantitative Linguistics in France, 24, RAM Verlag, pp.120-136, 2016, Studies in Quantitative Linguistics 24 978-3-942303-48-4. 〈http://www.ram-verlag.eu/4778-2/〉
annee_publi
2016
resume
In this overview of quantitative linguistics in France, we focus on works involving Latin corpora. Our contribution points out that statistical handling of digitized Latin texts is an original and important addition to quantitative linguistics studies, and we investigate the epistemological foundations of this addition. To this end, we go beyond the boundaries of France and look to Belgium, because the development of quantitative studies devoted to Latin texts is a Franco-Belgian achievement, and is based almost entirely on resources produced, beginning in 1961, by the Laboratory for the Statistical Analysis of Ancient Languages (LASLA) at the University of Liège 1. We first emphasize the role of lemmatisation, and show how this simple operation of abstraction and regrouping allows other more or less complex analysis units to emerge. We then discuss the importance that variability of word order in Latin has assumed with regard to research issues and approaches; finally we discuss software advances and certain necessary adaptations involving digital research methods and quantitative handling made necessary by specific approaches to Latin corpora.
typdoc
Chapitre d'ouvrage
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01571102/file/Longree_Mellet_corrig%C3%A9_sans%20suivi%20pour%20HAL.pdf BibTex
titre
Semantic integration by pattern priming: experiment and cortical network model
auteur
Frédéric Lavigne, Dominique Longrée, Damon Mayaffre, Sylvie Mellet
article
Cognitive Neurodynamics, Springer Verlag, 2016, 〈10.1007/s11571-016-9410-4〉
annee_publi
2016
resume
Neural network models describe semantic priming effects by way of mechanisms of activation of neuron coding for the words that rely strongly on synaptic efficacies between pairs of neurons. Biologically inspired Hebbian learning defines efficacy values as a function of the activity of pre- and post-synaptic neurons only. It generates only pair associations between words in the semantic network. However, the statistical analysis of large text databases points to the frequent occurrence not only of pairs of words (e.g., “the way”) but also of patterns of more than two words (e.g., “by the way”). The learning of these frequent patterns of words is not reducible to associations between pairs of words but must take into account the higher level of coding of three-word patterns. The processing and learning of pattern of words challenges classical Hebbian learning algorithms used in biologically inspired models of priming. The aim of the present study was to test the effects of patterns on the semantic processing of words and investigates how an inter-synaptic learning algorithm succeeds at reproducing the experimental data. The experiment manipulates the frequency of occurrence of patterns of three words in a multiple-paradigm protocol. Results show for the first time that target words benefit more priming when embedded in a pattern with the two primes than when only associated with each prime in a pair. A biologically inspired, inter-synaptic learning algorithm is tested that potentiates synapses as a function of the activation of more than two pre- and post-synaptic neurons. Simulations show that the network can learn patterns of three words to reproduce the experimental results
typdoc
Article dans une revue
Accès au bibtex
BibTex
titre
Les variantes des motifs chez les prosateurs latins, Entre récurrence générique et spécificité d’auteur, des formes révélatrices et caractérisantes
auteur
Sylvie Mellet, Dominique Longrée
article
Les Etudes Classiques, Société des Études Classiques, 2014, Langues anciennes et statistique linguistique : 50 ans après. Distances textuelles et Intertextualités, 82, pp.65-87. 〈http://lesetudesclassiques.be/index.php/lec〉
annee_publi
2014
resume
Cette étude, prenant appui sur le corpus des historiens latins numérisé et lemmatisé par le LASLA, vise à analyser comment certaines séquences textuelles récurrentes contribuent à caractériser les différentes œuvres du corpus et à les regrouper ou au contraire à les différencier. Les séquences étudiées sont ce que nous avons appelé par ailleurs des « motifs », c’est-à-dire des structures lexico-grammaticales récurrentes qui accompagnent, voire soutiennent la dynamique textuelle et la progression narrative. Un motif est un patron (type) qui peut se réaliser sous différentes formes (tokens). Il est donc possible qu’un motif, en tant que patron-type, caractérise un genre et que certaines de ses réalisations spécifiques caractérisent, au sein de ce genre, le style d’un auteur. Une fois ce point démontré grâce à quelques calculs de distance visualisés au moyen d’Analyses Factorielles des Correspondances, nous essaierons d’évaluer si les proximités ainsi détectées entre un auteur et une forme spécifique d’un motif sont ou non révélatrices de choix d’écriture plus généraux de la part de cet auteur. En d’autres termes, est-ce que la préférence d’un auteur pour une réalisation particulière d’un motif est la trace de (voire est conditionnée par) ses préférences idiomatiques qui contribuent à définir son style ? Nous essaierons de répondre à cette question en analysant la distribution dans le corpus des formes les plus fréquentes prises par les trois motifs ut supra demonstrauimus, quibus rebus cognitis et eo cum uenisset.
typdoc
Article dans une revue
Accès au bibtex
BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL