Home > Personal Pages

Dominique LONGRÉE

PR  -  Université de Liège

associate member

Latest publicationsHAL

pour "Dominique LONGRÉE" :

titre
To what extent are lemmatisation and annotation relevant for deep learning assignments and textual motifs detection? The case-study of Peter Damian's letters (11 th century)
auteur
Valérie Thon, Laurent Vanni, Dominique Longrée
article
La memoria digitale. XII convegno annuale AIUCD, Jun 2023, Siena, Italy, Italy. pp.254-259
annee_publi
2023
resume
This paper wishes to explore to what extent lemmatisation and morphosyntactic annotation are important for deep learning predictions and textual motif detection. A broader research on the style of Peter Damian's letters (11th century) was the occasion to explore this question. After having trained two deep learning models on a selection of 12 classical authors using the Hyperdeep platform, one on lexical forms alone and the other on lemmatised and annotated texts, we introduced to them the medieval letters of Peter Damian in order to not only examine which authors are deemed to be stylistically close to Peter according to both models, but also to compare whether the results are similar and whether the same linguistic structures receive a high activation rate. The results suggest that a dialogue between both methods could be an interesting path to explore in the search for textual motifs, as the first "lexical" model may indicate rough outlines of these motifs, whereas the second model can offer concrete examples and/or variants of the first motifs identified.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://u-paris.hal.science/hal-04122439/file/Siena_AIUCD_2023.pdf BibTex
titre
Le deep learning auxiliaire de l'ADT dans le choix de textes à étiqueter en vue d'un corpus de comparaison : à propos de l'étude stylistique des lettres de Pierre Damien
auteur
Valérie Thon, Laurent Vanni, Dominique Longrée
article
JADT 2022 - Proceedings of the 16th International Conference on Statisical Analysis of Textual Data, 2022
annee_publi
2022
resume
Réaliser un étiquetage morphosyntaxique complet et fiable de textes latins est une tâche particulièrement chronophage. Il s’agit dès lors de choisir à bon escient les textes à intégrer à un corpus de comparaison étiqueté lorsque l’on désire étudier les distances intertextuelles entre un auteur donné, en particulier un auteur médiéval, et ses devanciers. Une recherche stylistique sur les lettres de Pierre Damien (XIe siècle) a été l’occasion de s’interroger sur les méthodes à mettre en œuvre pour opérer cette sélection : les distances intertextuelles ont été d’abord calculée sur les formes à l’aide d’analyses arborées ; les résultats ont été ensuite comparés aux prédictions du deep learning, attribuant, avec des taux de reconnaissance variables, des passages de Pierre Damien à divers auteurs du corpus de comparaison : là où l’ADT semble s’appuyer essentiellement sur le lexique, le Convolutional Neural Network prend mieux en compte des paramètres morphosyntaxiques, les zones d’activation fortes suggérant une reconnaissance de motifs linguistiques que Damien partagerait avec certains de ses prédécesseurs.
typdoc
Book sections
Accès au texte intégral et bibtex
https://u-paris.hal.science/hal-03892792/file/JADT2022.pdf BibTex
titre
Hyperdeep : deep learning descriptif pour l'analyse de données textuelles
auteur
Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article
JADT 2020 - 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi
2020
resume
Depuis peu, les outils d'aide à l'interprétation des résultats du deep learning font leur apparition (LIME, LSTMVIS, TDS). Dans cette communication nous proposons d'aller plus loin en allant chercher l'information cachée au plus profond des couches intermédiaires du deep learning grâce à un nouvel outil. Hyperdeep permet d'une part de prédire l’appartenance d’un texte et d’en apprécier les emprunts à différents styles ou auteurs et d’autre part, par déconvolution, d'analyser les saillances du texte afin d’en faire remonter les marqueurs linguistiques appris par le réseau. Cette information d’un genre nouveau est rassemblée et mise en valeur dans un nouvel outil mêlant visualisations graphiques et texte dynamique. Son utilisation est accompagnée d’une intégration complète dans la plateforme Hyperbase Web qui propose l’environnement adéquate et un point de départ naturel pour toute étude mêlant deep learning et statistiques du texte.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.science/hal-02926880/file/jadt2020.pdf BibTex
titre
Key Passages : From statistics to Deep Learning
auteur
Laurent Vanni, Marco Corneli, Dominique Longrée, Damon Mayaffre, Frédéric Precioso
article
Domenica Fioredistella Iezzi; Damon Mayaffre; Michelangelo Misuraca. Text Analytics. Advances and Challenges, Springer, pp.41-54, 2020, 978-3-030-52679-5. ⟨10.1007/978-3-030-52680-1_4⟩
annee_publi
2020
resume
This contribution compares statistical analysis and deep learning approaches to textual data. The extraction of "key passages" using statitics and deep learning is implemented using the Hyperbase sofware.
typdoc
Book sections
Accès au bibtex
BibTex
titre
Valeurs et emplois de l’ablatif absolu dans les Métamorphoses d’Apulée
auteur
Joseph Dalbera, Dominique Longree
article
Revue de Linguistique Latine du Centre Alfred Ernout (De Lingua Latina), 2019, 18
annee_publi
2019
resume
L’intégration du corpus des Métamorphoses d’Apulée dans la base informatique du LASLA en permet désormais un traitement par le logiciel Hyperbase Web Edition. Les données chiffrées ainsi fournies pointent notamment la grande fréquence d’emploi d’une structure syntaxique, l’ablatif absolu, qui constitue l’un des traits linguistiques et stylistiques les plus marquants de la langue du romancier. Cette étude se donne pour but de présenter les emplois de cette structure dans les huit premiers livres du roman d’Apulée, afin d’en cerner, notamment de façon contrastive, les spécificités, les valeurs et leurs fonctions, leurs exploitations dans le cadre romanesque.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://hal.sorbonne-universite.fr/hal-03359241/file/RevLingLatErnout%28DLL%2918-Dalbera_Longr%C3%A9e%20Hal.pdf BibTex
titre
L.A.S.L.A. and Collatinus: a convergence in lexica
auteur
Philippe Verkerk, Yves Ouvrard, Margherita Fantoli, Dominique Longrée
article
Studi e saggi linguistici, In press
annee_publi
2019
resume
L.A.S.L.A. has begun in 1961 a project of lemmatisation and morphosyntactic tagging of Latin texts. This project is still running with new texts lemmatised each year. The resulting files have been recently opened to the interested scholars and they now count approximatively 2.500.000 words, the lemmatisation of which has been checked by a philologist. In the early 2.000's, Collatinus has been developed by Yves Ouvrard for teaching. Its goal was to generate a complete lexical aid, with a short translation and the morphological analyses of the forms, for any text that can be given to the students. Although these two projects look very different, they met a few years ago in the conception of a new tool to speed up the lemmatisation process of Latin texts at L.A.S.L.A.. This tool is based on a concurrent lemmatisation of each word by looking for the form in those already analysed in the L.A.S.L.A. files and by Collatinus. This lemmatisation is followed by a disambiguation process with a second-order hidden Markov model and the result is presented in a text-editor to be corrected by the philologist.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://hal.science/hal-02399878/file/Article_LASLA_Collatinus_final.pdf BibTex
titre
Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis
auteur
Laurent Vanni, Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Dominique Longrée, Veeresh Elango, Nazly Santos Buitrago, Juan Gonzales Huesca, Luis Galdo, Carlos Aguilar
article
56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France
annee_publi
2018
resume
In this paper, we propose a new strategy , called Text Deconvolution Saliency (TDS), to visualize linguistic information detected by a CNN for text classification. We extend Deconvolution Networks to text in order to present a new perspective on text analysis to the linguistic community. We empirically demonstrated the efficiency of our Text Decon-volution Saliency on corpora from three different languages: English, French, and Latin. For every tested dataset, our Text Deconvolution Saliency automatically encodes complex linguistic patterns based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.science/hal-01804310/file/acl2018.pdf BibTex
titre
ADT et deep learning, regards croisés. Phrases-clefs, motifs et nouveaux observables
auteur
Laurent Vanni, Damon Mayaffre, Dominique Longrée
article
JADT 2018, Jun 2018, Rome, Italie
annee_publi
2018
resume
L'extraction de passages-clefs statistiques est d'abord proposée selon plusieurs calculs implémentés dans le logiciel Hyperbase. Uné evaluation de ces calculs en fonction des filtres appliqués (prise en compte des spécificités positives seulement, prise en compte de substantifs seulement, etc) est donnée. L'extraction de passages-clefs obtenus par deep learning-c'est-` a-dire des passages qui ont le meilleur taux de reconnaissance au moment d'une prédiction-est ensuite proposée. L'hypothèse est que le deep learning est bien sûr sensible aux unités linguistes sur lesquelles le calcul des phrases-clefs statistiques se fondent, mais sensiblé egalementàegalement`egalementà d'autres phénomènes que fréquentiels et d'autres observables linguistiques complexes que l'ADT a plus de maì a prendre en compte-comme le seraient des motifs sous-jacents (Mellet et Longrée, 2009). Si cette hypothèse se confirmait, elle permettrait d'une part de mieux appréhender la boˆıteboˆıte noire des algorithmes de deep learning et d'autre part d'offriràoffrir`offrirà la communauté ADT de nouveaux points de vue.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.science/hal-01823560/file/JADT2018_Vanni_Mayaffre_Longree_DEF.pdf BibTex
titre
Towards a topological grammar of genres and styles: a way to combine paradigmatic quantitative analysis with a syntagmatic approach
auteur
Dominique Longrée, Sylvie Mellet
article
Dominique Legallois, Thierry Charnois, Meri Larjavaara. The Grammar of Genres and Styles: From Discrete to Non-Discrete Units, 320, de Gruyter Mouton, pp.140-163, 2018, Trends in Linguistics. Studies and Monographs, 9783110595864. ⟨10.1515/9783110595864-007⟩
annee_publi
2018
resume
We analyze a corpus of classical Latin texts, comprising various literary genres and authors. Two Correspondence Analyses (CA) are based on discrete units (used by Biber 2006). The first one represents the distances between the main works in the classical Latin corpus according to the parts of speech used in the different texts, the second according to the distribution of verb tenses and moods. The paradigmatic approach is efficient for automatically classifying the texts, but provides little new information for the linguist or philologist. We therefore assess the impact on genre characterization of taking the integration of the parts of speech (POS) and grammatical categories in syntactic structures (the syntagmatic approach) into account. However, even when the syntactic dimension is taken into consideration, this method does not really account for the sequential structure of the text’s linearity. Moreover, the choice of the syntactic structures studied depends upon the knowledge already acquired by the Latinist and their detection is always supervised. We therefore propose the new concept of motif in order to handle the different tokens of a given structure and to model them in a single pattern whose identification is based on its unified text dynamics function, disregarding surface variations. As a general pattern, the motif is able to characterize a genre; but its different realizations or tokens may be specific to different authors in a given genre. This claim is exemplified by a contrastive analysis of the style of two Latin historians who both lived at the close of the classical literary period, Caesar and Tacitus. In order to contribute to the discussion herein about what makes a “Grammar of Genres and Styles”, we would like to submit a methodological study based on textual analysis whose aim is to identify formal criteria for distinguishing between different discursive genres or authors’ styles and characterizing them according to their linguistic properties and textual dynamics1. In our previous work, we have used methods relying not only on a paradigmatic, quantitative analysis but also on syntagmatic approaches: sequences (Longree and Luong 2003, 2005), text segmentations (Longree, Luong, and Mellet 2004, 2006; Longree and Mellet 2007), neighbourhoods (Mellet and Barthelemy, 2007; Luong, Julliard, Mellet and Longree, 2007; Barthelemy, Longree, Luong, and Mellet 2009) and bursts (Longree, Luong, and Mellet 2008; Longree and Mellet 2016). This work has led to a theoretical proposal to consider the text as a topological space and to introduce a new analytical unit that we call the “motif” (Longree, Luong and Mellet 2008; Mellet and Longree 2009, 2012; Longree and Mellet 2013, 2014). With this methodological background in mind, we would like to assess here the benefits and limitations of both approaches - paradigmatic and syntagmatic - in the characterization of textual genres and author’s styles.
typdoc
Book sections
Accès au texte intégral et bibtex
https://hal.science/hal-01858402/file/Conscila2015_Grammar%20of%20Genres_Longree_Mellet_mis%20en%20forme_r%C3%A9vis%C3%A9%20SM-DL07juin2017doc.pdf BibTex
titre
Analysing and visualizing textual data with Hyperbase Web Edition
auteur
Laurent Vanni, Dominique Longrée
article
4th Digital Humanities Austria (DHA 2017), Dec 2017, Innsbruck, Austria. 2017
annee_publi
2017
typdoc
Poster communications
Accès au bibtex
BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL