Home > Personal Pages > Laurent Vanni

Laurent Vanni

IR  -  CNRS

Latest publicationsHAL

pour l'idHal "lvanni" :

titre
Hyperbase Web. (Hyper)Bases, Corpus, Langage
auteur
Laurent Vanni
article
Corpus, 2024, 25, ⟨10.4000/corpus.8770⟩
annee_publi
2024
resume
Hyperbase is a Textual Data Analysis software offering statistical tools dedicated to the study of corpora. Initially designed for desktop computers, it’s now available as a web platform offering an interface dedicated for use in the human and social sciences. After an overview of the underlying methodology, this contribution presents the 2024 version of Hyperbase Web, based on concrete examples of use, technical notes and menu items (user manual). This presentation serves as a reference for getting to grips with the software or developing advanced use of Textual Data Analysis methods.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://cnrs.hal.science/hal-04523479/file/Hyperbase_Corpus25_FINAL2-1_resume-relu%20%281%29.pdf BibTex
titre
Digital corpus semantics. Emmanuel Macron, thaumaturge president (2017-2023)
auteur
Damon Mayaffre, Laurent Vanni
article
Espaces Linguistiques, 2023, 6, ⟨10.25965/espaces-linguistiques.562⟩
annee_publi
2023
resume
Artificial Intelligence raises questions about corpus semantics. By taking into account the syntagmatic axis (CNN, convolution) and the paradigmatic axis or "associative relationship" (RNN, transformer), the architecture we present provides an interpretation aid for enhanced corpus semantics. The algorithm implemented in Hyperbase software is applied here to the corpus of Emmanuel Macron (2017-2023), who cultivates, through his discourse, the thaumaturgical dimension of his power: to heal, to protect, to care.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://hal.science/hal-04353800/file/Mayaffre_Vanni_espaces_linguistiques.562.pdf BibTex
titre
To what extent are lemmatisation and annotation relevant for deep learning assignments and textual motifs detection? The case-study of Peter Damian's letters (11 th century)
auteur
Valérie Thon, Laurent Vanni, Dominique Longrée
article
La memoria digitale. XII convegno annuale AIUCD, Jun 2023, Siena, Italy, Italy. pp.254-259
annee_publi
2023
resume
This paper wishes to explore to what extent lemmatisation and morphosyntactic annotation are important for deep learning predictions and textual motif detection. A broader research on the style of Peter Damian's letters (11th century) was the occasion to explore this question. After having trained two deep learning models on a selection of 12 classical authors using the Hyperdeep platform, one on lexical forms alone and the other on lemmatised and annotated texts, we introduced to them the medieval letters of Peter Damian in order to not only examine which authors are deemed to be stylistically close to Peter according to both models, but also to compare whether the results are similar and whether the same linguistic structures receive a high activation rate. The results suggest that a dialogue between both methods could be an interesting path to explore in the search for textual motifs, as the first "lexical" model may indicate rough outlines of these motifs, whereas the second model can offer concrete examples and/or variants of the first motifs identified.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://u-paris.hal.science/hal-04122439/file/Siena_AIUCD_2023.pdf BibTex
titre
From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture
auteur
Laurent Vanni, Marco Corneli, Damon Mayaffre, Frédéric Precioso
article
Corpus, 2023, 24, ⟨10.4000/corpus.7667⟩
annee_publi
2023
resume
A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://hal.science/hal-04004208/file/Vanni_et_al.corpus-7667%281%29.pdf BibTex
titre
« Gallicagram : les archives de presse sous les rotatives de la statistique textuelle »
auteur
Benoît de Courson, Benjamin Azoulay, Clara de Courson, Laurent Vanni, Étienne Brunet
article
Corpus, 2023, 24, ⟨10.4000/corpus.7944⟩
annee_publi
2023
typdoc
Journal articles
Accès au texte intégral et bibtex
https://hal.science/hal-04070114/file/Gallicagram_Corpus.pdf BibTex
titre
Le tourisme dans la presse locale et nationale. Étude des impacts sur le discours pré et post covid-19.
auteur
Sascha Diwersy, Jean-Christophe Gay, Véronique Magri, Laurent Vanni
article
11ème Colloque de l'Association Tourisme Recherche et Enseignement Supérieur (AsTRES), "L'agilité touristique en période de crises : réplications, accélérations, réinventions..?", Association Tourisme Recherche et Enseignement Supérieur; Université Côté d'Azur, Nov 2022, Nice, France
annee_publi
2022
resume
La communication présentée pose l’hypothèse qu’une transformation de l’appréhension du tourisme est induite par la crise de la Covid et que celle-ci est observable dans la Presse. Il est également supposé qu’une différence de traitement se manifeste entre la Presse régionale et la Presse nationale.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.science/hal-04111750/file/COLLOQ~1.PDF BibTex
titre
Le deep learning auxiliaire de l'ADT dans le choix de textes à étiqueter en vue d'un corpus de comparaison : à propos de l'étude stylistique des lettres de Pierre Damien
auteur
Valérie Thon, Laurent Vanni, Dominique Longrée
article
JADT 2022 - Proceedings of the 16th International Conference on Statisical Analysis of Textual Data, 2022
annee_publi
2022
resume
To carry out a complete and reliable morphosyntactic labeling of Latin texts is a particularly time-consuming task. It is therefore necessary to choose wisely the texts to be included in a labelled comparison corpus when one wishes to study the intertextual distances between a given author, in particular a medieval one, and his predecessors. A stylistic research on the letters of Peter Damian (11th century) was the occasion to question the methods to be implemented to operate this selection. The intertextual distances were first computed on the forms using additive tree analysis. The results were then compared to the predictions of the deep learning, attributing with variable recognition rates passages of Damian to various authors of the comparison corpus. Where ADT relies primarily on the lexicon, the Convolutional Neural Network takes into account morphosyntactic parameters, with strong areas of activation suggesting a recognition of linguistic patterns that Damian shares with some of his predecessors.
typdoc
Book sections
Accès au texte intégral et bibtex
https://u-paris.hal.science/hal-03892792/file/JADT2022.pdf BibTex
titre
Convolution et marqueurs multidimensionnels. Description des représentations genrées dans un corpus de films français
auteur
Laurent Vanni, Magali Guaresi, Véronique Magri
article
16th International Conference on Statistical Analysis of Textual Data ( JADTS 2022 ), Jul 2022, Naples, Italie
annee_publi
2022
resume
Convolutional neural networks allow new representations of texts that extend the standard statistical approaches. By combining frequency and context of words as well as allowing multidimensional treatments (graphical form, lemma and part of speech), convolution leads to the extraction of motifs, i.e. complex linguistic patterns that are likely to feed interpretation. In this paper, this architecture is tested on movie scripts in order to explore the hypothesis of a gendered differentiation of female and male dialogues.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.science/hal-03783938/file/JADT2022_paper_38.pdf BibTex
titre
Corpus non alignés et ADT. Essai de comparaison entre les présidents français et brésiliens de l'ère contemporaine
auteur
Carlos Maciel, Damon Mayaffre, Laurent Vanni
article
JADT2022, Jul 2022, Naples, France. pp.568-575
annee_publi
2022
resume
Is there an ADT method that can deal with non-aligned bilingual corpora? Does the textual genre exert a sufficiently strong constraint on the discourse that would make texts written in different languages comparable, provided they are of identical genre? To answer these two questions, one methodological, the other linguistic, this contribution gathers in a single corpus French and Brazilian presidential speeches of the contemporary era (1950-2020), from de Gaulle to Macron, from Kubitschek to Lula, i.e. 15 million words. A methodological path is proposed from the simple frequency dictionary to the factorial treatment of the cooccurrencial profiles of words, in order to establish a generic transnational presidential speech.
typdoc
Conference papers
Accès au texte intégral et bibtex
https://hal.science/hal-03858547/file/Maciel_Mayaffre_Vanni_jadt2022_Style3.pdf BibTex
titre
Le participe passé dans un grand corpus littéraire (1700-2019) : enjeux et limites du traitement textométrique dans Hyperbase
auteur
Federica Beghini, Laurent Vanni
article
L'information grammaticale, 2022, 174, pp.24-31. ⟨10.2143/IG.174.0.3291027⟩
annee_publi
2022
resume
L'étude du participe passé a fait l'objet de nombreuses réflexions dans le domaine de l'analyse des données textuelles : en raison des ambigüités de son profil grammatical, il a été depuis toujours considéré comme difficile à définir pour la recherche textométrique (Brunet, 1988 ; Engwall, 1966). Dans cet article, nous aborderons cette question en soulignant les enjeux de la méthodologie, en décrivant ses limites et ses atouts et en proposant également des solutions à ses limites. Pour ce faire, nous mettrons à l'épreuve Hyperbase, l'un des logiciels d'ADT historiques en France, sur un corpus de littérature française couvrant une période de plus de trois siècles. De la distribution statistique à l'Analyse Factorielle des Correspondances (AFC), nous montrerons que le logiciel permet d'interroger la linguistique concernant les variations d'usage du participe passé en fonction du temps, des oeuvres ou des auteurs. Enfin, une étude de cas viendra illustrer ce parcours interprétatif sur un auteur dont l'oeuvre se caractérise par plusieurs variables (diachronique, linguistique et générique). Ainsi, outre l'exploration des enjeux de la méthode, nous proposerons également un large éventail de pistes de recherche pour l'étude textométrique de cette catégorie grammaticale dans le domaine littéraire.
typdoc
Journal articles
Accès au texte intégral et bibtex
https://shs.hal.science/halshs-03946447/file/Vanni-Beghini_final.pdf BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL