Accueil > Pages Perso > Laurent Vanni

Laurent Vanni

IE -  CNRS

Dernières publicationsHAL

pour l'idHal "lvanni" :

titre
Text Deconvolution Saliency (TDS) : a deep tool box for linguistic analysis
auteur
Laurent Vanni, M Ducoffe, D Mayaffre, F. Precioso, D Longrée, V Elango, N. Santos, J. Gonzalez, L Galdo, C Aguilar
article
56th Annual Meeting of the Association for Computational Linguistics, Jul 2018, Melbourne, France
annee_publi
2018
resume
In this paper, we propose a new strategy , called Text Deconvolution Saliency (TDS), to visualize linguistic information detected by a CNN for text classification. We extend Deconvolution Networks to text in order to present a new perspective on text analysis to the linguistic community. We empirically demonstrated the efficiency of our Text Decon-volution Saliency on corpora from three different languages: English, French, and Latin. For every tested dataset, our Text Deconvolution Saliency automatically encodes complex linguistic patterns based on co-occurrences and possibly on grammatical and syntax analysis.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01804310/file/acl2018.pdf BibTex
titre
ADT et deep learning, regards croisés. Phrases-clefs, motifs et nouveaux observables
auteur
Laurent Vanni, Damon Mayaffre, Dominique Longrée
article
JADT 2018, Jun 2018, Rome, Italie
annee_publi
2018
resume
L'extraction de passages-clefs statistiques est d'abord proposée selon plusieurs calculs implémentés dans le logiciel Hyperbase. Uné evaluation de ces calculs en fonction des filtres appliqués (prise en compte des spécificités positives seulement, prise en compte de substantifs seulement, etc) est donnée. L'extraction de passages-clefs obtenus par deep learning-c'est-` a-dire des passages qui ont le meilleur taux de reconnaissance au moment d'une prédiction-est ensuite proposée. L'hypothèse est que le deep learning est bien sûr sensible aux unités linguistes sur lesquelles le calcul des phrases-clefs statistiques se fondent, mais sensiblé egalementàegalement`egalementà d'autres phénomènes que fréquentiels et d'autres observables linguistiques complexes que l'ADT a plus de maì a prendre en compte-comme le seraient des motifs sous-jacents (Mellet et Longrée, 2009). Si cette hypothèse se confirmait, elle permettrait d'une part de mieux appréhender la boˆıteboˆıte noire des algorithmes de deep learning et d'autre part d'offriràoffrir`offrirà la communauté ADT de nouveaux points de vue.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01823560/file/JADT2018_Vanni_Mayaffre_Longree_DEF.pdf BibTex
titre
Analysing and visualizing textual data with Hyperbase Web Edition
auteur
Laurent Vanni, Dominique Longrée
article
4th Digital Humanities Austria (DHA 2017), Dec 2017, Innsbruck, Austria. 2017
annee_publi
2017
typdoc
Poster
Accès au bibtex
BibTex
titre
Hyperbase Web - Outil d'analyse statistique des données textuelles
auteur
Laurent Vanni
article
ECLAVIT 2017, Nov 2017, Paris, France
annee_publi
2017
typdoc
Poster
Accès au bibtex
BibTex
titre
Les mots des candidats, de « allons » à « vertu »
auteur
Damon Mayaffre, Camille Bouzereau, Mélanie Ducoffe, Magali Guaresi, Frédéric Precioso, Laurent Vanni
article
Pascal Perrineau. Le vote disruptif. Les élections présidentielle et législatives de 2017, Presses SciencesPo, pp.129-152, 2017
annee_publi
2017
typdoc
Chapitre d'ouvrage
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01635941/file/Les%20mots%20des%20candidats.pdf BibTex
titre
As palavras, o texto, os corpora e arquivo: o historiador face à linguística. Logometria e análise do discurso
auteur
Damon Mayaffre, Magali Guaresi, Laurent Vanni, Carlos Maciel
article
Texto Digital, Universidade Federal de Santa Catarina, 2017
annee_publi
2017
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01673519/file/Mayaffre_et_al_Texto_Digital.pdf BibTex
titre
How to explore conflicts in French Wikipedia talk pages?
auteur
Céline Poudat, Laurent Vanni, Natalia Grabar
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. Statistics Analysis of Textual Data, Jun 2016, Nice, France. JADT2016 International Conference on Statistical Analysis of Textual Data, 2, pp.645-656, 2016, JADT 2016 - Statistical Analysis of Textual Data
annee_publi
2016
resume
With the exponential development of the Internet, new discourse genres and situations have expanded. These new web genres, which are still little described, are complex objects challenging our methodologies and our analysis tools: the encyclopedic project Wikipedia is one of these new objects which are part of Computer-mediated communication (CMC). The present article concentrates on the exploration of conflicts in Wikipedia talk pages, using Hyperbase Web. Wikipedia data and CMC corpora have been little studied by French linguistics so far, and are still challenging text statistics, notably because of the complexity of such data (multiple annotations, consistent metadata, references between postings and user networks). Based on the Wikiconflits corpus, which is already available and freely usable by researchers, we will propose some methodological avenues to explore Wikipedia data and CMC corpora.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01359416/file/78404.pdf BibTex
titre
Cooccurrences spécifiques et représentations graphiques, le nouveau " Thème " d'Hyperbase
auteur
Laurent Vanni, Adiel Mittmann
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. Presses de FacImprimeur, JADT 2016 - Statistical Analysis of Textual Data, 1, pp.295-305, 2016, Statistics Analysis of Textual Data
annee_publi
2016
resume
Finding word cooccurrences and calculating the specificity scores is one of the most popular statistical methods in the analysis of textual data. Within Hyperbase, there is a " theme " feature for this purpose, which is capable of locating words that are used more commonly near a given word form, grammatical structure or lemma. The graphical representation of such an analysis is often challenging ; more than a list of the cooccurring words, it should be able to indicate the order, the score and the relations between pairs of words. Now that Hyperbase has a Web version, this article proposes a new approach for the " theme " feature : the calculation of cooccurrences has been extended to include the second level. The accompanying graphical representation is betting on new visual features in order to simplify reading the results and render the underlying calculation more explicit. Résumé Le calcul des cooccurrents spécifiques d'un mot est une des méthodes statistiques les plus populaires de l'ADT. Le logiciel Hyperbase a introduit cette notion avec la fonction " Th eme " qui rend compte du lexique surutilisé autour d'une forme, d'une structure grammaticale ou d'un lemme. La représentation graphique d'une telle analyse est souvent loin d'ˆ etré evidente. Plus que la simple liste des cooccurrents spécifiques , elle se doit de nous indiquer aussi l'ordre, l'´ ecart ainsi que les relations entre chaque paire de mots. Avec l' arrivée de la version Web d'Hyperbase, nous proposons aujourd'hui une nouvelle approche de cette fonction. Le calcul se voit pour l'occasion approfondi, lui permettant d'identifier la cooccurrence dedeuxì eme niveau. La représentation graphique, quant a elle, fait le pari de simplifier la lecture du résultat de cette analyse tout en explicitant plus précisément les calculs sous-jacents.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01359413/file/85261.pdf BibTex
titre
Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle -Hollande (1958-2016)
auteur
Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Frédéric Lavigne, Laurent Vanni, A Tre-Hardy
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. Presses de FacImprimeur, JADT - Statistical Analysis of Textual Data, Volume 1, pp.157-168, 2016, JADT 2016 - Statistical Analysis of Textual Data. 〈https://jadt2016.sciencesconf.org/〉
annee_publi
2016
resume
Author identification and text genesis have always been a hot topic for the statistical analysis of textual data community. Recent advances in machine learning have seen the emergence of machines competing state-of-the-art computational linguistic methods on specific natural language processing tasks (part-of-speech tagging, chunking and parsing, etc). In particular, Deep Linguistic Architectures are based on the knowledge of language speci-ficities such as grammar or semantic structure. These models are considered as the most competitive thanks to their assumed ability to capture syntax. However if those methods have proven their efficiency, their underlying mechanisms, both from a theoretical and an empirical analysis point of view, remains hard both to explicit and to maintain stable, which restricts their area of applications. Our work is enlightening mechanisms involved in deep architectures when applied to Natural Language Processing (NLP) tasks. The Query-By-Dropout-Committee (QBDC) algorithm is an active learning technique we have designed for deep architectures: it selects iteratively the most relevant samples to be added to the training set so that the model is improved the most when built from the new training set. However in this article, we do not go into details of the QBDC algorithm-as it has already been studied in the original QBDC article-but we rather confront the relevance of the sentences chosen by our active strategy to state of the art phraseology techniques. We have thus conducted experiments on the presidential discourses from presidents C. De Gaulle, N. Sarkozy and F. Hollande in order to exhibit the interest of our active deep learning method in terms of discourse author identification and to analyze the extracted linguistic patterns by our artificial approach compared to standard phraseology techniques.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01343209/file/JADT2016_Ducoffe_et_al.pdf BibTex
titre
JADT 2016 - Statistical Analysis of Textual Data
auteur
Damon Mayaffre, Céline Poudat, Laurent Vanni, Véronique Magri, Peter Follette
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. 2, Presses de FacImprimeur, 862 p., 2016, 978-2-7466-9067-7
annee_publi
2016
resume
Proceedings of 13 th International Conference on Statistical Analysis of Textual Data 7-10 June 2016 - Nice
typdoc
Direction d'ouvrage, Proceedings, Dossier
Accès au bibtex
BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL