La memoria digitale. XII convegno annuale AIUCD, Jun 2023, Siena, Italy, Italy. pp.254-259
annee_publi
2023
resume
This paper wishes to explore to what extent lemmatisation and morphosyntactic annotation are important for deep learning predictions and textual motif detection. A broader research on the style of Peter Damian's letters (11th century) was the occasion to explore this question. After having trained two deep learning models on a selection of 12 classical authors using the Hyperdeep platform, one on lexical forms alone and the other on lemmatised and annotated texts, we introduced to them the medieval letters of Peter Damian in order to not only examine which authors are deemed to be stylistically close to Peter according to both models, but also to compare whether the results are similar and whether the same linguistic structures receive a high activation rate. The results suggest that a dialogue between both methods could be an interesting path to explore in the search for textual motifs, as the first "lexical" model may indicate rough outlines of these motifs, whereas the second model can offer concrete examples and/or variants of the first motifs identified.
A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
11ème Colloque de l'Association Tourisme Recherche et Enseignement Supérieur (AsTRES), "L'agilité touristique en période de crises : réplications, accélérations, réinventions..?", Association Tourisme Recherche et Enseignement Supérieur; Université Côté d'Azur, Nov 2022, Nice, France
annee_publi
2022
resume
La communication présentée pose l’hypothèse qu’une transformation de l’appréhension du tourisme est induite par la crise de la Covid et que celle-ci est observable dans la Presse. Il est également supposé qu’une différence de traitement se manifeste entre la Presse régionale et la Presse nationale.
JADT 2022 - Proceedings of the 16th International Conference on Statisical Analysis of Textual Data, 2022
annee_publi
2022
resume
Réaliser un étiquetage morphosyntaxique complet et fiable de textes latins est une tâche particulièrement chronophage. Il s’agit dès lors de choisir à bon escient les textes à intégrer à un corpus de comparaison étiqueté lorsque l’on désire étudier les distances intertextuelles entre un auteur donné, en particulier un auteur médiéval, et ses devanciers. Une recherche stylistique sur les lettres de Pierre Damien (XIe siècle) a été l’occasion de s’interroger sur les méthodes à mettre en œuvre pour opérer cette sélection : les distances intertextuelles ont été d’abord calculée sur les formes à l’aide d’analyses arborées ; les résultats ont été ensuite comparés aux prédictions du deep learning, attribuant, avec des taux de reconnaissance variables, des passages de Pierre Damien à divers auteurs du corpus de comparaison : là où l’ADT semble s’appuyer essentiellement sur le lexique, le Convolutional Neural Network prend mieux en compte des paramètres morphosyntaxiques, les zones d’activation fortes suggérant une reconnaissance de motifs linguistiques que Damien partagerait avec certains de ses prédécesseurs.
16th International Conference on Statistical Analysis of Textual Data ( JADTS 2022 ), Jul 2022, Naples, Italie
annee_publi
2022
resume
Convolutional neural networks allow new representations of texts that extend the standard statistical approaches. By combining frequency and context of words as well as allowing multidimensional treatments (graphical form, lemma and part of speech), convolution leads to the extraction of motifs, i.e. complex linguistic patterns that are likely to feed interpretation. In this paper, this architecture is tested on movie scripts in order to explore the hypothesis of a gendered differentiation of female and male dialogues.
Existe-t-il une méthode ADT susceptible de traiter des corpus bilingues non alignés ? Le genre textuel exerce-t-il une contrainte suffisamment forte sur le discours qui rendrait comparable des textes écrits dans des langues différentes sous condition d’être de genre identique ? Pour répondre à ces deux questions, une méthodologique, l’autre linguistique, cette contribution rassemble dans un même corpus les discours politiques présidentiels français et brésiliens de l’époque contemporaine (1950-2020), de de Gaulle à Macron, de Kubitschek à Lula, soit 15 millions de mots. Un parcours méthodologique est proposé du simple dictionnaire des fréquences jusqu’au traitement factoriel des profils concurrentiels des mots, afin d’établir un parler présidentiel générique transnational.
L'étude du participe passé a fait l'objet de nombreuses réflexions dans le domaine de l'analyse des données textuelles : en raison des ambigüités de son profil grammatical, il a été depuis toujours considéré comme difficile à définir pour la recherche textométrique (Brunet, 1988 ; Engwall, 1966). Dans cet article, nous aborderons cette question en soulignant les enjeux de la méthodologie, en décrivant ses limites et ses atouts et en proposant également des solutions à ses limites. Pour ce faire, nous mettrons à l'épreuve Hyperbase, l'un des logiciels d'ADT historiques en France, sur un corpus de littérature française couvrant une période de plus de trois siècles. De la distribution statistique à l'Analyse Factorielle des Correspondances (AFC), nous montrerons que le logiciel permet d'interroger la linguistique concernant les variations d'usage du participe passé en fonction du temps, des oeuvres ou des auteurs. Enfin, une étude de cas viendra illustrer ce parcours interprétatif sur un auteur dont l'oeuvre se caractérise par plusieurs variables (diachronique, linguistique et générique). Ainsi, outre l'exploration des enjeux de la méthode, nous proposerons également un large éventail de pistes de recherche pour l'étude textométrique de cette catégorie grammaticale dans le domaine littéraire.
Le Français Moderne - Revue de linguistique Française, 2022, Nouvelles textualités ?, 90ème année (1), pp.135-153
annee_publi
2022
resume
Cette contribution revient sur la définition d’un texte et de ses unités en supposant que l’Intelligence artificielle est susceptible de modifier nos représentations et nos parcours de lecture. Elle propose une vulgarisation du deep learning du côté de la linguistique textuelle. Ce faisant, elle revient, à la lumière du numérique, sur quelques notions fondamentales comme la textualité, l’intertextualité ou le cercle herméneutique dans la sémantique de corpus
Le temps contraint le langage, comme il contraint les hommes, l’économie ou la culture. Évolution continue du discours ? Permanences lexicales ? Usure des mots et concurrence du vocabulaire au fil du temps ? Rupture du message et volte-face idéologique ? Cet article propose un protocole méthodologique pour traiter, en diachronie, le corpus centenaire des congrès du PCF (1920-2020). Si, depuis le congrès de Tours, des moments chrono-lexicaux remarquables sont distingués dans le communisme français contemporain, l’idée de « périodes » homogènes est discutée : l’approche chronologique du discours révèle la pluralité des rythmes et des vocabulaires face à l’évolution historique enregistrée.