L'intelligence artificielle des textes. Des algorithmes à l'interprétation, 17, Honoré Champion, pp.131-182, 2021, Lettres numériques, 9782815937467
annee_publi
2021
resume
Dès lors qu’il s’agit d’aller plus loin qu’une lecture intuitive, le retour d’expérience de nos devanciers en matière d’analyse assistée par l’ordinateur – de l’Analyse Automatique du Discours (AAD) de Michel Pêcheux à l’Analyse de contenu de Laurence Bardin en passant, centralement pour nous, par la lexicométrie politique de Saint Cloud – doit en effet permettre de répondre, plus vite et mieux, à l’exigence méthodologique qui domine toute pratique scientifique. Concrètement, dans ce chapitre nous posons la question des plus-values attendues du traitement des corpus politiques par les réseaux de neurones artificiels – plus value herméneutique s’entend. Ici le deep learning sera appliqué aux corpus parlementaires de la Vème République (particulièrement la mise à l’épreuve de la partition gauhce/droite, et la situation de la récente majorité En marche !) et au corpus présidentiel (de de Gaulle à Macron).
Jean-Paul Pellegrinetti. Pour une histoire politique de la France méditerranéenne, PUR, pp.231-274, 2021, 9782753581661
annee_publi
2021
resume
Cette contribution entend traiter la parole politique méditerranéenne en France sur le temps long : 1881-2002. Le corpus étudié rassemble toutes les professions de foi de tous les députés français du pourtour méditerranéen sur plus d'un siècle. Systématiquement traquées, scannées et océrisées dans le Barodet depuis la naissance de la III e République, les professions de foi, premier et deuxième tour, que nous avons rassemblées couvrent 28 législatures de 1881 à 2002, et 12 départements de l'arc méditerranéen des Pyrénées-Orientales à la Corse, de la Lozère aux Bouches-du-Rhône ; elles s'élèvent au nombre de 1523 et représentent 1 613 042 mots. Deux arguments centraux seulement seront discutés dans ce chapitre : la diachronie, ry la diatopie. (1) C’est d’abord le temps, les rythmes, la chronologie du corpus qui seront mis à l’épreuve. Si les trois Républiques semblent devoir scander naturellement l’organisation du corpus, avec un fort soupçon que le régime institutionnel informe les discours, nous établirons une chronologie endogène aux professions de foi étudiées en comparant les 28 législatures. Ce sera alors la dialectique entre permanence et changement, rupture et continuité qui sera travaillée sur un temps politique long de 121 ans. (2) C’est ensuite l’espace, la (dis)continuité territoriale, la géographie qui seront pris en compte. De manière synchronique et sur une longue durée (les trois Républiques), les 12 départements méditerranéens sélectionnés seront comparés. C’est l’identité du discours méditerranéen - unité ou pluralité ? - qui sera alors discutée. Les zones de clivages - littoral/pays intérieur ; est/ouest de part et d’autre du Rhône ; départements urbains/départements ruraux, etc. - seront décrites dans leurs expressions discursives
Cet article analyse un grand corpus de presse écrite sur l’islam en Belgique. L’analyse se focalise plus particulièrement sur les segments répétés du corpus, à savoir des « unités fortement récurrentes constituées de plusieurs formes répétées ensemble et dans le même ordre » (Salem, 1986). Parmi tous les segments répétés identifiés, nous avons isolé ceux qui contiennent le mot islam, à savoir 27 expressions nominales (islam de Belgique, islam des Lumières, islam moderne) définies ou indéfinies. Il nous intéresse, en premier lieu, d’étudier la nature de ces syntagmes, à savoir la structure syntaxique et le contenu sémantique qui en font des expressions plus ou moins figées. En deuxième lieu, l’analyse portera sur le sens en discours et la référenciation, par le biais d’une étude des co-occurrences. Ces expressions dénominatives dévoilent les tentatives de définition de l’islam par les énonciateurs et des représentations concurrentes de l’islam en fonction de la place qu’on lui accorde dans la société belge et européenne.
CMLF 2020 - 7ème Congrès mondiale de linguistique française, Jul 2020, Montpellier / Online, France
annee_publi
2020
resume
L'intertexte est la condition de l'interprétation de tout texte. Cependant, sa matérialisation, son explicitation, son implémentation ont toujours paru difficile pour la linguistique textuelle. Cette contribution propose une matérialisation de l'intertexte au sein de corpus réflexifs numériques, et convoque de manière originale l'intelligence artificielle (deep learning, modèle convolutionnel) et la logométrie pour explorer de manière systématique l'intertexte ainsi matérialisé. Pour cette étude, nous postulons que le corpus élyséen depuis 1958 constitue l'intertexte des discours d'Emmanuel Macron, dans lequel le président puise de manière consciente ou inavouée pour construire ses discours. A titre d'exemple, nous mettons ainsi au jour automatiquement les empreintes grammaticales de Giscard dans le discours de Macron, et les emprunts lexicaux que le nouveau président concède à de Gaulle.
JADTs (15esJournées internationales d’Analyse statistique des Données Textuelles), Jun 2020, Toulouse, France
annee_publi
2020
resume
La question de l’islamophobie se trouve, depuis quelques années déjà, au cœur des débats sociaux en France et en Belgique. Dans cet article, nous étudions deux grands corpus de presse généraliste francophone (Le Monde, Le Figaro, Libération, entre 1997 et 2015 ; Le Soir, La libre Belgique, La Dernière Heure et Le Vif entre 2014 et 2018, soit respectivement 37 millions 9,6 millions d’occurrences) qui nous permettront d’observer comment le problème public appelé islamophobie est traité dans deux pays qui se considèrent, chacun à leur manière, laïques. Pour ce faire, nous mettons en œuvre un protocole d’analyse de la co-occurrence, comprise comme unité statistique, textuelle et sémantique.
JADT 2020 : 15es Journées internationales d’Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France
annee_publi
2020
resume
The methods of deep learning, particularly deconvolution, have recently made it possible to go beyond simple classification tasks in order to develop text description tasks. This article proposes to apply the methods of deep learning on a corpus of electoral proclamations by the left and the right between 1958 and 2017. We highlight some salient results to interpret electoral speeches under the French V° Republic in order to emphasize, from a methodological point of view, the added value of deconvolution protocols. We thus point to well-known units of textual statistics (such as specificities, lexical and grammatical co-occurrences). But we also show how the model allows for the formal capture of complex syntagmatic units, which the analysis of textual data has often conceptualized without being able to identify them automatically, such as patterns (« motifs ») or passages.
La logométrie et l’Intelligence artificielle (deep learning) appliquées aux textes politiques permettent de repérer dans le discours d’Emmanuel Macron les emprunts linguistiques qu’il contracte auprès de ses prédécesseurs à l’Elysée (de Gaulle, Pompidou, Giscard, Mitterrand, Chirac, Sarkozy et Hollande). Les emprunts les plus importants, lexicaux autour de la valeur travail et énonciatifs autour de l’exhibition du « je » et du « je veux », concernent statistiquement Nicolas Sarkozy.