Accueil > Pages Perso > Céline Poudat

Céline Poudat

MCF -  UNS

Site personnel

http://poudat.fr

Dernières publicationsHAL

pour l'idHal "celine-poudat" :

titre
CORLI: A Linguistic Consortium for Corpus, Language and Interaction
auteur
Christophe Parisse, Céline Poudat, Ciara Wigham, Michel Jacobson, Loïc Liégeois
article
CLARIN Annual Conference 2017, Sep 2017, Budapest, Hungary
annee_publi
2017
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
titre
Closing a gap in the language resources landscape : Groundwork and best practices from projects on computer-mediated communication in four European countries.
auteur
Michael Beißwenger, Thierry Chanier, Isabella Chiari, Tomaž Erjavec, Darja Fišer, Axel Herold, Nikola Ljubešić, Harald Lüngen, Céline Poudat, Egon Stemle, Angelika Storrer, Ciara Wigham
article
CLARIN Annual Conference 2016, Oct 2016, Aix-en-Provence, France. 136, Linköping Electronic Conference Proceedings, pp.1-19, 2017, Selected papers from the CLARIN Annual Conference 2016, 978-91-7685-499-0. 〈http://www.ep.liu.se/ecp/contents.asp?issue=136〉
annee_publi
2017
resume
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
typdoc
Direction d'ouvrage, Proceedings, Dossier
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01379621/file/CLARIN2016-cmccorpora-rev-final.pdf BibTex
titre
Explorer un corpus textuel
auteur
Céline Poudat, Frédéric Landragin
article
De Boeck, pp.240, 2017, Champs linguistiques, 978-2807305632
annee_publi
2017
resume
Avec le virage numérique, les pratiques du linguiste ont sensiblement évolué. Décrire des discours et des usages ou mettre en évidence des phénomènes linguistiques particuliers passe de plus en plus par l’exploitation de corpus numériques pour mettre à l’épreuve ses hypothèses. Cette pratique fait appel à de nombreux procédés, pour lesquels des repères méthodologiques s’avèrent indispensables : quelle méthode choisir pour quel objectif de recherche ? Pourquoi annoter un corpus ? Comment mettre au jour sa structure, ou dégager ses spécificités ? Quels sont les outils mobilisables ? L’originalité de cet ouvrage est de proposer à l’analyste, de manière pratique et située, un ensemble de repères méthodologiques en lien avec les usages et les outils d’exploration de corpus les plus mobilisés dans le champ linguistique français. Il s’appuie sur un contexte institutionnel et des réflexions collectives menées dans le cadre d’un groupe de travail sur l’exploration de corpus et balise les méthodes présentées d’exemples concrets de recherches et d’outils exploitables.
typdoc
Ouvrage (y compris édition critique et traduction)
Accès au bibtex
BibTex
titre
Wikiconflits : un corpus de discussions éditoriales conflictuelles du Wikipédia francophone
auteur
Céline Poudat, Natalia Grabar, Camille Paloque-Berges, Thierry Chanier, Jin Kun
article
Ciara R. Wigham & Gudrun Ledegen. Corpus de communication médiée par les réseaux : construction, structuration, analyse, L'Harmattan, 2017, 978-2-343-11212-1
annee_publi
2017
resume
Si Wikipédia (WP), qui fête aujourd'hui ses quinze ans, a donné lieu à de nombreuses études et projets de recherche qui ont permis de saisir différents aspects de son fonctionnement, de sa gouvernance ou encore des processus de réécriture à l'œuvre dans les articles, le projet encyclopédique a surtout été observé par les sciences sociales, et la question de l'écriture collaborative a été plutôt abordée du point de vue de la coopération (e.g. Viegas et al. 2004, Brandes & Lemer 2007, Kittur & Kraut 2008, Stvilia et al. 2008) que de celui de l'écriture, et des caractéristiques linguistiques et discursives particulières que le projet encyclopédique et son dispositif induisent. Le corpus Wikiconflits, qui est l'objet du présent article, a été développé pour pallier cette situation et encourager les études linguistiques sur le projet encyclopédique, du moins est­ ce l'une de nos ambitions. Wikiconflits s'articule ainsi autour des pages de discussion éditoriale associées aux articles encyclopédiques. Si le processus normal d'une édition d'article sur WP est collaboratif et constructif - c'est le cas de la grande majorité du WP anglophone, la coopération peut être plus ardue et entraîner des conflits éditoriaux. En tant que frontières de la discussion et la collaboration, les conflits nous semblent des objets particulièrement intéressants à aborder pour caractériser ce nouveau genre discursif de la page de discussion éditoriale et collaborative. Nous avons ainsi choisi de nous concentrer sur les articles ayant été le lieu de conflits, voire de guerres éditoriales. L'objectif du présent article est de présenter le corpus Wikiconflits, de ses principes de constitution à sa construction, en explicitant également les perspectives de recherche dans lesquelles nous souhaitons le mobiliser.
typdoc
Chapitre d'ouvrage
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01485427/file/CorpusCMR_Poudat_et_al.pdf BibTex
titre
French Wikipedia Talk Pages: Profiling and Conflict Detection
auteur
Lydia-Mai Ho-Dac, Veronika Laippala, Céline Poudat, Ludovic Tanguy
article
4th Conference on CMC and Social Media Corpora for the Humanities, Sep 2016, Ljubljana, Slovenia. Proceedings of the 4th Conference on CMC and Social Media Corpora for the Humanities. 〈http://nl.ijs.si/janes/cmc-corpora2016/〉
annee_publi
2016
resume
Wikipedia is a popular and extremely useful resource for studies in both linguistics and natural language processing (Yano and Kang, 2008; Ferschke et al., 2013). This paper introduces a new language resource based on the French Wikipedia online discussion pages, the WikiTalk corpus. The publicly available corpus includes 160M words and 3M posts structured into 1M thematic sections and has been syntactically parsed with the Talismane toolkit (Urieli, 2013). In this paper, we present the first results of experiments aiming at classifying and profiling the talk pages and threads in order to determine criteria for selecting discussions with conflicts.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01378349/file/HodacLaippalaPoudatTanguy_vf.pdf BibTex
titre
How to explore conflicts in French Wikipedia talk pages?
auteur
Céline Poudat, Laurent Vanni, Natalia Grabar
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. Statistics Analysis of Textual Data, Jun 2016, Nice, France. JADT2016 International Conference on Statistical Analysis of Textual Data, 2, pp.645-656, 2016, JADT 2016 - Statistical Analysis of Textual Data
annee_publi
2016
resume
With the exponential development of the Internet, new discourse genres and situations have expanded. These new web genres, which are still little described, are complex objects challenging our methodologies and our analysis tools: the encyclopedic project Wikipedia is one of these new objects which are part of Computer-mediated communication (CMC). The present article concentrates on the exploration of conflicts in Wikipedia talk pages, using Hyperbase Web. Wikipedia data and CMC corpora have been little studied by French linguistics so far, and are still challenging text statistics, notably because of the complexity of such data (multiple annotations, consistent metadata, references between postings and user networks). Based on the Wikiconflits corpus, which is already available and freely usable by researchers, we will propose some methodological avenues to explore Wikipedia data and CMC corpora.
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.archives-ouvertes.fr/hal-01359416/file/78404.pdf BibTex
titre
JADT 2016 - Statistical Analysis of Textual Data
auteur
Damon Mayaffre, Céline Poudat, Laurent Vanni, Véronique Magri, Peter Follette
article
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. 2, Presses de FacImprimeur, 862 p., 2016, 978-2-7466-9067-7
annee_publi
2016
resume
Proceedings of 13 th International Conference on Statistical Analysis of Textual Data 7-10 June 2016 - Nice
typdoc
Direction d'ouvrage, Proceedings, Dossier
Accès au bibtex
BibTex
titre
TEI across corpora, languages and genres: Towards a standard for the representation of social media and computer-mediated communication
auteur
Michael Beißwenger, Thierry Chanier, Eric Ehrhardt, Axel Herold, Harald Lüngen, Céline Poudat, Angelika Storrer
article
Text Encoding Initiative: connect, animate, innovate. 2015 Annual Conference and Members’ Meeting of the TEI Consortium, Oct 2015, Lyon, France. 2015, 〈http://tei2015.huma-num.fr〉
annee_publi
2015
resume
The panel presents results and ongoing work from corpus projects in which TEI-P5 has been adopted for the representation and linguistic annotation of genres of social media and computer-mediated communication (CMC). It relates to the work of the TEI-SIG “computer-mediated communication” which is developing TEI models for the representation of CMC genres and testing these models for a broad range of genres (ranging from “text-only” genres such as chat and SMS to multimodal genres such as learning environments and Second Life) and in corpus building initiatives for various European languages. The goal of the panel is to give an overview of models and practices in representing CMC in TEI on the example of German and French CMC corpora. A documentation and ODD files of the schemas developed by the group will be made available in the TEI wiki and be announced via the TEI mailing list before the conference so that everybody who is interested in participating in the discussion can examine the CMC models in advance. The discussion in the panel shall serve as an opportunity for collecting feedback on these models and schema drafts from a broader community within the TEI who is interested in adapting TEI-P5 for the representation of new (digital) genres. This feedback will be taken into consideration when revising the models and – as a next step after the conference – preparing feature requests for adapting the TEI for CMC.
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
titre
The CoMeRe French CMC corpora and their modeling in TEI
auteur
Thierry Chanier, Céline Poudat, Ciara Wigham
article
ird-cmc-rennes: Social Media and CMC Corpora for the eHumanities., Oct 2015, Rennes, France. 2015, 〈http://ird-cmc-rennes.sciencesconf.org/〉
annee_publi
2015
resume
CoMeRe (acronym which in French stands for network mediated communication) is a national project involving researchers from 8 different research units to develop a repos-itory of CMC all modeled within the same extension of the TEI (Chanier et al. 2014). The project was carried out from 2013 to 2015 with the support of Corpus-Ecrits (http://corpusecrits.huma-num.fr/, a national research consortium on written corpora) and Ortolang (http://www.ortolang.fr, a national infrastructure for tools and corpora on French language),. Three key principles underlie CoMeRe: variety, openness and standards. “Variety” is one of our keywords since we have assembled interactions stemming from networks such as the Internet or telecommunications (mobile phones), as well as mono- and multimodal, and synchronous and asynchronous communications. The genres covered within CoMeRe include text or oral chats, email, discussion forums, blogs, tweets, audio-graphic conferencing systems (conference systems with text, audio, and iconic signs for communication), or even collaborative working/learning environments with verbal and nonverbal communication. “Openness” is our second keyword. The first set of 11 corpora has been released (http://hdl.handle.net/11403/comere) as open data on Ortolang. Our wish to release CoMeRe corpora as open data stems from the fact that, although studies on new CMC communication genres draw much attention, there is cur-rently no existing dataset with significant coverage to form the basis for systematic re-search. "Standards" refers to two different aspects. Firstly, corpora have been structured and referred to in a uniform way. The TEI-IS is the model developed as an extension of the TEI in order to encompass the Interaction Space (IS) of CMC multimodal discourse. “Standards” also refers to the uniform basic level of automatic annotations, related to segmentation and part of speech (POS) tagging which is underway.
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
titre
The French CoMeRe Wikiconflits subcorpus
auteur
Céline Poudat, Natalia Grabar, Camille Paloque-Berges
article
Médias sociaux et corpus de communication médiée par les réseaux, Oct 2015, Rennes, France
annee_publi
2015
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
  • + de résultats dans la Collection HAL du laboratoire BCL
  • Voir l'ensemble des résultats sur la plateforme HAL