Home > Resources > Developed Software > ESTELA
STatistical operating software for LAtin texts
> Présentation Générale

Présentation Générale

Contexte de développement

Les latinistes ont la chance de disposer depuis fort longtemps de corpus textuels numérisés, et pour certains, lemmatisés et étiquetés. La principale banque de textes latins lemmatisés est celle du LASLA (Laboratoire d’Analyse Statistique des Langues Anciennes, de l’Université de Liège) avec lequel le laboratoire entretient des relations de longue date si bien qu’il a à disposition l’ensemble des données du LASLA qui couvrent une part importante de la littérature latine classique. Les textes sont codés de façon à ce qu’à chaque forme graphique soit associée une étiquette donnant l’ensemble de ses caractéristiques morphologiques, son positionnement dans le texte et dans la phrase et son lemme de rattachement (entrée de dictionnaire). A partir de là, tout logiciel d’exploitation automatique des textes doit pouvoir travailler aussi bien sur les informations contenues dans ces étiquettes que sur les formes graphiques elles-mêmes. C’est à développer ce type d’outils que se sont appliqués notamment D. Longrée et S. Mellet. Ils ont d’une part collaboré avec É. Brunet pour adapter le logiciel HYPERBASE à ces textes latins ainsi codés, d’autre part ils ont développé un outil spécifique, ESTELA.

Les fonctionnalités d’ESTELA

Les différents menus du logiciel permettent de rechercher :

  • toutes les occurrences d’un lemme, d’une forme, d’une classe de mots, d’un cas nominal singulier et/ou pluriel, d’une analyse verbale (temps, mode, voix ou personne, ou combinaison de ces différents critères), d’un type de subordonnée ;
  • toutes les cooccurrences de deux de ces éléments au sein d’une même phrase ou à l’intérieur d’une séquence de X mots (X = nombre de mots variable à déterminer par l’utilisateur). Ainsi, par exemple, le logiciel permet de relever automatiquement toutes les phrases contenant à la fois un impératif et un vocatif ou toutes les occurrences de l’adverbe iam (« déjà ») se trouvant dans l’environnement immédiat d’un participe passé (trois mots devant, trois mots derrière) ;
  • une exclusion de cooccurrence, c’est-à-dire toutes les occurrences d’une forme, d’un lemme ou d’une catégorie grammaticale sauf celles qui sont accompagnées de telle autre forme, tel autre lemme ou telle autre catégorie grammaticale.
  • l’association d’un type d’adjectif (par ex. en -icus ou en -bilis) avec les substantifs que ces adjectifs déterminent dans le texte ;
  • tous les mots (lemmes) commençant par une chaîne donnée de 8 lettres au maximum ou tous les mots se terminant de même par une chaîne de lettres à définir ;
  • le même programme permet en outre de faire apparaître à l’écran des tableaux récapitulatifs sur la distribution des principales catégories grammaticales (par ex. nombre global des adjectifs dans le texte et nombre de comparatifs et de superlatifs ; ou nombre global des formes verbales et distribution selon le temps, le mode et la voix).

Par ailleurs, le logiciel offre un index fréquentiel et la possibilité d’extraire de celui-ci une classe de mots (les pronoms par ex.) jusqu’à un seuil de fréquence à définir (par ex. les dix pronoms les plus fréquents du texte).

Il permet également d’obtenir une image de la distribution d’un lemme ou d’une catégorie verbale dans un texte, en décomptant automatiquement le nombre de mots qui séparent deux occurrences successives de ce lemme ou de cette catégorie, quelles que soient les formes différentes que lui donne sa flexion. La distribution, régulière ou non au fil du texte, du paramètre ainsi recherché est représentée par un graphe, ainsi que par une courbe de valeurs des distances. Enfin un algorithme calcule la moyenne théorique des distances entre deux occurrences du paramètre dont on étudie la distribution, la variance des écarts observés, ainsi que la différence quadratique à la moyenne, ce qui permet de calculer in fine un indice de la plus ou moins grande irrégularité de la distribution.

Notons enfin qu’il est possible, grâce à ESTELA, de convertir la succession des formes fléchies constitutive d’un texte latin en une succession des lemmes (ou entrées de dictionnaire) correspondants ; ainsi, l’on obtient un texte auquel on peut appliquer des logiciels de recherche documentaire ou de traitement statistique conçus pour le français et ne travaillant que sur formes graphiques sans que les résultats soient bruités par la très grande variabilité des formes latines.

Evolution

On en est actuellement à la version 3 du logiciel, qui a sensiblement évolué depuis ses débuts. Les évolutions connues par le logiciel sont directement liées aux besoins de la recherche et au souci de sa meilleure adéquation aux questionnements des chercheurs.

En effet ESTELA était à l’origine principalement orienté vers le traitement automatique des catégories du verbe ; c’était donc un outil artisanal développé par S. Mellet pour répondre exclusivement à ses propres besoins de recherche sur le verbe latin.

Les sollicitations de Ch. Kircher, autre membre de l’équipe « Langues anciennes et informatique » intéressée principalement par les adjectifs et la dérivation nominale, et, surtout, le développement d’une collaboration étroite avec D. Longrée pendant les deux années de sa délégation au CNRS, ont suscité la version 2 du logiciel qui intégrait désormais le traitement automatique des autres catégories, nominales en particulier, ainsi que l’exploitation de l’index fréquentiel.

Enfin, les récents travaux de D. Longrée, X. Luong et S. Mellet sur la topologie textuelle ont été à l’origine de l’actuelle version 3 avec son module d’analyse de la distribution des formes au fil des textes. La qualité de l’interface a également été améliorée.

Diffusion et valorisation

Ce logiciel (associé à HYPERBASE-Latin) a fait l’objet d’un stage organisé à Nice les 8, 9 et 10 juillet 2002, pris en charge par la formation permanente du CNRS. Dix stagiaires ont ainsi pu s’initier à son maniement et découvrir diverses possibilités d’application.

Le logiciel étant (comme HYPERBASE-Latin) indissolublement associé aux bases textuelles du LASLA, sa diffusion a fait l’objet d’une convention signée en 2004 avec l’Université de Liège, aux termes de laquelle le laboratoire BCL est responsable de la diffusion sur CD-Rom de l’ensemble /base de données + logiciels/ et reverse annuellement 40% des ventes à l’Université de Liège après clôture du budget.

published by Tobias Scheer - updated on