Par Carlos MACIEL.
1 - Présentation.
PORTEXT est une base de données textuelles en langue portugaise dont j’ai proposé la création à Nice, en 1988/1989, au sein de l’UPRESA Bases Corpus Langage (UPR 6861), du CNRS. L’équipe PORTEXT comprenait nos deux collègues lecteurs de la section de portugais (Ana Maria VILHENA et Tomás Ramires PEREIRA DE VILHENA), Xuan LUONG (UPR 6861), ainsi qu’une dizaine d’autres chercheurs (en DEA et en doctorat).
Le modèle était parfaitement identifié ; il s’agissait en effet de créer des structures susceptibles de permettre à la langue portugaise de disposer d’un outil aussi important et performant que la base FRANTEXT.[2] Le projet était certes ambitieux, mais il répondait à un besoin réel qui s’exprime tous les jours, notamment si nous tenons compte du fait que le monde lusophone n’a pas une grande tradition lexicographique.
Ceci nous a inévitablement conduit à adopter la même logique ainsi que les critères généraux de la grande soeur de langue française. Une seule grande différence s’imposait d’emblée et qui tenait au fait que la base PORTEXT devait intégrer des textes de tous les pays lusophones ; par ailleurs, nous avons également dès le départ envisagé de traiter des textes assez diversifiés et, notamment, un certain nombre de documents fondamentaux appartenant au vaste domaine du droit, du commerce, des affaires.
Il va alors de soi que des questions essentielles ont été immédiatement soulevées ; elles concernent par exemple le problème épineux des variantes orthographiques (entre les usages brésiliens et portugais, ainsi qu’africains) et la réflexion sur la mise en place de la nouvelle réforme de l’orthographe, souhaitée par l’ensemble des pays lusophones.[3] Nous avons cherché à apporter des réponses satisfaisantes à ces questions, sans éluder d’ailleurs tout ce qui concerne également les droits d’auteur.[4]
Les premiers documents ont été immédiatement saisis et traités - il s’agissait des constitutions du Portugal et du Brésil (disposées chronologiquement)[5]. Et d’autres textes sont rapidement venus s’ajouter à la liste des titres disponibles.[6]
Monsieur José Augusto Seabra, alors Ambassadeur du Portugal auprès de l’UNESCO, Professeur à l’Université de Porto, a rendu visite au Laboratoire, à Nice, en 1992 ; et, en sa qualité de membre du Conseil de la JNICT[7], il a présenté et soutenu le projet PORTEXT auprès de cette instance portugaise. M. F. Ramoa Ribeiro, vice-président de la JNICT, a ainsi fait savoir au responsable niçois du Projet qu’il souhaitait que la base PORTEXT soit intégrée aux Accords de coopération CNRS-JNICT.[8]
Il nous fallait toutefois trouver un partenaire portugais. Notre choix s’est tout naturellement porté sur le nom de Mme. Maria Teresa Rijo da Fonseca LINO qui, en tant que responsable du projet général concernant la lexicologie et la lexicographie du Centre d’Études comparées de l’Université Nouvelle de Lisbonne, était notre parceiro tout indiqué ; et elle a officiellement demandé, en décembre 1992, à être intégrée aux activités liées au "Projecto francês PORTEXT"[9].
Ce projet, dont le point d’ancrage est à Nice, a pu ainsi trouver ses prolongements (officiels et naturels) au Portugal. L’équipe niçoise était déjà constituée, et Mme. LINO conduisait désormais les travaux de l’antenne du projet à Lisbonne. Une ouverture sur le Brésil, également indispensable, a donné lieu à une collaboration avec l’UNESP[10] et, notamment, avec l’USP[11]. Notre équipe niçoise a ainsi pu accueillir en trois ans plusieurs collègues et étudiants brésiliens, surtout de l’état de São Paulo.
2 - Une base généraliste.
La vocation de PORTEXT est bien entendu généraliste. À l’heure actuelle, une centaine d’ouvrages entièrement saisis - intègrent le corpus (textes du XXème siècle uniquement - pour l’instant). Les textes littéraires sont majoritaires, mais un certain nombre d’autres textes, qui relèvent du discours politique[12] ainsi que du domaine juridique et administratif font également partie du corpus. Une place importante est en conséquence accordée au champ des textes se prêtant aux études terminologiques et, plus généralement, aux langues de spécialité.[13]
3 - Les moyens.
Les moyens ont pour l’essentiel été ceux que l’U.P.R. 6861 du CNRS a pu mettre à la disposition du responsable niçois du projet et de son équipe, dans un local destiné aux activités menées dans le cadre du Projet PORTEXT et aux chercheurs (au niveau des mémoires de D.E.A. et des thèses).[14]
Pour la constitution du fonds bibliographique, le Projet PORTEXT a pu bénéficier de l’aide du Ministère portugais compétent (Institut Camões).
4 - La constitution de la base de données - L’avancement des travaux -ésultats.
La base s’est considérablement enrichie depuis sa création. Les textes portugais (XXème siècle) sont toujours les plus nombreux et José Saramago, Manuel Alegre[15], et Vergílio Ferreira[16], parmi beaucoup d’autres - auxquels, précisons-le, ont doit ajouter les discours du Président Mário Soares et les six volumes des discours de Salazar -, font déjà partie du corpus ; la présence du Brésil s’est sensiblement renforcée, ainsi que celle de l’Angola, et le Mozambique a fait son entrée.
Six mémoires de D.E.A. ont été soutenus sur le Brésil et le Portugal (et, en général, sur le lexique) ; l’Afrique lusophone a pu faire l’objet d’un premier mémoire de maîtrise.[17]
Ces premiers résultats - quoique encore modestes - parlent d’eux mêmes, dans la mesure où ils rendent compte à la fois de la diversité des sources et de l’intérêt des faits mis en évidence.
5 - La gestion des données linguistiques.
L’information est traitée sous l’angle de l’analyse des données textuelles et la base niçoise fait notamment appel au logiciel Hyperbase (conçu par Étienne BRUNET[18]) et aux analyses arborées (de Xuan LUONG)[19]. Les aspects documentaires - accès aux mots, aux contextes et concordances - sont ainsi complétés par les listes de fréquences et l’analyse statistique de la distribution dans le corpus des différentes unités qui composent le texte (mots, formes, unités de texte, unités de lexique).
6 - Le volet documentaire.
Le logiciel permet certes l’accès au mot (occurrence) - ou à la forme (au sens que donne Charles MULLER à ces vocables, et dans la mesure où la lemmatisation n’intervient pas à ce niveau de l’analyse) - mais il permet aussi des investigations poussées dans le domaine documentaire ou textuel. Il s’agit là de groupes ordonnés : la liste des formes par ordre alphabétique ou par ordre décroissant des fréquences (hiérarchie) est ainsi immédiatement livrée au chercheur. Toutefois, l’accès au texte - ou au mot dans la page - est également à chaque instant possible ; un simple geste suffit en effet pour que l’ordinateur livre au chercheur concordances et contextes - des formes, mais aussi des vocables (singulier et pluriel associés) ou encore des suites de mots (lexies complexes, par exemple).
Les concordances nous permettent ainsi de replacer la forme dans son environnement lexical immédiat, de dégager des constantes au niveau des "préférences" qui s’expriment, de mettre au jour les morphèmes discontinus, de découvrir, dans la totalité des usages ou au niveau d’un texte donné, les lexies. L’observation de la forme justiça dans les constitutions portugaises nous permet ainsi par exemple de constater que ce mot a connu une forte expansion dans les textes constitutionnels portugais depuis 1971 (ce qui va d’ailleurs de pair avec l’explosion du droit dans les sociétés contemporaines).[20] Les cooccurrences nous livrent quant à elles d’autres secrets - et c’est le cas par exemple si nous observons les réalisations de direito et liberdade dans le texte de 1989 (liberdade de associação et liberdade de imprensa y manifesteront ainsi leur présence).
Concordances : exemple : le mot "justiça" dans la constitution de 1976
76 74c| capaz de assegurar a paz e a justiça nas relações entre os povos. 76 79d| seus direitos, não podendo a justiça ser denegada por insuficiência 76 81b| ARTIGO 24deg. ( Provedor de Justiça ) 1 . Os cidadãos podem 76 81b| públicos ao Provedor de Justiça, que as apreciará sem poder 76 81c| 2 A actividade do Provedor de Justiça é independente dos meios 76 81c| e nas leis. 3. O Provedor de Justiça é designado pela Assembleia da 76 132d| perante o Supremo Tribunal de Justiça . 76 134a| perante o Supremo Tribunal de Justiça. 2.A posse efectua-se 76 135b| perante o Supremo Tribunal de Justiça. 2.Ao Conselho da Revolução 76 151c| d ) Designar o Provedor de Justiça, um dos membros da Comissão 76 170d|competência para administrar a justiça em nome do povo . Artigo 206. 76 170d| Na administração da justiça incumbe aos tribunais assegurar 76 172a| e o Supremo Tribunal de Justiça . 2 .Haverá tribunais 76 172b|lação e o Supremo Tribunal de Justiça podem funcionar em secções 76 172d| 3.O Supremo Tribunal de Justiça funcionará como tribunal de 76 173a| 215.deg. (Supremo Tribunal de Justiça ) O Supremo Tribunal de 76 173a|Justiça Supremo Tribunal de Justiça é o órgão superior da 76 173b| popular na administração da justiça. 2. A lei poderá estabelecer 76 192c| e à lei e devem actuar com justiça e imparcialidade no exercício 76 200b| - Ministro, do Provedor de Justiça, do Procurador-Geral da 76 202a| pelo Supremo Tribunal de Justiça e os restantes pelo Conselho 76 206d| ressalvados o Código de Justiça Militar e legislação 76 211d| e ao Supremo Tribunal de Justiça .
Cooccurrences : exemple : liberdade et direito dans la constitution de 1989
retroactividade da lei criminal, o DIREITO de defesa dos arguidos e a LIBERDADE de consciência e de religião .
.............................. Page : 388 c C - 89 Occurr. 1
(DIREITO à LIBERDADE e à segurança ) .
............................. Page : 391 d C - 89 Occurr. 1
1 . Todos têm DIREITO à LIBERDADE e à segurança
............................... Page : 391 d C - 89 Occurr. 1
1 . O DIREITO à informação , a LIBERDADE de imprensa e a independência dos meios de comunicação social perante o poder
.............................. Page : 404 a C - 89 Occurr. 1
2 . Esta LIBERDADE compreende o DIREITO à invenção , produção e
.............................. Page : 407 b C - 89 Occurr. 1
2 . Todos os cidadãos têm o DIREITO de acesso à função pública , condições de igualdade e LIBERDADE , em regra por via de concurso.
............................. Page : 409 c C - 89 Occurr. 1
1 . Todos os cidadãos têm o DIREITO de acesso , em condições de igualdade e LIBERDADE , aos cargos públicos .
.............................. Page : 410 c C - 89 Occurr. 1
1 . A LIBERDADE de associação compreende o DIREITO de constituir
.............................. Page : 411 a C - 89 Occurr. 1
7 - Le volet statistique.
Le logiciel de gestion de la base PORTEXT livre également au chercheur un certain nombre de données numériques brutes (fréquences) ; il permet en outre de mesurer, par l’application des lois de la statistique, l’importance des écarts qui résultent de la comparaison entre les données observées et un modèle (théorique, mathématique).
Nous pouvons ainsi nous intéresser, par exemple, à la question qui tient à la distribution du vocabulaire, à la richesse lexicale, à l’accroissement chronologique du vocabulaire (expansion) ou encore au vocabulaire spécifique ou caractéristique d’un texte ou d’une étape historique.
Les substantifs les plus fréquents
textes constitutionnels portugais
(fréquences supérieures à 200).
Le vocable direito(s) a 734 occurrences (442+292)
Mot Fréquence 71 76 82 89 assembleia 595 96 157 161 181 cidadãos 213 19 63 63 68 conselho 241 26 98 61 56 constituição 269 26 93 71 79 direito 442 37 114 144 147 direitos 292 28 75 89 100 estado 593 112 130 172 179 exercício 206 22 57 61 66 governo 442 65 111 125 141 nacional 287 105 49 64 69 órgãos 273 21 77 84 91 presidente 381 62 106 102 111 república 699 35 204 217 243 termos 224 22 49 66 87
8 - Le vocabulaire spécifique.
Grâce aux calculs statistiques, nous pouvons en effet connaître le vocabulaire caractéristique de chaque texte qui compose la base. La constitution de 1971 est ainsi par exemple dominée par les vocables nação et nacional, ou encore chefe et ordem, alors que le texte de 1976 est d’abord celui de la revolução et du conselho (appelés d’ailleurs tous les deux à constituer une lexie - conselho da revolução), mais nous y trouvons également classes trabalhadoras, comissões et, inévitablement, la réforme agrária.
Ajoutons à ces observations le fait que les vocables república et trabalhadores sont tous les deux fortement déficitaires (spécifiques négatifs) dans le texte de 71. República progresse néanmoins de manière sensible depuis 1976, et stabilise sa présence, alors que la forme trabalhadores ne connaît pas le même sort ; cette dernière forme perd en effet peu à peu de son importance, notamment dans le texte de 1989.
9 - Quelques mots pour conclure.
Voilà donc quelques faits majeurs que la base PORTEXT nous permet déjà d’entrevoir et ce qu’elle peut encore nous offrir. Voilà donc, grâce au logiciel qui nous permet de la gérer, le type de contribution qu’elle peut apporter, sur le plan de la méthode ainsi que sur celui, plus général, de la gestion des quantités disponibles. Les références sont là, suffisament nombreuses, et les matériaux sont là aussi, qui nous permettront, dans un proche avenir, d’envisager également les croisements des données ainsi que l’approche lexicographique et contrastive.
Base PORTEXT - textes disponibles à Nice
Pays Genre Auteurs Titres Afrique lusophone 22 41 Angola littérature 16 26 Cap Vert littérature 5 14 Mozambique littérature 1 1 Portugal 49 littérature 9 31 politiques 2 11 juridiques 7 Brésil 12 littérature 6 8 juridiques 5 Total Auteurs Titres Afrique lusophone 22 41 Portugal 11 49 Brésil 6 13 TOTAL 39 103
I - Angola :
1-Arnaldo Santos - O Cesto de Katandu e outros contos 2-Aires de Almeida Santos - Meu Amor da Rua Onze 3-António Cardoso - Baixa e Musseques 4-Boaventura Cardoso - A Morte do Velho Kipacaça - O Fogo da Fala 5-Costa Andrade - Ontem e Depois - Estórias de Contratados 6-Aristides Van-Dúnem - Estórias Antigas 7-José de Freitas - Silêncio em Chamas 8-Ruy Duarte de Carvalho - Memória de Tanta Guerra - Antologia Poética 9-Manuel Rui - Mémória de Mar - Crónica de um Mujimbo - prosa - Poemas em Novembro 10-Arlindo Barbeitos - Fiapos de Sonho 11-José Luandino Vieira - Velhas Estórias - No Antigamente Na Vida - João Vêncio, os Seus Amores - Luuanda - Nós, os do Makulusu 12-José Eduardo Agualusa - A Feira dos Assombrados - D. Nicolau, Água-Rosada e outras estórias verdadeiras e inverosímeis 13-Artur Queiroz - Kapitupitu, a Verdadeira Estória dum Anarquista Fuzilado 14-Jorge Macedo - Geografia da Coragem 15-Pepetela - Mayombe 16-Alberto Oliveira Pinto - O Saco dos Livros (v. Portugal)
II - Cabo Verde/Cap Vert :
17-Manuel Ferreira - O Discurso no Percurso Africano 1 - O Discurso 2 - O Discurso 3 - O Discurso 4 - Grei - Terra Trazida - Voz de Prisão - Hora di Bai 18-Teixeira de Sousa - Na Ribeira de Deus 19-Onésimo Silveira - A Saga das As-Secas e das Graças de Mossenhor - A Saga 2 20-Manuel Lopes - Os Flagelados do Vento Leste - O Galo Cantou na Baía 21-Gabriel Mariano - Vida e Morte de João Cabafume
III - Moçambique/Mozambique :
22-Mia Couto - Terra Sonâmbula
IV - Portugal :
A-LITTÉRATURE :
1-Altino do Tojal - Os Putos 2-Agustina Bessa Luís - Adivinhas de Pedro e Inês 3-Lídia Jorge - O Cais das Merendas 4-Vergílio Ferreira - Estrela Polar - Espaço do Invisível 1 - Espaço do Invisível 2 - Contos - Invocação ao meu Corpo - Signo Sinal - Manhã Submersa - Nítido Nulo - Apelo da Noite - Para Sempre - Em Nome da Terra - Aparição - Do Mundo Original 5-Fernando Namora - Retalhos da Vida de um Médico - 1a. série - Retalhos da Vida de um Médico - 2a série - Deuses e Demónios da Medicina - 1deg. vol. - Deuses e Demónios da Medicina - 2deg. vol. - Encontros - Estamos no Vento - A Nave de Pedra - Os Clandestinos 6-Almeida Faria - O Conquistador 7-Alberto Oliveira Pinto - O Saco dos Livros 8-José Régio - Confissão dum Homem Religioso - Páginas de Doutrina e Crítica da "Presença" - Três Ensaios sobre Arte - Há Mais Mundos 9-José Saramago - O Evangelho Segundo Jesus Cristo
B-TEXTES POLITIQUES :
Mário Soares -Intervenções (1, 2, 3, 4 et 5) Salazar -Discursos (1, 2, 3, 4, 5, 6)
C-TEXTES JURIDIQUES :
Textes constitutionnels -1971, 1976, 1982, 1989 Lei Geral do Trabalho Código civil Código administrativo
V - Brasil/Brésil :
A-LITTÉRATURE :
Graciliano Ramos - Vidas Secas - São Bernardo João Ubaldo Ribeiro - Viva o Povo Brasileiro Jorge Amado - A Morte e a Morte de Quincas Berro d'Água - A Tenda dos Milagres Rachel de Queiroz - O Quinze Érico Veríssimo - Clarissa Autran Dourado - Os Sinos da Agonia
B-TEXTES JURIDIQUES :
Textes constitutionnels - 1946, 1967, 1969, 1988 Código Civil
[2]"Ce projet est celui de Carlos Maciel", écrit Étienne BRUNET dans son rapport d’activité de l’UPR 6861 daté du 18 mai 1993, "il vise à entreprendre, en liaison avec les organismes de recherche du Portugal, une base de données textuelles qui soit au portugais ce qu’est FRANTEXT au français. L’exposé de ce projet a été fait au Brésil, au Portugal et ailleurs (...) Et la phase de dépouillement a commencé..." Sylvie MELLET précise par ailleurs que "c’est en 1989 que, sous l’impulsion de Carlos MACIEL, a pris naissance le projet de création d’une base de données textuelles portugaises" (rapport d’activité 1995 p. 50).
Carlos MACIEL a d’ailleurs présenté le volet juridique de son projet lors du Colloque de lexicologie et lexicographie qui a eu lieu à Lisbonne, en juin 1990. (organisé par Mme. Teresa LINO). V. C. MACIEL, A U.R.L. 9 do INaLF-CNRS : um projecto para o português, in Colóquio de Lexicologia e Lexicografia - Actas, INIC/Universidade Nova de Lisboa, juin 1990.
[3]La question tenant à l’usage du "c", par exemple, dans acto (Portugal) et ato (Brésil)
[4]Ana Maria VILHENA a soutenu, en 1992, son mémoire de D.E.A. dans lequel elle a apporté sa contribution à la réflexion nécessaire à la mise en route du projet PORTEXT - v. Éléménts pour une base de données en portugais. Problèmes et méthodes. Université de Nice.[5]Voir à ce sujet :
X. LUONG et C. MACIEL, Les textes constitutionnels portugais (de 1971 à 1989). Environnement lexical - références et préférences du texte juridico-politique, in JADT 1993, Secondes Journées Internationales d’Analyse Statistique de Données Textuelles, Montpellier, 21/22 octobre 1993, Télécom Paris, École Nationale Supérieure des Télécommunications ;
C. MACIEL, L’État des mots et les mots de l’État dans les Constitutions portugaises (de 1971 à 1989). Observations sur l’accroissement du vocabulaire et le vocabulaire spécifique, in Permanences et renouvellements en linguistique hispanique (Actes du colloque de Toulouse, 1994), Éditions Ophrys, Paris, 1996 ; C. MACIEL, Textes et Textes Juridiques dans la Base de Données Textuelles PORTEXT, in Secondes Journées Internationales de Terminologie (Actes du colloque), AELPL, CERTIL, CTN, Faculté des Affaires Internationales de l’Université du Havre, Le Havre, 14/15/ octobre 1994.
[6]Ces différents textes ont d’ailleurs fait l’objet de quelques mémoires de DEA (Sciences et techniques du langage) soutenus à Nice et que nous ne manquerons par de citer plus loin.
[7]Junta Nacional de Investigação Científica e Tecnológica. M. José Augusto Seabra était venu à Nice, avec d’autres personalités portugaises, en vue de participer à l’hommage rendu par la Section de Portugais et l’Université à Eduardo Lourenço (avril 1992 - V. Homenagem a Eduardo Lourenço. Colectânea de Estudos, col.Diálogos, Ministério da Educação de Portugal (Instituto Camões) et Université de Nice.
[8]Lettre du 06 octobre 1992. Cela allait d’ailleurs tout à fait dans le sens des propositions faites par l’U.P.R. 6861.
[9]Termes de la lettre que Mme. LINO a envoyée à Monsieur le Président de la JNICT, le 11 décembre 1992.
[10]Université d’État de São Paulo, qui a signé un accord-cadre de coopération avec l’Université de Nice.
[11]Université de São Paulo. Équipe conduite par Mme. Ieda Maria Alves.
[12]Il s’agit des discours du premier mandat présidentiel de Mário Soares et des six volumes des discours de Salazar.
[13]Quelques travaux ont ainsi été soutenus à Nice, dans ces différents domaines. Il s’agit notamment de : PEREIRA DE VILHENA, T. Ramires, Le Vocabulaire du Président Mário Soares, 1992 ;
HOSTEIN, née PACHECO, Jane, Étude du vocabulaire du droit des obligations dans les codes civils portugais et brésilien, 1993 ;
SANTOS SILVA, Sílvio, Étude statistique du vocabulaire de quatre romans de Vergílio Ferreira. Quelques aspects, 1993 ; MAGALHÌES DE OLIVEIRA, Gustavo,Essai d’analyse du vocabulaire publicitaire brésilien, 1994 ;
[14]Les travaux de saisie - sur lecteur optique - ont en outre été faits pour l’essentiel par Mme. UBOLDI, secrétaire-documentaliste au Laboratoire.
[15]Cet auteur portugais constitue le sujet de la thèse de doctorat (nouveau régime) de Mme. Ana Maria VILHENA.
[16]Cet auteur portugais a fait l’objet d’un mémoire de D.E.A. à Nice. Il s’agit de L’étude statistique du vocabulaire de quatre romans de Vergílio Ferreira. Quelques aspects., présenté par Sílvio SANTOS DA SILVA, en 1993.
[17]Voir à ce sujet : Elsie MADEIRA, Étude du vocabulaire contemporain dans Terra Sonâmbula, de Mia Couto. Mémoire de Maîtrise, Nice, octobre 1993.
[18]Voir à ce sujet. Revue CUMFID, ndeg. 16. CNRS-UPR 6861, Nice.
[19]Voir à ce sujet. Revue CUMFID, ndeg. 17. CNRS-UPR 6861, Nice.[20]V. X. LUONG et C. MACIEL, Les textes constitutionnels portugais (de 1971 à 1989). Environnement lexical - références et préférences du texte juridico-politique, in JADT 1993, Secondes Journées Internationales d’Analyse Statistique de Données Textuelles, Montpellier, 21/22 octobre 1993, Télécom Paris, École Nationale Supérieure des Télécommunications ; C. MACIEL, L’État des mots et les mots de l’État dans les Constitutions portugaises (de 1971 à 1989). Observations sur l’accroissement du vocabulaire et le vocabulaire spécifique, in Colloque de la Société des Hispanistes Français (Actes du colloque de Toulouse, 1994).