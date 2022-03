Grenoble, Université Grenoble-Alpes

Colloque à l'Université Grenoble Alpes, les 13 et 14 octobre 2022

Depuis plusieurs décennies, la numérisation des textes anciens et les progrès du TAL pour les traiter et les interroger ont largement modifié nos habitudes de travail. Il est désormais possible d’obtenir des données quantitatives massives qui affinent notre perception des phénomènes linguistiques ou stylistiques pour des corpus écrits dans des états de langue anciens. Les corpus numériques créés depuis maintenant près d’un quart de siècle permettent d’envisager plus facilement la dynamique du français en diachronie longue dont l’aboutissement, après de nombreuses années de travail, de la Grande Grammaire Historique du Français (Marchello-Nizia et alii, 2020) constitue un bel exemple. Nous définissons un corpus en diachronie longue comme un corpus périodisé, regroupant des textes choisis pour leur caractère représentatif des états de langue (de l’ancien français au français contemporain) des périodes couvertes par le corpus.



Depuis les années 1980, les chercheurs et chercheuses bénéficient de la base textuelle Frantext, la première en langue française, qui a permis de mener des investigations, au sein de textes littéraires, sur un très large empan temporel. Le travail pionnier de la Base de Français Médiéval (1989) a permis la constitution d’un corpus de textes littéraires et non littéraires, toutefois limité, comme son nom l’indique, à la période de l’ancien français et du moyen français. De très nombreux corpus plus spécifiques à un genre textuel les ont rejoints (par exemple, le corpus sur 6 siècles de coutumiers normands du projet Condé ou le corpus de sermons protestants du 16e au 18e siècle du projet Sermo).



La première étape dans la construction d’un corpus, comme le rappellent Reppen (2010 : 31) et Nelson (2010 : 53), est de savoir précisément quel est l’objectif poursuivi. Par exemple, la sélection de sources comparables pour permettre des analyses quantitatives homogènes est essentielle et la temporalité prise en compte dépend des phénomènes que l’on veut observer (GGHF 2020 : 43). Ensuite, la construction d’un corpus est le fruit de choix raisonnés qui visent à satisfaire le principe de la représentativité : « [a corpus is] a collection of texts assumed to be representative of a given language put together so that it can be used for linguistic analysis. » (Tognini-Bonelli, 2001 : 2). Ce principe de représentativité recouvre des réalités diverses en fonction des objectifs visés par celles et ceux qui construisent les corpus : les lexicographes qui souhaitent rendre compte du sens d’unités lexicales n’auront pas les mêmes exigences de représentativité que les linguistes et stylisticiens qui travaillent sur la caractérisation d’un genre textuel. Certains posent comme essentiels le fait de recourir exclusivement à des textes intégraux (Rastier, 2011 : 33), d’autres rappellent qu’un corpus ne peut être qu’un échantillon et qu’à ce titre, il peut être construit à partir d’échantillons (Renouf, 1987 ; Biber, 1993). Ainsi, l’objectif de ce colloque est d’interroger d’une part les choix constitutifs de nos corpus en diachronie longue, d’autre part les objectifs linguistiques mais aussi stylistiques ou littéraires qui déterminent leur constitution.



Les axes de recherche que nous proposons peuvent se situer dans une perspective à la fois rétrospective (quel a été l’apport des corpus diachroniques ? comment valoriser les corpus constitués au cours des dernières décennies ?) et prospective (quels sont les défis théoriques et méthodologiques qui attendent la recherche en diachronie à l’ère des humanités numériques et des corpus outillés ?). Les réflexions pourront s’appuyer sur des corpus en langue française ou en langue étrangère.



Axe 1 : La constitution d’un corpus

Créer des corpus aptes à fournir des données en diachronie longue pose de nouvelles questions d’homogénéité des outils et des supports à tous les niveaux de la chaîne de préparation du matériau : de la sélection des textes à leur traitement. Par exemple, dans la présentation des critères choisis pour construire le corpus de la GGHF (2020 : 42-43), Sophie Prévost oppose d’un côté les textes sélectionnés selon des critères paratextuels, « qui relèvent davantage du point de vue que le locuteur moderne porte sur ces textes » et qui impliquent de choisir des textes de référence comme la Chanson de Rolandou la Queste del Saint Graal, et d’un autre côté les critères descripteurs qui relèvent plutôt de la temporalité propre à chaque phénomène linguistique. On interrogera en particulier la diversité ou l’homogénéité des textes, selon différents niveaux hiérarchiques (domaines, discours, genres ; sur ces catégories, voir par exemple, Malrieu & Rastier, 2001 ; Marchello-Nizia et alii, 2020) ou différentes variétés du français (diatopiques ou diastratiques) ;



l’origine des textes que l’on veut y inclure selon que l’on s’appuie sur des sources secondaires (textes déjà édités) ou primaires (des textes restant à éditer). Si l’on privilégie des textes déjà édités, comment compenser l’inévitable hétérogénéité des choix éditoriaux ? Pour les sources primaires, quels choix éditoriaux effectuer sur le plan graphique (sachant que les traditions philologiques d’édition de textes diffèrent selon les siècles considérés en ce qui concerne par exemple la segmentation des mots, la graphie, les accents, la ponctuation, les majuscules) ?

les types de codage mis en place dans le traitement des textes (quelles informations additionnelles ont été privilégiées pour l’enrichissement des textes ? combien de couches d’annotations ont été choisies ?)



Axe 2 : Effectuer des recherches avec les corpus constitués

L’objectif d’un corpus influe sur sa constitution, il importe alors de s’interroger sur les données qu’on souhaite en extraire.



Quel type de recherches permettent les corpus en diachronie longue, tant sur le plan linguistique (lexique, syntaxe, morphologie, graphie, pragmatique, etc.) que sur le plan stylistique (repérage des évolutions des stylèmes et des phraséologismes) ou littéraire (repérage des topiques ou des motifs narratifs) ?

Quels sont les modes d’interrogation choisis parmi les multiples possibilités offertes par l’outil adopté ?

Quels méthodes et outils spécifiques ont été développés en vue de l’exploitation de corpus en diachronie longue ? les propositions pourraient s’axer par exemple sur les techniques de périodisation automatique (Gries & Hilpert, 2008), sur des indicateurs textométriques permettant de mesurer des tendances (Herman & Kovář, 2013 ; Hilpert & Gries, 2009 : 388-390), sur des caractéristiques chronologiques spécifiques (Salem, 1988 : 126-131 ; Lebart et alii, 1998 : 155-161 ; Diwersy et alii, 2021), ou sur de nouvelles méthodes textométriques dédiées à l'étude diachronique. On pourra également détailler des outils d'exploration et de visualisation originaux.



Conférenciers invités / Invited Speakers



Céline Guillot-Barbance et Alexei Lavrentiev (ENS Lyon, IRHIM UMR5317, France)



France Martineau (U. of Ottawa, Canada)



Carine Skupiens Dekens (U. de Neuchâtel, Suisse)



