Que faire des corpus (une fois) numérisés ? L'exemple du discours littéraire

Du 4 Juin 2013 au 4 Juin 2013
À : Université de Caen - MRSH -
voir sur une carte

Publié le 14 mai 2013 par Perrine Coudurier (Source : dominique Legallois)

Que faire des corpus (une fois) numérisés ? L'exemple du discours littéraire

Université de Caen, 4 juin 2013

Maison de la Recherche en Sciences Humaines (MRSH), Salle des Actes SH 027

Organisation : Pôle du document numérique de la Mrsh de l'Université de Caen Basse-Normandie

Journée soutenue par le Pres Normandie-Université

Thierry Charnois, Greyc, Université de Caen

Dominique Legallois, Crisco, Université de Caen

La numérisation de corpus littéraires, suivie parfois d'édition en ligne, ne s'inscrit pas uniquement dans une démarche de sauvegarde ou de valorisation du patrimoine : elle constitue avant tout une étape vers une herméneutique sachant mettre à profit les données issues d'analyses diverses : concordances, co-occurrences, vocabulaire spécifique, segments répétés, progression du vocabulaire, champs thématiques et lexicaux, etc. Ces données peuvent être déterminées à partir de simples fréquences, ou par des méthodes statistiques éprouvées par la textométrie ; elles peuvent être mises en évidence par des logiciels relativement peu élaborés (simples concordanciers), ou bien par des outils plus complexes (plateformes textométriques).

C'est dans l'objectif de mieux faire connaître à des non spécialistes, des analyses possibles – voire des modèles d'analyse - que le pôle pluridisciplinaire « Document Numérique » de la MRSH de l'Université de Caen organise une journée d'étude sur l'interprétation des données textuelles littéraires ; il s'agira donc de présenter différents travaux proposant des méthodes d'investigation, mais aussi des méthodes interprétatives qui mettent en évidence tel phénomène, ou qui contribuent à valider ou invalider des hypothèses de recherche. Ces études auront le souci principal d'illustrer l'exploitation de données quantitatives et qualitatives à des fins d'interprétation, ou d'analyse stylistique, et de permettre aux non-spécialistes de s'approprier des méthodes pertinentes ou de mieux les comprendre.

Le discours littéraire est donné comme objet d'étude, mais les méthodes et exemples seront en partie transposables à d'autres genres et à d'autres disciplines des sciences humaines (histoire, sociologie, philosophie, par exemple).

Programme

9h15 – Accueil

9h30 – Introduction à la journée (Pascal Buléon, Dominique Legallois, Thierry Charnois)

9h45 - Thierry Charnois, Greyc, Eliane Delente, Crisco, Dominique Legallois, Crisco Université de Caen : Segments répétés et motifs, comme pratiques d'investigation et d'analyse des textes littéraires : l'exemple des Rougon-Macquart

10h30 - Dominique Longrée, LASLA, ULg (Université de Liège) : L'analyse des données textuelles : au-delà du "sac de mots" (approches topologiques et réticulaires)

11h45- Michel Bernard, Université Sorbonne-Nouvelle (Paris 3) : Traitement lexicométrique d'un dossier génétique : Bouvard et Pécuchet

12h30 – repas

14h15 - Véronique Magri, Université de Nice UMR 7320 : Bases, Corpus, Langage

Contraster deux corpus narratifs : distinctions formelles et génériques entre récits fictionnels et récits factuels (récits de voyage)

15h Bénédicte Pincemin, Université de Lyon 2, Icar : Fonctionnalités textométriques pour l'analyse littéraire : possibilités offertes par le logiciel libre TXM

15h45 Démonstrations d'outils et discussion générale.

Résumés des interventions :

Thierry Charnois, Greyc, Université de Caen, Eliane Delente, Crisco, Université de Caen, Dominique Legallois, Crico, Université de Caen

Segments répétés et motifs, comme pratiques d'investigation et d'analyse des textes littéraires : l'exemple des Rougon-Macquart

Nous proposons d'abord une illustration de l'analyse des textes littéraires par le biais de l'identification des segments répétés ; les segments répétés (Salem 1987) sont des suites récurrentes de mots, devenues facilement détectables par des outils simples (par exemple, le concordancier Antconc). Appliquée à la saga des Rougon-Macquart, l'analyse par les segments répétés révèle un phénomène spectaculaire, parfois aperçu par la critique, mais dont l'ampleur n'a jamais été mesurée ni appréciée : Zola use d'une stratégie d'écriture fondée sur la répétition de segments (allant du syntagme à la phrase, mais aussi au paragraphe), les segments pouvant être séparés par plusieurs centaines de pages. On note aussi quelques cas d'intertextualité où des segments d'une œuvre des Rougon sont repris dans une autre œuvre. On proposera une caractérisation générale de ces reprises.

Par ailleurs, la fouille de données, qui est une discipline informatique, utilise des méthodes et outils pour identifier des régularités dans les bases de données de grande taille. Ces régularités prennent la forme de motifs. On peut voir ces motifs comme une extension des segments répétés (cf. aussi la communication de D. Longrée), la différence principale étant que, contrairement aux segments répétés, les éléments constitutifs des motifs, ne sont pas nécessairement contigus, et peuvent porter aussi bien simultanément sur des formes, des lemmes ou des catégories grammaticales. L'utilisation de contraintes ou d'annotations dans les textes donne la possibilité d'orienter la fouille, et de faire émerger divers types de motifs linguistiques. On présentera brièvement ce paradigme de la fouille de données séquentielles pour l'analyse des textes, et on l'illustrera par une application aux Rougon-Macquart. Ainsi, des caractéristiques auctoriales ou génériques peuvent-elles émerger à partir des spécificités des motifs.

Dominique Longrée, LASLA, ULg (Université de Liége)

L'analyse des données textuelles : au-delà du "sac de mots" (approches topologiques et réticulaires)

Depuis les années 1950, les méthodes d'analyse statistique des données textuelles ont permis de mieux décrire et caractériser la langue et le style de documents très variés (œuvres littéraires, discours politiques, articles de journaux, enquêtes orales, etc.). Celles les plus couramment utilisées aujourd’hui reposent essentiellement sur des dénombrements d’occurrences de formes, de lemmes, de catégories grammaticales au sein des divers textes. Ces dénombrements permettent d’obtenir des tableaux chiffrés (tableaux de contingence) auxquels on fait subir un certain nombre de tests éprouvés (test de Pearson ou du Chi2, écart réduit, analyse factorielle des correspondances, analyse arborée…). Ces méthodes ont donné d’excellents résultats et permettent généralement de mieux évaluer les distances entre textes selon le genre, l’époque, l’auteur… Elles se sont toutefois assez rapidement heurtées au fait qu’un texte n’est pas un sac dans lequel seraient rassemblées en vrac ses unités constitutives (par exemple, ce n’est pas parce que deux textes contiennent la même proportion d’occurrences d’imparfait par rapport aux autres temps verbaux que l’imparfait y est utilisé de la même manière). Les approches topologiques et réticulaires permettent heureusement de mieux prendre en compte le texte comme un espace ordonné. Ainsi, la notion de « motif », introduite récemment, fournit un outil permettant d’étudier des objets complexes formés par des associations récurrentes et ordonnées d’éléments du texte muni de sa structure linéaire. L’examen des cooccurrences, notamment des cooccurrences généralisées, met en évidence l’existence de réseaux structurant les textes. A partir de quelques exemples concrets, on illustrera comment ces nouveaux outils peuvent servir à mieux caractériser des genres, des modes d'expression ou des styles.

Michel Bernard, Université Sorbonne-Nouvelle (Paris 3)

Traitement lexicométrique d'un dossier génétique : Bouvard et Pécuchet

Grâce à la numérisation des manuscrits de /Bouvard et Pécuchet/ mise en ligne par le CÉRÉdI de l'université de Rouen, il est possible de pratiquer sur cet épais dossier génétique des études de statistique lexicale. Travailler sur un texte manuscrit, corrigé, raturé, inséré impose évidemment des précautions méthodologiques mais permet de travailler sur des catégories nouvelles en lexicométrie. Il est ainsi possible de répondre à des questions qui portent sur la /manière /de l'écrivain : quels sont les mots qu'il rature le plus souvent ? Ceux qu'il insère, qu'il élague entre le manuscrit et sa mise au propre ? Les premiers résultats de ce travail ont déjà été présentés aux flaubertiens ; il s'agira ici d'insister plutôt sur la méthodologie du traitement lexicométrique d'un corpus génétique, et de réfléchir à la possibilité de l'appliquer à d'autres dossiers

Véronique Magri, Université de Nice UMR 7320 : Bases, Corpus, Langage

Contraster deux corpus narratifs : distinctions formelles et génériques entre récits fictionnels et récits factuels (récits de voyage)

Le travail présente une analyse différentielle et contrastive de deux corpus narratifs du XIXe siècle. L'un à vocation fictionnelle, l'autre à visée factuelle, le récit de voyage. L'enjeu est de parvenir à établir des distinctions formelles génériques, par le biais du logiciel d'analyse hypertextuelle, Hyperbase. Le corpus d'étude regroupe douze binômes d'oeuvres d'écrivains, un récit de fiction d'une part, un récit de voyage d'autre part. L'outil statistique aidera à dégager en particulier une poétique du récit de voyage, entendue comme l'étude de l'échange permanent entre les structures formelles de la langue et l'interprétation à leur donner.

Bénédicte Pincemin, Université de Lyon 2, Icar

Fonctionnalités textométriques pour l'analyse littéraire : possibilités offertes par le logiciel libre TXM

En restant toujours au plus proche du texte tout en ouvrant de nouveaux types de lecture et de nouvelles pistes interprétatives, la textométrie intéresse les chercheurs en sciences humaines pour étudier méthodiquement leurs corpus numériques. D'autre part, TXM est un logiciel récent (adapté à l'état de l'art des corpus, potentiellement structurés et enrichis) et accessible (logiciel libre, multiplateformes -windows, mac, linux-, avec une interface conviviale). Cette présentation mettra en relation des fonctionnalités du logiciel et leur usage possible en contexte littéraire. L'accent pourra être mis sur des apports originaux de TXM : structuration et restructuration des corpus, travail simultanément sur de multiples niveaux de description, souplesse des concordances, caractérisation distributionnelle d'un mot ou d'une construction, repérage et quantification de traits stylistiques.