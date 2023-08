Construire et interroger les corpus numériques à l’ère de l’intelligence artificielle

Colloque international

Faculté des Sciences Humaines et Sociales de Tunis – Université de Tunis

Laboratoire Intersignes (LR14ES01)

29 Février - 1er Mars 2024

La Faculté des Sciences Humaines et Sociales de Tunis et le Laboratoire Intersignes (LR14ES01) organisent un colloque international intitulé “Construire et interroger les corpus à l’ère de l’intelligence artificielle”.

Les bases de données textuelles, qu’elles soient littéraires, journalistiques, juridiques ou orales, ouvrent la voie à ce que l’on appelle « la linguistique de corpus » et constituent un outil majeur dans les travaux de recherche et un support didactique dans l’enseignement des langues et cultures. Le besoin de constituer des bases de données et des corpus, de les explorer ou de les publier se fait ressentir de plus en plus aussi bien dans le domaine linguistique, que dans celui des sciences humaines et sociales ou dans les divers secteurs socio-économiques.

Si, comme le précise E. Brunet, “un corpus est toujours artificiel. La nature n’en produit pas spontanément”, il est important de distinguer les corpus des amas de textes numériques, disponibles et accessibles sur l’espace virtuel. Ainsi à partir d’un “corpus de référence” (Rastier 2017), un chercheur ou un enseignant vise à construire un ou son “corpus de travail”, ce qui peut être considéré comme la première étape du processus d’interprétation.

De plus en plus d’équipes de recherche pluridisciplinaires formées d’ingénieurs en informatique et de spécialistes en linguistique et/ou en littérature s’intéressent à l’exploitation des corpus numérisés, du recueil au traitement. Leur travail consiste de ce fait à :

● scanner, relire et catégoriser les textes,

● fournir une version numérisée des grands textes littéraires,

● constituer des sous-corpus ou des corpus personnalisés selon les attentes du chercheur et selon les critères d’identification qu’il a définis,

● comparer des versions successives d’une même œuvre (comme les manuscrits de Proust ou de Balzac) en appliquant l’analyse génétique des textes.

Ces bases de données sont destinées à plusieurs usages auprès des chercheurs et des enseignants. Des recherches sur les spécificités scripturales d’un écrivain ou sur les propriétés du discours (littéraire, politique, historique, etc.), peuvent, dans cette perspective, être menées. L’exploration, via des logiciels de textométrie ou des concordanciers, comme AntConc, TROPES ou TXM va de la simple visualisation des occurrences au traitement statistique des fréquences. (François J., Gherissi Y. (2012)

Dans le cas spécifique de la langue française, et à partir, par exemple, de la base de données textuelles Frantext (www.frantext.fr), des analyses diachroniques allant de l'ancien français jusqu'au français contemporain peuvent être menées. Les études portant sur l’époque actuelle permettent, en outre, de comparer des ressources littéraires, journalistiques (François J., (2019) politiques, orales (ESLO, Université d’Orléans), etc.

En interrogeant les corpus de textes aussi bien sur le plan quantitatif que qualitatif, en décelant le grain et la mesure selon l’expression de Rastier (Rastier, 2011), les outils informatiques et les logiciels font émerger de nouveaux observables. L’intérêt des données numériques réside dans l’élaboration de nouvelles hypothèses de travail et dans l’adoption d’une méthodologie réflexive de manière à infirmer ou confirmer ces hypothèses (Rastier 2017).

Ce colloque se veut :

● l’occasion de répondre aux attentes des étudiants, des enseignants et des chercheurs, linguistes ou littéraires, qui veulent soit s’initier aux travaux sur les corpus, soit consolider leurs acquis et leurs apprentissages, ou encore confronter les différentes méthodes et techniques de travail. Ce qui constituerait le point de départ pour l’initiation d’un axe de recherche et d’enseignement autour des Humanités numériques et de l’analyse des corpus ;

● une rencontre de chercheurs de diverses disciplines autour de la question des corpus textuels, de leurs modes de construction et des implications culturelles, éthiques et épistémologiques qu’ils posent. Quelle visibilité et quelles représentations offre aujourd’hui « l’architexte » qu’est le web aux différentes cultures ? Quel rôle peut-on et doit-on jouer pour agir sur le savoir répandu par les intelligences artificielles et les représentations du monde qu’il offre ? Nous aspirons à rendre visibles les travaux menés en Tunisie et ailleurs sur des corpus francophones ou arabophones, locaux ou étrangers et sur les outils disponibles en traitement des langues et en traduction ainsi que des usages didactiques possibles ;

● une réflexion sur les actions à mener pour un usage optimal des bases de données, des corpus et des intelligences artificielles dans la recherche et l’enseignement. L’objectif étant de pallier à une faille épistémologique et technique : au moment où certains se posent des questions d’actualité sur le rôle à jouer dans la constitution de corpus et la visibilité des savoirs à l’ère de ChatGPt et autres intelligences artificielles, d’autres continuent à travailler de manière plus traditionnelle et s’inquiètent des risques que constituent ces nouveaux outils.

Les communications pourraient s’articuler autour de 4 axes :

- Linguistique et analyse de corpus (en synchronie ou en diachronie) (François, 2010, 2019, Rastier 2011)

- Corpus littéraires (les mots d’auteurs, études contrastives, bases de données textuelles, lexicométrie, textométrie, etc. (Brunet 1981, Bernard et Bohet 2017 ; Legallois, 2016, )

- Enseignement et analyse de corpus (outils pour la classe, outils pour le FLE, FOS, FOU, etc.)(Cavalla, 2021)

- Traduction à l’ère du numérique : valorisation du patrimoine, visibilité de textes inédits, etc. (Desjardins R., Larsonneur C., Lacour Ph., 2021)

Les propositions de communications pourront prendre ainsi la forme de contributions critiques, de comptes rendus d’expériences ou d’ateliers d’initiation et d’apprentissage.

Merci d’envoyer votre proposition de communication (arabe/ français/ anglais) (entre 200 et 300 mots) accompagnée d’un titre, ainsi que d’une notice bio-bibliographique (précisant, entre autres, votre université, laboratoire et/ou unité de recherche de rattachement) à l’adresse suivante : colloque.corpusnumerique@gmail.com

Calendrier :

● Date limite de soumission des résumés : 15 octobre 2023

● Date de notification d’acceptation : 15 novembre 2023

● Date limite d’envoi des communications complètes : 31 Janvier 2024

● Date de la tenue du colloque : 29 février- 1er mars 2024

Le colloque se déroulera à la Faculté des Sciences Humaines et Sociales de Tunis, Tunis.

Les actes du colloque sous forme d’ouvrage collectif seront publiés courant 2024.

Comité scientifique :

- Jamil CHAKER (Université de Tunis, Faculté des Sciences Humaines et Sociales de Tunis- Laboratoire Intersignes)

- Sonia FITOURI-ZLITNI (Université de Tunis, Faculté des Sciences Humaines et Sociales de Tunis- Laboratoire Intersignes)

- Jacques FRANÇOIS (Université de Caen, Basse-Normandie)

- Samia KASSAB-CHARFI (Université de Tunis, Faculté des Sciences Humaines et Sociales de Tunis- Laboratoire Intersignes)

- Samir LABIDI (Académie militaire)

- Frédéric LANDRAGIN (CNRS, Laboratoire LATTICE)

- Dominique LEGALLOIS (Université Sorbonne-Nouvelle, Paris III)

- Badreddine HAMMA ( Université d'Orléans, Laboratoire Ligérien de Linguistique)

- Yaacoub GHERISSI (Université de Carthage, Institut Supérieur des Langues de Tunis)

- François RASTIER, (CNRS)

Comité d’organisation :

- Dorra BASSI (Université de Tunis, Faculté des Sciences Humaines et Sociales de Tunis- Laboratoire Intersignes)

- Raja GMIR (Université de Tunis, Faculté des Sciences Humaines et Sociales de Tunis- Laboratoire Intersignes)

- Rania SAMET (Université de Tunis, Faculté des Sciences Humaines et Sociales de Tunis- Laboratoire Intersignes)

