Actualité
Appels à contributions
Revue Corpus - interpretation, contextes, codage

Revue Corpus - interpretation, contextes, codage

Publié le par Alexandre Gefen (Source : Litor)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
La revue Corpus prépare pour 2007 un numéro sur le thème :
    interprétation, contextes, codage

Date limite de soumission des propositions (résumé) :
mercredi 15 novembre 2006
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!


1. Présentation de la revue
2. Introduction au thème du numéro 6 (à paraître en 2007)
3. Modalités pratiques


1. Présentation de la revue

La revue CORPUS est consacrée à la linguistique de corpus envisagée sous tous ses aspects : théoriques, épistémologiques, méthodologiques, quels que soient le champ disciplinaire et le domaine géolinguistique d'application. Au fil des numéros il s'agit de développer une réflexion approfondie sur le rôle des corpus dans les pratiques linguistiques contemporaines et une analyse réflexive sur les modes de constitution des différents corpus présentés, ainsi que sur leurs outils d'exploitation. Par là-même on tente d'expliciter et d'évaluer les processus heuristiques qui unissent la collecte et la structuration des données empiriques d'une part et le surgissement ou la validation de l'hypothèse linguistique d'autre part.

CORPUS est publiée par l'UMR 6039 "Bases, Corpus et Langage" (CNRS & Université de Nice), à raison d'un numéro chaque année.
C'est une revue à comités qui dispose de deux supports complémentaires : le support papier qui reste essentiel, et le support électronique qui
met gratuitement sur le Web, à la disposition de la communauté, les articles six mois après leur publication papier.

http://revel.unice.fr/corpus/
ISSN Electronique : 1765-3126 - ISSN Papier : 1638-9808


2. Introduction au thème du numéro 6 (à paraître en 2007)

La réflexion sur l'usage de corpus de textes part ici de sa possible -et nécessaire- INTERPRETATION. Or le sens se déploie en s'appuyant sur des CONTEXTES structurants, et le CODAGE est l'expression technique, déterminante, des structures textuelles, intertextuelles, et contextuelles.

Concrètement, le CODAGE renvoie aux choix d'édition lors de la réécriture du corpus dans le format adopté pour l'analyse. Dans le cas d'un format XML par exemple, le codage concerne aussi bien le balisage de structures textuelles (notamment par découpage et emboîtements, avec  la délimitation de contextes syntagmatiques) que l'enrichissement par  étiquetage (l'assignation de catégories créant complémentairement des contextes paradigmatiques). A la multiplicité des interprétations possibles répond le besoin de vues alternatives sur le corpus : par exemple, les informations enregistrées par le codage pourront être différentes et se noter différemment, et donc conduire à différentes éditions électroniques du corpus, selon que l'objectif est l'archivage, la diffusion, ou le traitement par tel ou tel logiciel. En matière d'analyse assistée par ordinateur, si la robustesse des outils d'analyse est certainement pertinente, il serait dommageable qu'elle dicte un nivellement par le bas de la structuration des corpus. Car les logiciels d'analyse et d'exploration textuelle, notamment à visée sémantique, ont tout à gagner à savoir tirer parti d'un codage riche -ou du moins non
appauvri-, donnant véritablement accès aux informations de  contextualisation de tous ordres. Reste à trouver un équilibre vertueux, pour éviter des codages excessifs, trop lourds, ingérables, et étouffant l'interprétation au lieu de la rendre accessible et de la susciter.

L'INTERPRETATION est présente à toutes les étapes du travail sur corpus. Interprétation "a priori" au moment de la constitution du corpus, et avec la conception des opérations d'analyse à pratiquer ; interprétation "a posteriori" pour l'exploitation des résultats produits. Mais la pratique interprétative procède par retours et ajustements, elle n'échappe pas au cercle herméneutique : ainsi, la lecture des résultats motive(rait) très naturellement une reprise du codage et une réorientation des traitements. La Text Encoding Initiative (1) prévoit à  juste raison un commentaire du codage, livré avec le corpus (rubrique tagUsage), comme du contexte du codage (rubrique projectDesc) : une telle explicitation des conventions de sens et du mode d'usage des balises dans le contexte du corpus est éminemment importante pour toute exploitation et réexploitation du corpus, en d'autres temps ou d'autres lieux, y compris par ses éditeurs, mais aussi au moment même du codage !
L'annotation des corpus semble questionner encore plus directement l'alliance entre codage et interprétation : peut-on établir une typologie des annotations, et ce à tous les paliers de contexte ? A l'image d'un cheminement interprétatif, l'annotation peut-elle, voire doit-elle, être dynamique (c'est-à-dire ajoutée, rectifiée, oubliée...) ? doit-elle être partagée et sédimentée - mais avec quels
contextes pour limiter gêne mutuelle des séries d'annotations et surcharge artificielle, inhumaine, de la lecture ?

Quelquefois précisée par la distinction entre contexte et co-texte, la réflexion sur le CONTEXTE dans son lien au codage et à l'interprétation des corpus pourrait ici se centrer sur les structures syntagmatiques (qui découpent, emboîtent) et paradigmatiques (qui mettent en lien), dans un texte et entre des textes. Cette option n'est pas si restrictive qu'il y paraît : Rastier (2) montre que les réalités externes en prise avec le texte (l'auteur, le monde, le lecteur - les "pôles extrinsèques") s'y retrouvent par leur empreinte dans le matériau linguistique et textuel ("pôles intrinsèques"), notamment via le genre du texte. Peut-être aussi la question du contexte rejoint-elledirectement celle, fondamentale, de la bonne constitution du corpus :

les critères de clôture ou de réflexivité (3) par exemple ne visent-ils pas la recherche d'une contextualisation globale, sémantiquement stable, nécessaire et suffisante, déterminante ? Complémentairement, les techniques d'analyse de corpus dessinent également des contextualisations glissantes, mouvantes : qu'est-ce qu'un passage, et faut-il le coder ? L'observation des affinités et des attirances lexicales par des calculs de cooccurrences suppose la délimitation de contextes : l'environnement d'un mot, sa spère d'influence, son rayonnement, se laissent-t-ils délimiter ? uniformément ? de façon unique ? Pour autant, comment garder sa consistance pratique et significative à la notion de contexte ?

Il est suggestif d'articuler deux à deux les trois pôles du thème, pour retrouver des terrains de recherche actifs, correspondant à desperspectives d'analyse complémentaires :

- codage + interprétation : codage et interprétation sont-ils alliés ou ennemis ? subjectivité/objectivité, respect du texte, sur-codage, pratique de tâcheron ou travail scientifique déterminant... Si, en théorie, le codage ne saurait précéder l'interprétation, comment enrendre compte en pratique ? Par exemple, en cas de d'hésitation ou de désaccord au moment du codage, la multi-annotation apporte-t-elle une solution en reportant l'arrêt d'une interprétation, voire en permettant d'évaluer statistiquement, par le calcul, chaque possibilité interprétative ? Réciproquement, à quelles conditions, et dans quelle mesure, le codage peut-il concourir à la transmission d'une interprétation ?

- interprétation + contextes : effets interprétatifs (parfoissous-estimés ou ignorés) liés à la réunion des textes et à la délimitation de collections, à la structuration du corpus et à la génération possible d'éditions (ou "vues") partielles ou diversement présentées et organisées ; méthodes d'analyse et de parcours des corpus (textes et intertexte), sémantique interprétative fondée sur la contextualisation d'unités linguistiques et textuelles de tous ordres...

- codage + contextes : pourquoi et comment pratiquer la linguistique decorpus, par opposition à une linguistique sur exemples ponctuels ? Laconstitution, le codage (y compris minimal) et l'exploitation d'un corpus imposent des choix concrets de structuration des données textuelles.

Quelles informations de contextualisation exprimer ? Ont-elles une forte incidence sur la qualité de la recherche ? A contrario, l'importance des contextes dans les modélisations usuelles pour les textes et les traitements est peut-être encore souventincomplètement perçue.

Dans l'esprit de la revue CORPUS, ce thème invite à une réflexion clairement pratique et théorique. L'étude des mécanismes interprétatifs, de l'existence et de la nature des contextes, de la modélisation des textes, se nourrissent maintenant des pratiques et des observations rendues possibles par la numérisation et l'édition électronique.

Réciproquement, la fréquentation des corpus et les savoir-faire développés dans des expériences bien concrètes appellent une prise de recul, une relecture synthétique, pour en mieux saisir la valeur.

Notes :
(1) Présentation de la Text Encoding Initiative :
http://www.tei-c.org/ (2) Voir par exemple : Rastier, François, 1996, "Pour une sémantique des textes -questions d'épistémologie", Textes & Sens, Rastier F. (dir.), Didier érudition, pp. 9-35. En ligne sur la revue Texto! : http://www.revue-texto.net/Inedits/Rastier/Rastier_PourSdT.html
(3) Voir par exemple la première livraison de CORPUS : http://revel.unice.fr/corpus/sommaire.html?id=49


3. Modalités pratiques

Soumission :

Envoyer un projet d'article d'une à deux pages (comprenant titre, résumé du ou des arguments principaux soutenus, proposition de plan, quelques
références bibliographiques) à :

Bénédicte Pincemin
a_remplacer@ens-lsh.fr (et remplacer a_remplacer par prenom.nom tel que ci-après : benedicte.pincemin)
Sujet du mail : Corpus 6 - soumission
Format : pdf de préférence (txt, rtf, doc, sxw, ps acceptés).

Ce projet recevra un avis indicatif, permettant d'ajuster éventuellementle travail de rédaction de l'article. Une première version de l'article complet sera alors à préparer pour le 19 mars 2007. C'est la relecture  des textes développés qui confirmera ou non l'acceptation pour publication.

Calendrier :

- proposition d'article : avant le 15 novembre 2006
- réponse indicative du comité : 11 décembre 2006
- version provisoire : 30 mars 2007
- retours du comité avec avis (acceptation/rejet) : 15 mai 2007
- version définitive : 1er juillet 2007
- publication papier : octobre 2007
- publication électronique : juin 2008
________________________________________________________________________