Corpus Base de français médiéval BFM2022

Date de publication : 13 Décembre 2022

Publié le 13 Décembre 2022 par Marc Escola (Source : Céline Guillot-Barbance)

Nous avons le plaisir d’annoncer la publication du corpus BFM2022 de la Base de français médiéval : https://txm-bfm.huma-num.fr/txm/?command=documentation&path=/BFM2022.

La Base de français médiéval diffuse gratuitement différents corpus (ensembles de textes et suppléments numériques) sous licence ouverte Etalab (https://www.etalab.gouv.fr/licence-ouverte-open-licence).

Les corpus sont accessibles sous trois formes :

- accès via les outils du portail BFM-TXM ;

- téléchargement sur le portail des corpus binaires pour intégration dans la version locale de TXM ;

- téléchargement des fichiers XML TEI dans l’entrepôt NAKALA : https://nakala.fr/collection/10.34847/nkl.93ee3ts1.

L’accès à la BFM est désormais possible à travers un nouveau portail Huma-Num offrant une connexion sécurisée.

Le corpus BFM2022 comprend une cinquantaine de nouveaux textes et atteint environ 6 450 000 mots. Tous les textes sont encodés selon les recommandations du consortium TEI, balisés pour le discours direct, automatiquement annotés en morphosyntaxe et lemmatisés. L’étiquetage morphosyntaxique a été vérifié pour 8 nouveaux textes (46 textes vérifiés au total, soit près de 1 million de mots) et la lemmatisation pour 27 textes (au total environ 620 000 mots). Le corpus s’enrichit également de l’édition originale du Psautier d’Arundel par C. Pignatelli.

La mise en ligne du corpus BFM2022 s’accompagne de la publication du corpus PROFITEROLE-V1-0 produit dans le cadre du projet ANR PROFITEROLE (https://www.lattice.cnrs.fr/projets/projets-passes/projet-anr-profiterole), annoté en syntaxe selon un modèle dépendentiel UD (https://universaldependencies.org).

N’hésitez pas à nous signaler tout problème technique ou toute erreur dans un texte du corpus !

Contact : bfm [at] ens-lyon [point] fr