Pendant des siècles, les manuscrits médiévaux ont vécu dans un clair-obscur savant. Consultés par une poignée de spécialistes, protégés par des règles d’accès strictes, ils formaient un continent largement invisible du grand public. La numérisation a commencé à fissurer ce mur. L’intelligence artificielle, désormais, en rebat les cartes. Avec CoMMA, un nouveau cap est franchi.
"Présenté comme l’un des corpus les plus vastes jamais constitués à partir de manuscrits médiévaux, CoMMA rassemble environ 3,3 milliards de tokens, extraits de plus de 32 700 manuscrits numérisés, en latin et en ancien français. Un ensemble d’une ampleur inédite, issu non pas d’éditions savantes, mais de textes bruts, non normalisés, produits par reconnaissance automatique de l’écriture manuscrite. Une différence décisive. […]
Il serait toutefois réducteur de voir dans CoMMA un simple exploit technique. Le corpus interroge, plus profondément, notre rapport au texte médiéval.
Faut-il corriger pour comprendre ? Normaliser pour transmettre ? Ou accepter l’instabilité comme donnée historique fondamentale ? […]."
Lire la suite de l'article sur Actualitte.com…
—