Partager
Séminaire

De la transcription automatique de manuscrits hébreux médiévaux via l'édition scientifique à l'analyse de l'intertextualité : outils et praxis autour d'eScriptorium

Séminaire DHAI 2020-2021
Mardi 19 janvier 2021 Mardi 19 janvier 2021
De 12h à 14h
Image
scriptorium
en ligne

Conférence de Daniel Stoekl (École Pratique des Hautes Études)

Après une brève introduction à notre infrastructure HTR open-source eScriptorium cum kraken, je démontrerai son application à la segmentation automatique de la mise en page, à la segmentation des textes manuscrits et à la paléographie des manuscrits hébraïques. En utilisant ses riches (mais toujours en croissance) fonctionnalités internes et son API ainsi qu'un certain nombre d'outils externes (Decker et alii 2011, Shmidman et alii 2018 et les miens), je traiterai de l'identification automatique du texte, de l'alignement et du crowdsourcing (Kuflik et al 2019, Wecker et al 2019) et de la façon dont ces procédures peuvent être utilisées pour créer différents types de modèles génériques pour la segmentation et la transcription. Je montrerai les premières idées pour passer automatiquement d'une hiérarchie de documents résultant de HTR à un modèle orienté texte avec des ajouts interlinéaires et marginaux intégrés qui peuvent être affichés dans des outils comme TEI-Publisher. Bien que les méthodes présentées soient génériques et applicables à la plupart des langues et des écritures, une attention particulière sera accordée aux problèmes découlant du traitement des écritures non-latines, des RTL et des langues morphologiquement riches.


Bibliographie :

  • Dekker, R. H., Middell, G.: Computer-Supported Collation with CollateX: Managing Textual Variance in an Environment with Varying Requirements. Supporting Digital Humanities 2011. University of Copenhagen, Denmark (2011).
  • Kuflik, T. M. Lavee, A. Ohali, V. Raziel-Kretzmer, U. Schor, A. Wecker, E. Lolli, P. Signoret, D. Stökl Ben Ezra (2019) 'Tikkoun Sofrim – Combining HTR and Crowdsourcing for Automated Transcription of Hebrew Medieval Manuscripts', DH2019.
  • Lapin, Hayim and Daniel Stökl Ben Ezra, eRabbinica
  • Meier, Wolfgang, Magdalena Turska, TEI Processing Model Toolbox: Power To The Editor. DH 2016: 936
  • Meier, Wolfgang, Turska, Magdalena, TEI-Publisher.
  • Shmidman, A., Koppel, M., Porat, E.: Identification of parallel passages across a large hebrew/aramaic corpus. Journal of Data Mining and Digital Humanities, 2018
  • Wecker, A. V. Raziel-Kretzmer, U. Schor, T. Kuflik, A. Ohali, D. Elovits, M. Lavee, P. Stevenson, D. Stökl Ben Ezra, (2019) 'Tikkoun Sofrim: A WebApp for Personalization and Adaptation of Crowdsourcing Transcriptions', UMAP’19 Adjunct (Larnaca. New York: ACM Press)
Mardi 19 janvier 2021
Organisateurs

Comité d'organisation du séminaire DHAI

Image
Fractal - Pixabay

Séminaire DHAI 2020-2021

Du 9 octobre 2020 au 8 juin 2021

Interroger la rencontre entre les humanités numériques et l'intelligence artificielle. 

Organisation : Ségolène Albouy, Mathieu Aubry, Jean-Baptiste Camps, Matthieu Husson, Béatrice Joyeux-Prunel, Gabriel Peyré, Thierry Poibeau et Léa Saint-Raymond