Séminaire

De la transcription automatique de manuscrits hébreux médiévaux via l'édition scientifique à l'analyse de l'intertextualité : outils et praxis autour d'eScriptorium

Séminaire DHAI 2020-2021

Mardi 19 janvier 2021Mardi 19 janvier 2021

De 12h à 14h

en ligne

Conférence de Daniel Stoekl (École Pratique des Hautes Études)

Après une brève introduction à notre infrastructure HTR open-source eScriptorium cum kraken, je démontrerai son application à la segmentation automatique de la mise en page, à la segmentation des textes manuscrits et à la paléographie des manuscrits hébraïques. En utilisant ses riches (mais toujours en croissance) fonctionnalités internes et son API ainsi qu'un certain nombre d'outils externes (Decker et alii 2011, Shmidman et alii 2018 et les miens), je traiterai de l'identification automatique du texte, de l'alignement et du crowdsourcing (Kuflik et al 2019, Wecker et al 2019) et de la façon dont ces procédures peuvent être utilisées pour créer différents types de modèles génériques pour la segmentation et la transcription. Je montrerai les premières idées pour passer automatiquement d'une hiérarchie de documents résultant de HTR à un modèle orienté texte avec des ajouts interlinéaires et marginaux intégrés qui peuvent être affichés dans des outils comme TEI-Publisher. Bien que les méthodes présentées soient génériques et applicables à la plupart des langues et des écritures, une attention particulière sera accordée aux problèmes découlant du traitement des écritures non-latines, des RTL et des langues morphologiquement riches.

Bibliographie :

Dekker, R. H., Middell, G.: Computer-Supported Collation with CollateX: Managing Textual Variance in an Environment with Varying Requirements. Supporting Digital Humanities 2011. University of Copenhagen, Denmark (2011).
Kuflik, T. M. Lavee, A. Ohali, V. Raziel-Kretzmer, U. Schor, A. Wecker, E. Lolli, P. Signoret, D. Stökl Ben Ezra (2019) 'Tikkoun Sofrim – Combining HTR and Crowdsourcing for Automated Transcription of Hebrew Medieval Manuscripts', DH2019.
Lapin, Hayim and Daniel Stökl Ben Ezra, eRabbinica
Meier, Wolfgang, Magdalena Turska, TEI Processing Model Toolbox: Power To The Editor. DH 2016: 936
Meier, Wolfgang, Turska, Magdalena, TEI-Publisher.
Shmidman, A., Koppel, M., Porat, E.: Identification of parallel passages across a large hebrew/aramaic corpus. Journal of Data Mining and Digital Humanities, 2018
Wecker, A. V. Raziel-Kretzmer, U. Schor, T. Kuflik, A. Ohali, D. Elovits, M. Lavee, P. Stevenson, D. Stökl Ben Ezra, (2019) 'Tikkoun Sofrim: A WebApp for Personalization and Adaptation of Crowdsourcing Transcriptions', UMAP’19 Adjunct (Larnaca. New York: ACM Press)

Mardi 19 janvier 2021

Organisateurs

Comité d'organisation du séminaire DHAI

Séminaire DHAI 2020-2021

Du 9 octobre 2020 au 8 juin 2021

Interroger la rencontre entre les humanités numériques et l'intelligence artificielle.

Organisation : Ségolène Albouy, Mathieu Aubry, Jean-Baptiste Camps, Matthieu Husson, Béatrice Joyeux-Prunel, Gabriel Peyré, Thierry Poibeau et Léa Saint-Raymond

Reflections on the decolonization processes and data sovereignty based on the digital and AI strategies of indigenous peoples in Canada

Vendredi 9 octobre 2020 , De 12h à 14h

Heads and Tails: When Digital Humanities and Artificial Intelligence Meet.

Mardi 20 octobre 2020 , De 12h à 14h

Alignment and text comparison for digital humanities

Mardi 24 novembre 2020 , De 12h à 14h

Redefining the cultural history of newspapers with artificial intelligence: the experiments of the Numapresse project

Mardi 15 décembre 2020 , De 12h à 14h