Fil d'Ariane
- Accueil /
- Évènements /
- De la transcription automatique de manuscrits hébreux médiévaux via l'édition scientifique à l'analyse de l'intertextualité : outils et praxis autour d'eScriptorium
Conférence de Daniel Stoekl (École Pratique des Hautes Études)
Après une brève introduction à notre infrastructure HTR open-source eScriptorium cum kraken, je démontrerai son application à la segmentation automatique de la mise en page, à la segmentation des textes manuscrits et à la paléographie des manuscrits hébraïques. En utilisant ses riches (mais toujours en croissance) fonctionnalités internes et son API ainsi qu'un certain nombre d'outils externes (Decker et alii 2011, Shmidman et alii 2018 et les miens), je traiterai de l'identification automatique du texte, de l'alignement et du crowdsourcing (Kuflik et al 2019, Wecker et al 2019) et de la façon dont ces procédures peuvent être utilisées pour créer différents types de modèles génériques pour la segmentation et la transcription. Je montrerai les premières idées pour passer automatiquement d'une hiérarchie de documents résultant de HTR à un modèle orienté texte avec des ajouts interlinéaires et marginaux intégrés qui peuvent être affichés dans des outils comme TEI-Publisher. Bien que les méthodes présentées soient génériques et applicables à la plupart des langues et des écritures, une attention particulière sera accordée aux problèmes découlant du traitement des écritures non-latines, des RTL et des langues morphologiquement riches.