The corpus compiled for the RIN ConDÉ project consists of twelve reference sources on Normancustomary law, from the 13th to the 19th century. Despite dealing with the same subject, the textsin this corpus are very heterogeneous in terms of format and structure. The texts were processedwith the HTR tool Transkribus; Python and XSLT languages were employed for automated trans-formations; lemmatization was performed by AnaLog and the data was encoded using the TEI encoding model. Processing the data required a stage of reflection to identify the best means ofrestoring the structures and reference systems and to devise a set of lemma and part-of-speech tagsthat would work for texts covering six centuries of linguistic evolution. To make the texts maximally comparable, it was eventually decided to create a three-level structure (part > chapter > sec-tion).
Le corpus du projet RIN ConDÉ comporte douze sources de référence du droit coutumier normand, du 13e au 19e siècle. Bien qu'homogène dans son sujet, ce corpus présente une grande hétérogénéité dans le format et donc la structure des données textuelles. Le traitement des données,fondé majoritairement sur un HTR par Transkribus, des transformations informatiques en langages Python et XSLT, une lemmatisation par AnaLog et le modèle d'encodage TEI, a donc dû comporterune phase de réflexion sur la structure permettant de restituer les structures et systèmes de référence des différents témoins, ainsique concilier six cents ans d'évolution linguistique sous un seuljeu d'étiquettes de lemmes et catégories morphosyntaxiques. Le choix a été d'élaborer une structure sur trois niveaux (partie > chapitre > section), et a nécessité quelques prises de parti ponctuelles afin de rendre les témoins véritablement comparables.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados