ECRISCOL : travaux en cours

 

1. Chaîne de traitement ECRISCOL

Le schéma suivant résume la chaîne de traitement mise en oeuvre sur chacune des copies du corpus ECRISCOL :

Le traitement d'une copie génère donc la création d'un certain nombre de fichiers associés à la même copie originale.

On illustre ci-dessous le détail de ces fichiers sur le traitement de la copie : L2-01-004-B

TypeExemple sur L2-01-004-BRemarques
Le fichier "Copie originale"L2-01-004-B-original

Ce fichier est en général une image (ici en version PDF).

Le fichier "Transcription"L2-01-004-B-transcription

Ce fichier est construit à la main, il doit être au format TXT.

Le fichier "Annotation"L2-01-004-B-annotation

Ce fichier est construit à la main, il doit être au format TXT.

Le fichier "préTrameur"L2-01-004-B-pretrameur.txt

Ce fichier est construit de manière semi-automatique (par SF pour le moment), il doit être au format TXT.
Il est simplement un transcodage du fichier "Annotation" pour permettre de construire le fichier "Base-Trameur". Il permet aussi de vérifier si les annotations ont été bien codées.

Le fichier "Base-Trameur"L2-01-004-B-basetrameur

La base visible ici contient la copie L2-01-004-B et d'autres...
Ce fichier est construit semi-automatiquement à partir du précédent (par SF pour le moment), il doit être au format XML et respecté le format TRAME/CADRE d'une base textométrique importable par le Trameur.

Le fichier "TEI-XML"L2-01-004-B-tei.xml

Ce fichier est construit automatiquement (SF a créé pour cela le programme Ecriscol2TEI). Il doit être au format XML-TEI.
Il est construit pour le moment à partir du fichier "préTrameur" (ce pourrait être aussi à partir du fichier "Annotation").

1.1. REMARQUES

1.1.1 Fichiers Transcription-Annotation

Les fichiers L2-01-004-B présentés ci-dessus ne sont pas forcément définitifs : ils contiennent probablement des erreurs. Leur version finale viendra plus tard...

1.1.2 Fichier TEI

Le fichier TEI actuel est "provisoire" :

Ci-dessous, les 2 vues sur la même zone du fichier, tout d'abord l'affichage via la feuille de styles, puis le codage XML-TEI actuel :


clic-sur l'image pour détail


clic-sur l'image pour détail

Pour le moment, les opérations de réécriture sont codées avec les balises XML suivantes :

suppression<del>texte_supprimé</del>
insertion<ins>texte_inséré</ins>
remplacement<sub><b>texte_avant</b><a>texte_après</a></sub>

Ces balises ne sont pas conformes à ce que prévoit la TEI, on les changera très rapidement (via le programme construit).
Pour le moment, c'est pas gênant.

2. Arborescence d'archivage

L'arborescence d'archivage doit tenir compte de cette organisation : 1 copie ==> au moins 6 fichiers associés et archivés dans des dossiers différents mais facilement identifiables.
L'arborescence du corpus tel qu'il est archivé sur disque et en cours de stabilisation par Sara peut être synthétisé ainsi :

Pour le moment, le dossier TEI n'existe pas encore, ça viendra vite...

L'arborescence réelle du corpus est décrit par le schéma suivant (cf mise à jour de Sara) : il est nécessaire de zoomer sur l'image pour voir les détails...

Les ressources archivées sur la machine CLESTHIA (sur la base de l'arborescence précédente) seront ensuite mises en ligne (accès restreint) à cette adresse :
http://syled.univ-paris3.fr/ecriscol/ARCHIVE/index-ressources-ecriscol.html
(accessible à partir du site ECRISCOL, page CORPUS)

A FAIRE

Tous les fichiers associés à une copie doivent être archivés sur le disque de la machine CLESTHIA en respectant :

SF se charge de mettre en ligne les ressources ECRISCOL archivées sur la machine CLESTHIA de manière à les rendre accessible sur la page CORPUS du site ECRISCOL (cf lien supra).

Sara : il faut prévoir d'intégrer les fichiers "préTrameur", "Base-Trameur", "TEI-XML" dans l'arborescence et sur le disque CLESTHIA.

3. Format TEI

Le fichier "TEI-XML" est important : il sera diffusé sur Ortolang. Il est produit automatiquement (par le programme Ecriscol2TEI) à partir du fichier "préTrameur".

Dans l'exemple L2-01-004-B, on voit qu'il reste à lui intégrer ses métadonnées (pour le moment à la main, on verra par la suite).

IMPORTANT: les métadonnées intégrées dans ce fichier ne concernent que le fichier lui-même (ceux qui l'ont construit : les transcripteurs par exemple) et pas l'élève qui a produit la copie.

A FAIRE

SF : Le programme Ecriscol2TEI sera à mettre à jour : il faut y intégrer les annotations INSERTION, SUPPRESSION, REMPLACEMENT dans un format compatible avec TEI.

Mise à jour : 15/05/2016

Nouvelle version du programme Ecriscol2TEI avec intégration de plusieurs types d'opération (INSERTION, SUPPRESSION, REMPLACEMENT, MODIFICATION) : EC-CM2-2015-SDPB-D1-E2-V1-tei.xml

Mise à jour : 30/06/2016

2 nouveaux exemples présentant les différentes facettes d'une copie :

ManuscritTranscriptionAnnotationTEI
EC-CM2-2015-JJS-D1-E8-V1V2EC-CM2-2015-JJS-D1-E8-V1ANNOT_EC-CM2-2015-MAF-D1-E8-V1ANNOT_EC-CM2-2015-MAF-D1-E8-V1-tei
-EC-CM2-2015-MAF-D1-E8-V2ANNOT_EC-CM2-2015-MAF-D1-E8-V2ANNOT_EC-CM2-2015-MAF-D1-E8-V2-tei

4. Métadonnées

Deux niveaux de métadonnées (au moins) sont prévus : (1) le premier niveau concerne les élèves et leur environnement scolaire et familial ; (2) le second est intégré dans le fichier "TEI-XML".

(1) Le premier fichier de métadonnées (ou plusieurs) sera à associer en plus aux précédents.

On verra plus tard comment articuler les métadonnées de chaque copie (celles concernant les élèves/écoles) avec le fichier TEI notamment.

(2) Concernant les métadonnées du fichier TEI, on voit sur la copie L2-01-004-B (L2-01-004-B-tei.xml) qu'il faudra y intégrer aussi le nom des personnes qui ont fait le travail de transcription/annotation. Pour le moment, de nombreux champs sont non renseignés ou incomplètement.

A FAIRE

Claire, il serait bien d'avoir un fichier complet avec tous les fichiers du corpus (en respectant la nomenclature mise en oeuvre par Sara sur l'arborescence) et indiquer qui s'en occupe. Il faut probablement établir les attributions au niveau de COPIES (cf arborescence précédente).

Myriam, dès que vous le pouvez, il faudrait donner à voir le fichier de métadonnées associé à la copie L2-01-004-B présentée ci-dessus. Il faudra aussi regarder les métadonnées du fichier XML-TEI.

5. Base Trameur

REMARQUE : Une base pour le Trameur est a priori censée regrouper un certain nombre de copies (par niveau par exemple : toutes les copies de seconde). On ne construira donc pas a priori une base trameur pour chaque copie.

6. Autres traitements à prévoir

Les annotations morphosyntaxiques dans la base Trameur seront à corriger manuellement. A voir plus tard.

 

Projet ECRISCOL - WIP. Mis à jour le 13/3/2016 par SF