PROJET ECRISCOL : Work-In-Progress

Le schéma suivant résume la chaîne de traitement mise en oeuvre sur chacune des copies du corpus ECRISCOL :

Le traitement d'une copie génère donc la création d'un certain nombre de fichiers associés à la même copie originale.

On illustre ci-dessous le détail de ces fichiers sur le traitement de la copie : L2-01-004-B

Type	Exemple sur L2-01-004-B	Remarques
Le fichier "Copie originale"	L2-01-004-B-original	Ce fichier est en général une image (ici en version PDF).
Le fichier "Transcription"	L2-01-004-B-transcription	Ce fichier est construit à la main, il doit être au format TXT.
Le fichier "Annotation"	L2-01-004-B-annotation	Ce fichier est construit à la main, il doit être au format TXT.
Le fichier "préTrameur"	L2-01-004-B-pretrameur.txt	Ce fichier est construit de manière semi-automatique (par SF pour le moment), il doit être au format TXT. Il est simplement un transcodage du fichier "Annotation" pour permettre de construire le fichier "Base-Trameur". Il permet aussi de vérifier si les annotations ont été bien codées.
Le fichier "Base-Trameur"	L2-01-004-B-basetrameur	La base visible ici contient la copie L2-01-004-B et d'autres... Ce fichier est construit semi-automatiquement à partir du précédent (par SF pour le moment), il doit être au format XML et respecté le format TRAME/CADRE d'une base textométrique importable par le Trameur.
Le fichier "TEI-XML"	L2-01-004-B-tei.xml	Ce fichier est construit automatiquement (SF a créé pour cela le programme Ecriscol2TEI). Il doit être au format XML-TEI. Il est construit pour le moment à partir du fichier "préTrameur" (ce pourrait être aussi à partir du fichier "Annotation").

1.1. REMARQUES

1.1.1 Fichiers Transcription-Annotation

Les fichiers L2-01-004-B présentés ci-dessus ne sont pas forcément définitifs : ils contiennent probablement des erreurs. Leur version finale viendra plus tard...

1.1.2 Fichier TEI

Le fichier TEI actuel est "provisoire" :

Si vous cliquez sur le lien L2-01-004-B-tei.xml, vous avez accès au fichier L2-01-004-B-tei.xml associé à une feuille de styles qui permet de le lire "agréablement" dans votre navigateur.
La feuille de styles affiche via un jeu de couleurs les différentes opérations de réécriture : suppression insertion remplacement
Le codage XML-TEI est masqué par la feuille de styles. Pour le voir, tapez le raccourci clavier Ctrl-U (Pomme-U sur Mac).

Ci-dessous, les 2 vues sur la même zone du fichier, tout d'abord l'affichage via la feuille de styles, puis le codage XML-TEI actuel :

clic-sur l'image pour détail

Pour le moment, les opérations de réécriture sont codées avec les balises XML suivantes :

suppression	<del>texte_supprimé</del>
insertion	<ins>texte_inséré</ins>
remplacement	<sub><b>texte_avant</b><a>texte_après</a></sub>

Ces balises ne sont pas conformes à ce que prévoit la TEI, on les changera très rapidement (via le programme construit).
Pour le moment, c'est pas gênant.

2. Arborescence d'archivage

L'arborescence d'archivage doit tenir compte de cette organisation : 1 copie ==> au moins 6 fichiers associés et archivés dans des dossiers différents mais facilement identifiables.
L'arborescence du corpus tel qu'il est archivé sur disque et en cours de stabilisation par Sara peut être synthétisé ainsi :

Pour le moment, le dossier TEI n'existe pas encore, ça viendra vite...

L'arborescence réelle du corpus est décrit par le schéma suivant (cf mise à jour de Sara) : il est nécessaire de zoomer sur l'image pour voir les détails...

Les ressources archivées sur la machine CLESTHIA (sur la base de l'arborescence précédente) seront ensuite mises en ligne (accès restreint) à cette adresse :
http://syled.univ-paris3.fr/ecriscol/ARCHIVE/index-ressources-ecriscol.html
(accessible à partir du site ECRISCOL, page CORPUS)

A FAIRE

Tous les fichiers associés à une copie doivent être archivés sur le disque de la machine CLESTHIA en respectant :

l'arborescence des fichiers,
le protocole de nommage prévu pour les dossiers et les fichiers.

SF se charge de mettre en ligne les ressources ECRISCOL archivées sur la machine CLESTHIA de manière à les rendre accessible sur la page CORPUS du site ECRISCOL (cf lien supra).

Sara : il faut prévoir d'intégrer les fichiers "préTrameur", "Base-Trameur", "TEI-XML" dans l'arborescence et sur le disque CLESTHIA.

3. Format TEI

Le fichier "TEI-XML" est important : il sera diffusé sur Ortolang. Il est produit automatiquement (par le programme Ecriscol2TEI) à partir du fichier "préTrameur".

Dans l'exemple L2-01-004-B, on voit qu'il reste à lui intégrer ses métadonnées (pour le moment à la main, on verra par la suite).

IMPORTANT: les métadonnées intégrées dans ce fichier ne concernent que le fichier lui-même (ceux qui l'ont construit : les transcripteurs par exemple) et pas l'élève qui a produit la copie.

A FAIRE

SF : Le programme Ecriscol2TEI sera à mettre à jour : il faut y intégrer les annotations INSERTION, SUPPRESSION, REMPLACEMENT dans un format compatible avec TEI.

Mise à jour : 15/05/2016

Nouvelle version du programme Ecriscol2TEI avec intégration de plusieurs types d'opération (INSERTION, SUPPRESSION, REMPLACEMENT, MODIFICATION) : EC-CM2-2015-SDPB-D1-E2-V1-tei.xml

Mise à jour : 30/06/2016

2 nouveaux exemples présentant les différentes facettes d'une copie :

Manuscrit	Transcription	Annotation	TEI
EC-CM2-2015-JJS-D1-E8-V1V2	EC-CM2-2015-JJS-D1-E8-V1	ANNOT_EC-CM2-2015-MAF-D1-E8-V1	ANNOT_EC-CM2-2015-MAF-D1-E8-V1-tei
-	EC-CM2-2015-MAF-D1-E8-V2	ANNOT_EC-CM2-2015-MAF-D1-E8-V2	ANNOT_EC-CM2-2015-MAF-D1-E8-V2-tei

4. Métadonnées

Deux niveaux de métadonnées (au moins) sont prévus : (1) le premier niveau concerne les élèves et leur environnement scolaire et familial ; (2) le second est intégré dans le fichier "TEI-XML".

(1) Le premier fichier de métadonnées (ou plusieurs) sera à associer en plus aux précédents.

On verra plus tard comment articuler les métadonnées de chaque copie (celles concernant les élèves/écoles) avec le fichier TEI notamment.

(2) Concernant les métadonnées du fichier TEI, on voit sur la copie L2-01-004-B (L2-01-004-B-tei.xml) qu'il faudra y intégrer aussi le nom des personnes qui ont fait le travail de transcription/annotation. Pour le moment, de nombreux champs sont non renseignés ou incomplètement.

A FAIRE

Claire, il serait bien d'avoir un fichier complet avec tous les fichiers du corpus (en respectant la nomenclature mise en oeuvre par Sara sur l'arborescence) et indiquer qui s'en occupe. Il faut probablement établir les attributions au niveau de COPIES (cf arborescence précédente).

Myriam, dès que vous le pouvez, il faudrait donner à voir le fichier de métadonnées associé à la copie L2-01-004-B présentée ci-dessus. Il faudra aussi regarder les métadonnées du fichier XML-TEI.

ECRISCOL : travaux en cours

1. Chaîne de traitement ECRISCOL

1.1. REMARQUES

1.1.1 Fichiers Transcription-Annotation

1.1.2 Fichier TEI

2. Arborescence d'archivage

3. Format TEI

4. Métadonnées

5. Base Trameur

6. Autres traitements à prévoir