Le schéma suivant résume la chaîne de traitement mise en oeuvre sur chacune des copies du corpus ECRISCOL :
Le traitement d'une copie génère donc la création d'un certain nombre de fichiers associés à la même copie originale.
On illustre ci-dessous le détail de ces fichiers sur le traitement de la copie : L2-01-004-B
Type | Exemple sur L2-01-004-B | Remarques |
Le fichier "Copie originale" | L2-01-004-B-original | Ce fichier est en général une image (ici en version PDF). |
Le fichier "Transcription" | L2-01-004-B-transcription | Ce fichier est construit à la main, il doit être au format TXT. |
Le fichier "Annotation" | L2-01-004-B-annotation | Ce fichier est construit à la main, il doit être au format TXT. |
Le fichier "préTrameur" | L2-01-004-B-pretrameur.txt | Ce fichier est construit de manière semi-automatique (par SF pour le moment), il doit être au format TXT. |
Le fichier "Base-Trameur" | L2-01-004-B-basetrameur | La base visible ici contient la copie L2-01-004-B et d'autres... |
Le fichier "TEI-XML" | L2-01-004-B-tei.xml | Ce fichier est construit automatiquement (SF a créé pour cela le programme Ecriscol2TEI). Il doit être au format XML-TEI. |
Les fichiers L2-01-004-B présentés ci-dessus ne sont pas forcément définitifs : ils contiennent probablement des erreurs. Leur version finale viendra plus tard...
Le fichier TEI actuel est "provisoire" :
Ci-dessous, les 2 vues sur la même zone du fichier, tout d'abord l'affichage via la feuille de styles, puis le codage XML-TEI actuel :
Pour le moment, les opérations de réécriture sont codées avec les balises XML suivantes :
suppression | <del>texte_supprimé</del> |
insertion | <ins>texte_inséré</ins> |
remplacement | <sub><b>texte_avant</b><a>texte_après</a></sub> |
Ces balises ne sont pas conformes à ce que prévoit la TEI, on les changera très rapidement (via le programme construit).
Pour le moment, c'est pas gênant.
L'arborescence d'archivage doit tenir compte de cette organisation : 1 copie ==> au moins 6 fichiers associés et archivés dans des dossiers différents mais facilement identifiables.
L'arborescence du corpus tel qu'il est archivé sur disque et en cours de stabilisation par Sara peut être synthétisé ainsi :
Pour le moment, le dossier TEI n'existe pas encore, ça viendra vite...
L'arborescence réelle du corpus est décrit par le schéma suivant (cf mise à jour de Sara) : il est nécessaire de zoomer sur l'image pour voir les détails...
Les ressources archivées sur la machine CLESTHIA (sur la base de l'arborescence précédente) seront ensuite mises en ligne (accès restreint) à cette adresse :
http://syled.univ-paris3.fr/ecriscol/ARCHIVE/index-ressources-ecriscol.html
(accessible à partir du site ECRISCOL, page CORPUS)
A FAIRE
Tous les fichiers associés à une copie doivent être archivés sur le disque de la machine CLESTHIA en respectant :
SF se charge de mettre en ligne les ressources ECRISCOL archivées sur la machine CLESTHIA de manière à les rendre accessible sur la page CORPUS du site ECRISCOL (cf lien supra).
Sara : il faut prévoir d'intégrer les fichiers "préTrameur", "Base-Trameur", "TEI-XML" dans l'arborescence et sur le disque CLESTHIA.
Le fichier "TEI-XML" est important : il sera diffusé sur Ortolang. Il est produit automatiquement (par le programme Ecriscol2TEI) à partir du fichier "préTrameur".
Dans l'exemple L2-01-004-B, on voit qu'il reste à lui intégrer ses métadonnées (pour le moment à la main, on verra par la suite).
IMPORTANT: les métadonnées intégrées dans ce fichier ne concernent que le fichier lui-même (ceux qui l'ont construit : les transcripteurs par exemple) et pas l'élève qui a produit la copie.
A FAIRE
SF : Le programme Ecriscol2TEI sera à mettre à jour : il faut y intégrer les annotations INSERTION, SUPPRESSION, REMPLACEMENT dans un format compatible avec TEI.
Mise à jour : 15/05/2016
Nouvelle version du programme Ecriscol2TEI avec intégration de plusieurs types d'opération (INSERTION, SUPPRESSION, REMPLACEMENT, MODIFICATION) : EC-CM2-2015-SDPB-D1-E2-V1-tei.xml
Mise à jour : 30/06/2016
2 nouveaux exemples présentant les différentes facettes d'une copie :
Deux niveaux de métadonnées (au moins) sont prévus : (1) le premier niveau concerne les élèves et leur environnement scolaire et familial ; (2) le second est intégré dans le fichier "TEI-XML".
(1) Le premier fichier de métadonnées (ou plusieurs) sera à associer en plus aux précédents.
On verra plus tard comment articuler les métadonnées de chaque copie (celles concernant les élèves/écoles) avec le fichier TEI notamment.
(2) Concernant les métadonnées du fichier TEI, on voit sur la copie L2-01-004-B (L2-01-004-B-tei.xml) qu'il faudra y intégrer aussi le nom des personnes qui ont fait le travail de transcription/annotation. Pour le moment, de nombreux champs sont non renseignés ou incomplètement.
A FAIRE
Claire, il serait bien d'avoir un fichier complet avec tous les fichiers du corpus (en respectant la nomenclature mise en oeuvre par Sara sur l'arborescence) et indiquer qui s'en occupe. Il faut probablement établir les attributions au niveau de COPIES (cf arborescence précédente).
Myriam, dès que vous le pouvez, il faudrait donner à voir le fichier de métadonnées associé à la copie L2-01-004-B présentée ci-dessus. Il faudra aussi regarder les métadonnées du fichier XML-TEI.
REMARQUE : Une base pour le Trameur est a priori censée regrouper un certain nombre de copies (par niveau par exemple : toutes les copies de seconde). On ne construira donc pas a priori une base trameur pour chaque copie.
Les annotations morphosyntaxiques dans la base Trameur seront à corriger manuellement. A voir plus tard.