Alignement automatique de l'ensemble des états par différences de chaînes sensibles aux déplacements

1. Présentation

Notre but est de produire automatiquement un alignement des différents états d’un même dossier, en prenant en compte les déplacements de mots. On impose la contrainte suivante : un mot doit nécessairement rester dans le même segment tout au long des différentes versions du dossier ; autrement dit on a la garantie que les déplacements sont confinés à l’intérieur d’un segment (pas de « chevauchement »). Dans ce but, nous somme parti d’un alignement au grain mot entre chaque couple d’états successifs d’un dossier. Un état est considéré dans son intégralité comme une unique chaîne de mots assimilée à une phrase. L’alignement et le repérage des déplacements est effectué à l’aide d’une implémentation de TER (Translation Error Rate). Les mots sont ensuite regroupés en segments en fonction de leur évolution sur l’ensemble des états. L'alignement produit fait une distinction nette entre segments constants et segments modifiés.

Pour chaque dossier, on dispose de 3 fichiers et de quatre sorties graphiques :

2. Corpus Brouillon (v1/v2)

Dossier n°1 : 2 états de fichier

Dossier n°2 : 4 états de fichier

Dossier n°3 : 2 états de fichier

Dossier n°4 : 4 états de fichier

Dossier n°5 : 3 états de fichier

Dossier n°6 : 4 états de fichier

Dossier n°7 : 5 états de fichier

Dossier n°8 : 4 états de fichier

Dossier n°9 : 4 états de fichier

Dossier n°10 : 10 états de fichier

Dossier n°11 : 7 états de fichier

Dossier n°12 : 6 états de fichier

Dossier n°13 : 6 états de fichier

Dossier n°14 : 5 états de fichier

Dossier n°15 : 24 états de fichier

Dossier n°16 : 16 états de fichier

Dossier n°17 : 30 états de fichier

Dossier n°18 : 12 états de fichier

Dossier n°19 : 41 états de fichier

Dossier n°20 : 3 états de fichier

Dossier n°21 : 5 états de fichier

Dossier n°22 : 6 états de fichier

Dossier n°23 : 5 états de fichier

3. Corpus InputLog

Dossier n°1 : 12 états de fichier

Dossier n°2 : 14 états de fichier

Dossier n°3 : 9 états de fichier

Dossier n°4 : 13 états de fichier