Corpus - Banque de données


CFPP2000

Le corpus de français parlé parisien CFPP2000 a été constitué à l'initiative de Sonia Branca-Rosoff par trois universitaires de Paris 3, Sonia Branca-Rosoff, et Serge Fleury, (Equipe SYLED), Florence Lefeuvre (Equipe SYLED) ainsi que par Mat Pires (Equipe LASELDI, U. de Franche-Comté).
Il s'agit d'interviews non directives sur les quartiers de Paris et de la proche banlieue, qui ont été transcrites et alignées sur le son au tour de parole, et qui sont entièrement et librement accessibles sur le net. Un certain nombre d'outils en ligne, notamment un concordancier et des outils textométriques, permettent de mener des requêtes lexicales et grammaticales. Ce corpus constitue aussi un ensemble de témoignages intéressants sur les représentations de Paris et de sa proche banlieue, susceptible d'intéresser des analystes du discours, des sociologues, ou tout simplement des curieux de la ville.
Le corpus comporte aujourd'hui un peu plus de 300 000 mots.
http://cfpp2000.univ-paris3.fr/


Banque de néologismes de la presse portugaise et brésilienne

Cette liste de néologismes trouvés, traités et traduits par les étudiants de LEA de portugais/anglais et portugais/espagnol sous la direction de Mme Armelle Le Bars professeur à l'Université de Paris 3, est présentée sous forme de banque consultable par tous. L'ensemble de ces termes peut être utile aux étudiants, aux traducteurs ou aux terminologues, en raison du manque notable de dictionnaires bilingues portugais français. Certains de ces termes figurent déjà dans le dictionnaire Aurélio, d'autres n'y figurent pas encore et dans tous les cas nous en donnons la formation néologique pour mieux cerner la manière dont la langue portugaise évolue ainsi qu'une traduction possible en français.


Analyse chronologique de la presse en ligne : le cas du journal "Le Monde"

L'étude des articles de la presse quotidienne constitue un sujet de prédilection pour les chercheurs qui s'intéressent au vocabulaire politique. Plusieurs journaux fournissent désormais une édition électronique de leur livraison quotidienne. Le centre à constitué un corpus de veille en rassemblant une collection complète des articles du journal Le Monde disponible sur le Web. De manière expérimentale et en respectant les obligations commerciales prises lors de l'abonnement à ce service qui nous interdisent de communiquer les textes dans leur état original, la version HTML du quotidien est traitée pour produire différents états : une version des contenus textuels du journal quotidien sous une forme normalisée au format XML et une version compatible avec le logiciel Lexico3, des états statistiques quotidiens. Ces versions quotidiennes des contenus textuels sont ensuite rassemblées pour produire, pour chacune des grandes rubriques, des séries chronologiques complètes sur l'ensemble de la période considérée. Cette expérience qui a démarré le 12 avril 2003 nous permet de disposer à ce jour d'un corpus qui compte plusieurs dizaines de millions d'occurrences. L'objectif serait de construire un baromètre quotidien de l'évolution des systèmes lexicaux.


CDMCL2007 : Corpus sur le discours métalinguistique de la classe de lecture

Le corpus CDMCL2007 est composé de 39 séances de lecture enregistrées pour la majorité dans des classes de cours préparatoire de l'académie d'Aix-Marseille de 1997 à 2006.


Corpus Verts/Verdi

Il s'agit de deux corpus d'entretiens avec des militants verts français et italiens recueillis entre 2000 et 2001 composés respectivement de 20 entretiens en Italien et 25 en Français (dont 24 exploités pour la thèse). Ces entretiens, oraux, ont été ensuite retranscrits à l'aide principalement d'un logiciel de dictée vocale, puis formatés pour une exploration par Lexico3 dans le cadre de la thèse. Cette exploration ne laissait pas apparaître les questions posées, mais seulement les réponse. Nous proposons ici l'ensemble des entretiens réalisés, questions/réponses, ainsi que les clefs utilisées pour nos propres explorations. Tous les entretiens ont été rendus anonymes.
Contact : Béatrice Fracchiolla, MCF en Sciences du langage, Université de Paris 8, Département ComFle A331 - UFR 8, EA 2290 SYLED - (Paris 3)

Corpus alignés

Discours d'investiture de B. Obama : version anglaise et 4 traductions en français

Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).

Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).

Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.

Corpus DH v1.1 : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).

La Divine Comédie. Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).

Corpus Alice au pays des mesures :

Sources : anglais, japonais, français (traduction 1), français (traduction 2), italien, chinois, polonais, russe, allemand

Alignement Alice au pays des merveilles : 8 langues (anglais, japonais, français (2 traductions), italien, chinois, polonais, russe, allemand) ; lemmatisation via treetagger (EN, FR, IT), segmentation et lemmatisation via chasen (JP), segmentation via ICTCLAS (ZH).

Alignement Alice au pays des merveilles : idem que le précédent avec affichage sélectif des volets visés.

Chacun des volets de l'alignement est accessible ici (extraction via mkAlign à partir du TMX précédent) :

Kit d'alignement Alice : fichier au format RTF contenant dans une colonne la version de référence en anglais, et une colonne à compléter en y intégrant le nouveau volet à aligner.

Ulysse : version anglaise et traduction en français (Source : Ulysse, par jour)

Corpus Le Vieil Homme Aligné :

Le vieil homme et la mer (extraits) : version anglaise et 3 traductions en français (Source : embruns.net)

Le vieil homme et la mer (extraits) : 2 volets (volet français) traduction de François Bon (2012), (volet français) traduction de slate.fr (2012)

Le vieil homme et la mer (extraits) : 4 volets : (volet anglais) Hemingway (version originale), (volet français) traduction de J. Dutourd (1952), (volet français) traduction de François Bon (2012), (volet français) traduction de slate.fr (2012)

Le vieil homme et la mer. 4 volets : (volet anglais) Hemingway (version originale), (volet français) traduction de J. Dutourd (1952), (volet français) traduction de François Bon (2012), (volet espagnol) Colección "Dante Quincenal" (1989)