CLA2T (Responsable : Serge Fleury)
PROJETS EN COURS
- LEXICO
- http://www.tal.univ-paris3.fr/lexico/
- LEXICO est un logiciel conçu pour le traitement lexicométrique de textes comportant plusieurs centaines de milliers d'occurrences. Initialement développé par André Salem (ILPGA - Paris 3) au sein du laboratoire " Lexicométrie & textes politiques " de l'E.N.S. de Fontenay-Saint-Cloud.
- Trameur-Tk : le métier lexicométrique
- http://www.tal.univ-paris3.fr/trameur : Dans une perspective lexicométrique / textométrique, représentation du texte sous la forme d'une Trame et d'un Cadre i.e le métier Textométrique. Le Trameur : Programme de génération puis de gestion de la Trame et du Cadre d'un texte (le métier Textométrique) pour construire des opérations lexicométriques / textométriques. Le Trameur intègre le programme treetagger : système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation. Le Trameur est disponible en 2 versions : la " version Tk " et la " version console".
- LEXICOMETRICA
- http://lexicometrica.univ-paris3.fr/
- La revue LEXICOMETRICA s'adresse aux chercheurs, aux étudiants, aux professionnels de la communication et de la fouille de données textuelles... intéressés par les travaux théoriques et pratiques menés dans les domaines suivants : Lexicométrie / statistique textuelle, linguistiques de corpus, extraction d'informations à partir de corpus de texte, acquisition de connaissances... Elle est publiée sur Internet et rassemble des articles de recherche ou des comptes-rendus d'expériences. Assisté d'un réseau de correspondants, son comité de rédaction sélectionne les articles à paraître. Un sommaire à double entrée permet d'accéder aux articles à la fois par date de parution (Parcours Chronologique) et par thème (Parcours Thématique).
- MKALIGN
- http://www.tal.univ-paris3.fr/mkAlign/ : Le programme mkAlign permet de construire ou de corriger un alignement de 2 textes puis de produire une version XML du bi-texte aligné.
- Projet ANR 2006 - Programme "Corpus et outils de la recherche en sciences humaines et sociales"
- Textométrie : Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte (Coordinateur : Serge Heiden).
- CRDO : Centre de Ressources pour la Description de l'ORAL
- Le Centre de Ressources sur la Description de l'Oral (CRDO) est le Centre de Ressources Numériques centré sur les ressources orales. Il a été composé à partir de deux propositions portées respectivement par les deux laboratoires Lacito et LPL. Le groupe parisien du CRDO correspond à la proposition portée par le Lacito et à laquelle sont associés différents laboratoires de la région parisienne. Le SYLED/CLA2T est un des membres parisiens du CRDO.
- ANALYSE CHRONOLOGIQUE DE LA PRESSE EN LIGNE : LE CAS DU JOURNAL "LE MONDE"
- http://www.tal.univ-paris3.fr/sfleury/veille.htm
- L'étude des articles de la presse quotidienne constitue un sujet de prédilection pour les chercheurs qui s'intéressent au vocabulaire politique. Plusieurs journaux fournissent désormais une édition électronique de leur livraison quotidienne. Le centre à constitué un corpus de veille en rassemblant une collection complète des articles du journal Le Monde disponible sur le Web. De manière expérimentale et en respectant les obligations commerciales prises lors de l'abonnement à ce service qui nous interdisent de communiquer les textes dans leur état original, la version HTML du quotidien est traitée pour produire différents états : une version des contenus textuels du journal quotidien sous une forme normalisée au format XML et une version compatible avec le logiciel Lexico3, des états statistiques quotidiens. Ces versions quotidiennes des contenus textuels sont ensuite rassemblées pour produire, pour chacune des grandes rubriques, des séries chronologiques complètes sur l'ensemble de la période considérée. Cette expérience qui a démarré le 12 avril 2003 nous permet de disposer à ce jour d'un corpus qui compte plusieurs dizaines de millions d'occurrences. L'objectif serait de construire un baromètre quotidien de l'évolution des systèmes lexicaux
- PROJET INNOVANT ED268
- http://pi-ed268.univ-paris3.fr/
- L'objectif de ce projet est de proposer une réflexion et une démarche pour constituer des ressources linguistiques normalisées (données orales, écrites et vidéo) dans un cadre pluridisciplinaire. Sont en effet apparues ces dernières années de nombreuses tentatives internationales visant à normaliser les ressources électroniques (pour les sciences humaines en particulier (cf TEI, CES) ou plus généralement pour la diffusion des informations sur le web (projet web sémantique, W3C ). Le projet vise à s'inscrire dans cette perspective de constitution de ressources électroniques normalisées dans le cadre des corpus de langue. Il s'attache à définir des perspectives de structuration de corpus en intégrant des marqueurs de strate dans les textes encodés pour donner à voir les textes sous ces différents facettes en parcourant en profondeur les strates définies.
PROJETS REALISES
- TYPOLOGIE DES LETTRES DE RECLAMATION ADRESSEES A LA SOCIETE ORANGE-FRANCE
- La société Orange-France (filiale française de l'opérateur international de téléphonie) a demandé à notre centre de procéder à une étude sur un corpus de lettres de réclamations envoyées par les utilisateurs de téléphones portables. Le contrat porte sur la réalisation d'une typologie des expressions les plus courantes que l'on trouve dans ces lettres appuyée sur des données permettant de mesurer la satisfaction à propos du service rendu. L'objectif final est la création d'un dictionnaire de ces expressions applicable dans ce cadre particulier
- SENSNET
- http://www.tal.univ-paris3.fr/sfleury/sensnet.htm
- L'objectif final de ce projet est de mettre en place un système de catégorisation sémantique des usages et des parcours du Web. En nous appuyant sur les données d'usages des internautes du panel NetValue, nous proposerons un système de catégorisation qui prend en compte les particularités du Web : 1) Celui-ci n'est pas seulement un espace de consultation d'information ; il autorise un nombre élevé de types d'activités (s'informer, rechercher, communiquer, acheter…); 2)Le Web est un hypermedia, cela implique que les aspects formels (réseau de liens, éléments multimedia, zones interactives...) soient intégrés dans la catégorisation ; 3) La page vue est un moment dans le parcours de l'internaute mais aussi un des éléments constitutifs d'un site. Il faut prendre en compte la conception des sites dans l'analyse des usages du Web. Cette démarche d'analyse appliquée à des usages spécifiques (utilisation des portails, des sites marchands, parcours de recherche d'information...) permettra de mieux catégoriser les sites, les parcours et de définir des profils d'internautes en fonction de leurs usages.
- TYPWEB
- http://www.tal.univ-paris3.fr/sfleury/typweb.htm
- Nous appelons profilage de sites WEB, l'utilisation d'outils de calibrage donnant des indications sur les contenus et les structures de ces sites. Ces outils doivent également permettre de positionner un nouveau site par rapport aux regroupements obtenus sur une base de sites déjà analysés. Ils doivent aussi permettre de mesurer les évolutions de ces sites. Le présent projet qui associe des chercheurs du CNET/DIH/UCE et de l'équipe TYPTEXT (LIMSI-PARIS X-PARIS3) propose de fournir un cadre méthodologique et pratique de profilage de sites WEB et un typologie fine de ces sites.
THèSES EN COURS
- Lamalle Cédric : Méthodes quantitatives pour la navigation hypertextuelle.
- Sekher-Pavan Ferroudja : Le discours politique sur les banlieues : Etude lexicométrique.
- Al Gourfi Jamal, Etude lexicométrique du texte du Coran
- Sandoz Parick : Gestion lexicométrique de flux d'informations textuelles.
- Rakotondratsima Nivosoa : Etude lexicométrique de textes alignés (français-malgache).
THèSES SOUTENUES
- Sansonnetti Luiggi : Approches lexicométriques des corpus d'acquisition.
- Erlos Fréderic, Le discours interne d'une entreprise : Le Crédit agricole.
- Cochet Evelyne : La prise d'information chez les enfants de 11-12 ans. (2000)
- Steuckardt Agnès : L'eau forte des mots : lexique et argumentation chez Marat (2000)
- Hernandez-Rosario José : Le discours nationaliste en France, le cas du Front national (2002)
- Martinez William : Le discours sur l'Europe des institutions européennes(2003)
- Zimina-Poirot Maria, Approche lexicométrique des corpus alignés (2004)