Gaël Lejeune

Actualités 2015-2016

Comités

Situation

Je suis actuellement post-doctorant dans l'équipe COnstraints DAta Mining Graphes, sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).

Mes travaux actuels portent sur la modélisation des interactions langagières dans les dialogues adultes-enfants. Les données sont constituées de retranscriptions d'histoires racontées par les adultes.

J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel". Cette thèse, encadré par Nadine Lucas et Antoine Doucet, a pris la suite de travaux effectués à l'Université d'Helsinki dans le cadre du projet PULS (co-financé par l'union Européenne). Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.

Pour plus d'informations sur ma thèse consultez la rubrique dédiée. Dans les autres rubriques de ce site figurent des informations sur mes publications, mes enseignements ainsi que sur mon parcours. Les informations plus personnelles sont stockées dans la rubrique "divers".

Intérêts scientifiques

Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).

Mes travaux traitent principalement de la problématique du multilinguisme en TAL. C'est une tâche difficile mais captivante que de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles. A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques. Voir aussi l'émission qui lui a été consacrée dans "Place de la toile" sur France Culture

Pour illustrer la richesse de la question, considérons également ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :

Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation continue depuis 2011 au Défi Fouille de Textes (DEFT). Je travaille également sur les problématiques de l'extraction terminologique, des humanités numériques et du nettoyage de pages web (ou boilerplate removal).

Références des citations

Contact