Traçabilité internetienne
Les useurs du copier coller sans vergogne n'ont qu'à bien se tenir, on travaille sur leur cas, mais également on pourra revenir à l'origine d'une info diffusée, les services divers et variés vont
adorer.
Je soutiens ma thèse !
17:00 - Par Fabien Poulard - Sciences & Recherche - aucun commentaire
Je soutiendrai ma thèse le Jeudi 24 mars 2011 à 9h30 dans la salle 3 du LINA.
Non seulement la séance est publique, mais de plus vous êtes tous cordialement invité à y assister. Le contenu est détaillé dans la suite du billet.
Titre de la thèse : Détection de dérivation de texte
Mots-clés : détection de dérivation, révisions, plagiat, approche par signature, mesures de similarité, recherche d'information
Résumé de la thèse :
L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identification des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la définition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle mulitidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse.
Jury de la thèse :
- M. François Yvon, Professeur à l'Université de Paris Sud 11 (rapporteur)
- M. Patrice Bellot, Maître de conférences à l'Université d'Avignon (rapporteur)
- Mme Josiane Mothe, Professeur à l'Institut Universitaire de Formation des Maître de Toulouse (examinateur)
- M. Claude de Loupy, Dirigeant et co-fondateur de Syllabs (invité)
- Mme Béatrice Daille, Professeur à l'Université de Nantes (directrice de thèse)
- M. Nicolas Hernandez, Maître de conférences à l'Université de Nantes (encadrant)
Publications :
- Poulard, F., N. Hernandez and B. Daille. 2011, Detecting derivatives using specific and invariant descriptors, Proceedings of the 12th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2011), Tokyo, Japan.
- Hernandez, N., F. Poulard, M. Vernier and J. Rocheteau. 2010, Building a French-speaking community around UIMA, gathering research, education and industrial partners, mainly in Natural Language Processing and Speech Recognizing domains, Workshop Abstracts LREC 2010 Workshop 'New Challenges for NLP Frameworks', La Valleta Malte, p.64. http://hal.archives-ouvertes.fr/hal-00481459/en/
- Poulard, F., N. Hernandez, S. D. Afantenos and B. Daille. 2010, Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte, Document numérique, 13, 3/2010, p.69-93. http://hal.archives-ouvertes.fr/hal-00554351/en/.
- Dejean, C., M. Fortun, C. Massot, V. Pottier, F. Poulard and M. Vernier. 2010, Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA, Actes de la 17e Conférence sur le Traitement Automatique des Langues Naturelles 17e Conférence sur le Traitement Automatique des Langues Naturelles, Montréal, Canada. http://hal.archives-ouvertes.fr/hal-00493847/en/.
- Poulard, F., S. D. Afantenos and N. Hernandez. 2009, Nouvelles considérations pour la détection de réutilisation de texte, Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles, Senlis France, p.67. http://hal.archives-ouvertes.fr/hal-00401072/en/.
- Hernandez, N., F. Poulard, S. Afantenos, M. Vernier J. Rocheteau. 2009, Apache UIMA pour le Traitement Automatique des Langues, 16ème conférence sur le Traitement Automatique des Langues Naturelles (TALN'09) - Session Démonstration. http://hal.archives-ouvertes.fr/hal-00423728/en/,
- Poulard, F., T. Waszak, N. Hernandez and P. Bellot. 2008, Repérage de citations, classification des styles de discours rapporté et identification des constituants citationnels en écrits journalistiques, Actes de la 15e Conférence sur le Traitement Automatique des Langues Naturelles Traitement Automatique des Langues Naturelles, Avignon, France, p.450-459. http://hal.archives-ouvertes.fr/hal-00401011/en/.
- Poulard, F. 2008, Analyse quantitative et qualitative de citations extraites d'un corpus journalistique, Actes de la 12e édition de RECITAL Rencontre des Etudiants-Chercheurs en Informatique et en Traitement Automatique des Langues (RÉCITAL), Avignon France, p.101-110. http://hal.archives-ouvertes.fr/hal-00401001/en/.