:: Enseignements :: Master :: M2 :: 2008-2009 :: Méthodes statistiques pour le Traitement Automatique de Documents ::
![[LOGO]](http://igm.univ-mlv.fr/ens/resources/mlv.png) | Résumé automatique par sélection de phrases |
Le but du TP est d'implémenter un système de résumé automatique à partir d'une étude scientifique de recherhe.
Préliminaires
Le but de cette séance est d'implémenter un programme de résumé automatique au moyen d'une méthode de classification.
Nous nous baserons sur l' expérience de
Simone Teufel et Marc Moens (1997).
Pour cela, nous utiliserons un ensemble de documents textuels :
/home/ens/mconstan/corpus/english/abstracts
Ce répertoire contient un ensemble de fichiers texte.
Chaque texte représente un article scientifique avec un titre (TITLE), un résumé (ABSTRACT) et son contenu.
Le contenu est fait de noms de sections (HEADER) et de phrases (une phrase par ligne).
Exercice 1 - Heuristiques
Nous vous demandons d'implémenter trois des heuristiques suivantes qui sont décrites dans l'article (section 3.2) :
- Location Method
- Sentence Length Method
- Thematic word Method
- Title Method
Chaque heuristique correspond à une ou plusieurs caractéristiques binaires d'une phrase (cf cours pour plus de détails).
Ecrire un programme qui, pour chaque phrase du contenu d'un article, calcule ses caractéristiques (soit un vecteur binaire où chaque composante correspond à une caractéristique).
Note importante : pour cet exercice, vous pouvez utiliser une liste des mots non pertinents telle que
celle-ci.
Exercice 2 - Résumé simple et évaluation
Dans cet exercice, nous supposons que le score d'une phrase est la somme des poids de son vecteur.
Ecrire un programme qui prend un article en entrée et renvoie un résumé automatiquement en sélectionnant les N meilleures phrases du contenu.
Nous souhaitons maintenant évaluer cette méthode simple.
Pour cela, pour chaque article du corpus, il suffira d'appliquer la mesure ROUGE-1 comparant le résumé obtenu et celui qui se trouve dans la section ABSTRACT.
La mesure qualitative de votre système sera la moyenne des valeurs de ROUGE-1 sur l'ensemble des articles.
Ajuster manuellement les paramètres de vos programme pour obtenir le meilleur résultat possible.
Que pensez-vous des résultats. Expliquez?
Exercice 3 - Constitution automatique d'un corpus d'apprentissage utilisable
Le système implémenté dans les exercices précédents est un classifieur simpliste
car chaque caractéristique a le même poids pour la sélection des phrases pertinentes.
Pour estimer un bon classifieur, on a besoin d'un corpus d'apprentissage.
Pour chaque article, il faut associer à son contenu, l'ensemble de ses phrases pertinentes pour le résumé.
Or, nos ressources ne le permettent pas directement.
Nous proposons de constituer ce corpus de manière automatique.
Etant donné un paramètre entier N, écrire un programme qui, pour chaque article, sélectionne les phrases de son contenu,
qui ont le plus grand recouvrement lexical avec le résumé associé.
Ce recouvrement est calculé par la mesure ROUGE-1.
Ce programme permettrait de constituer le corpus d'apprentissage souhaité.
Commenter les résultats obtenus et la pertinence de la méthode.
A quelles améliorations pensez-vous ?
Exercice 4 - Bonus : classifieur
Estimer les valeurs des probabilités du classifieur (vu en cours), à l'aide d'une partie du corpus d'apprentissage.
Appliquer ensuite le classifieur à l'autre partie des articles du corpus d'apprentissage.
Evaluer les résultats par la même méthode que la section précédente.
Rendu
Vous devrez écrire un petit rapport décrivant votre travail et les résultats obtenus.
Ce rapport et vos sources devront être envoyés à Matthieu Constant avant le mercredi 4 mars 2009.
© Université de Marne-la-Vallée