:: Enseignements :: Licence :: L3 :: 2007-2008 :: Introduction à l'informatique linguistique ::

Chunking

Ce TP est dédié à la segmentation en constituants simples non récursifs (ou "chunks"). En particulier, le but est de développer un petit chunker pour le français.

Ressources

Pour cette séance, nous vous donnons

le module python tagging.py, qui permet de charger et manipuler des textes étiquetés au format Treetagger,
le texte text-for-chunking.txt encodé en UTF-8.

Exercice 1 - Introduction au chunking avec NLTK

Adapter pour le français l'exemple ci-dessous de repérage et de balisage de chunks nominaux.

	import nltk
	tagged_tokens = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),
			("dog", "NN"), ("barked", "VBD"), ("at", "IN"),  ("the", "DT"), ("cat", "NN")]
	cp = nltk.RegexpParser("NP: {<DT>?<JJ>*<NN>}")
	cp.parse(tagged_tokens).draw()

Pour plus d'informations sur le chunking avec NLTK, vous pouvez lire le document ici.

Repérer à la main les chunks nominaux et verbaux du texte text-for-chunking.txt.
Repérer et baliser automatiquement ces chunks. Pour cela, utiliser la classe taggedText du module tagging.py pour charger un texte brut en l'étiquetant avec TreeTagger. Utiliser ensuite la méthode getTextForChunking pour récuperer le texte étiqueté au bon format pour le chunking. Puis adapter l'expression rationnelle précédente.

Exercice 2 - Chunking par une procédure en cascade

Une procédure de segmentation en chunks est en général itérative. Chaque étape dépend de la précédente. Par exemple, l'étape de reconnaissance des chunks nominaux (XN) est précédée de l'étape de reconnaissance des chunks adjectivaux (XA) :

				XA-> Adv? Adj
				XN-> Det XA XN

Le code en python ci-dessous montre un exemple d'une telle procédure en cascade.

	import nltk
	tagged_tokens = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),
				("dog", "NN"), ("barked", "VBD"), ("at", "IN"),  ("the", "DT"), ("cat", "NN")]
	grammar = r"""
	NP: {<DT>?<JJ>*<NN.*>+} # noun phrase chunks
	VP: {<TO>?<VB.*>}       # verb phrase chunks
	PP: {<IN> <NP>}              # prepositional phrase chunks
	"""
	cp = nltk.RegexpParser(grammar)
	cp.parse(tagged_tokens).draw()
	#cp.parse(tagged_tokens)

L'expression NN.* représente tous les noms (NN, NNS, ...).
Le but de cet exercice est de construire un chunker pour le français.

Reconnaître les chunks adjectivaux (grand, très grand, vraiment très grand)
Reconnaître les chunks nominaux et les chunks prépositionnels
Élaborer une cascade pour reconnaître les chunks verbaux complexes (a beaucoup mangé, a pu manger})
Tester votre chunker sur des dépêches AFP. Quels problèmes pouvez-vous identifier? Quelles en seraient les solutions?