Étiquetage POS avec spaCy
Dans cet exercice, vous allez pratiquer l’étiquetage POS. L’étiquetage des parties du discours est un outil utile en NLP, car il permet aux algorithmes de comprendre la structure grammaticale d’une phrase et d’identifier des mots ayant plusieurs sens, comme watch et play.
Pour cet exercice, en_core_web_sm a été chargé pour vous sous le nom nlp. Trois commentaires issus du jeu de données Airline Travel Information System (ATIS) vous sont fournis dans une liste appelée texts.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Constituez
documents, une liste de tous les conteneursdocpour chaque texte de la listetextsà l’aide d’une compréhension de liste. - Pour chaque conteneur
doc, affichez le texte de chaque token et son étiquette POS correspondante en itérant surdocumentspuis sur les tokens de chaque conteneurdocà l’aide d’une boucle for imbriquée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Compile a list of all Doc containers of texts
documents = [____(text) for text in texts]
# Print token texts and POS tags for each Doc container
for doc in documents:
for ____ in doc:
print("Text: ", ____, "| POS tag: ", ____)
print("\n")