Pipeline de prétraitement du langage shakespearien
Chez PyBooks, l’équipe souhaite transformer une vaste bibliothèque de textes shakespeariens pour des analyses ultérieures. La façon la plus efficace de procéder est de construire une pipeline de traitement de texte, en commençant par les étapes de prétraitement.
Les éléments suivants ont été chargés pour vous :
torch, nltk, stopwords, PorterStemmer, get_tokenizer.
Les textes shakespeariens sont enregistrés dans shakespeare et les phrases ont déjà été extraites.
Cet exercice fait partie du cours
<cours>Deep Learning pour le texte avec PyTorch</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Create a list of stopwords
stop_words = set(____(____))