Pipeline de prétraitement du langage shakespearien
Chez PyBooks, l’équipe souhaite transformer une vaste bibliothèque de textes shakespeariens pour des analyses ultérieures. La façon la plus efficace de procéder est de construire une pipeline de traitement de texte, en commençant par les étapes de prétraitement.
Les éléments suivants ont été chargés pour vous :
torch, nltk, stopwords, PorterStemmer, get_tokenizer.
Les textes shakespeariens sont enregistrés dans shakespeare et les phrases ont déjà été extraites.
Cet exercice fait partie du cours
Deep Learning pour le texte avec PyTorch
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a list of stopwords
stop_words = set(____(____))