Voorbewerking van Shakespeare-tekst: pipeline
Bij PyBooks wil het team een grote bibliotheek met Shakespeare-teksten transformeren voor verdere analyse. De efficiëntste manier is een tekstverwerkingspipeline, te beginnen met de voorbewerkingsstappen.
Het volgende is alvast voor je geladen:
torch, nltk, stopwords, PorterStemmer, get_tokenizer.
De Shakespeare-tekstgegevens zijn opgeslagen als shakespeare en de zinnen zijn al geëxtraheerd.
Deze oefening maakt deel uit van de cursus
Deep Learning voor tekst met PyTorch
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a list of stopwords
stop_words = set(____(____))