Vorverarbeitungspipeline für Shakespeare-Sprache
Bei PyBooks möchte das Team eine große Bibliothek mit Shakespeare-Textdaten für weitere Analysen aufbereiten. Am effizientesten geht das mit einer Textverarbeitungspipeline, beginnend mit den Vorverarbeitungsschritten.
Folgendes wurde für dich geladen:
torch, nltk, stopwords, PorterStemmer, get_tokenizer.
Die Shakespeare-Textdaten sind als shakespeare gespeichert, und die Sätze wurden bereits extrahiert.
Diese Übung ist Teil des Kurses
Deep Learning für Text mit PyTorch
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a list of stopwords
stop_words = set(____(____))