Stopwoorden verwijderen
Je werkt aan een project waarin je feedback van gebruikers wilt classificeren in categorieën zoals "productproblemen", "serviceproblemen" en "suggesties". Vaak voegen stopwoorden weinig betekenis toe bij het onderscheiden van categorieën. Jouw taak is om deze stopwoorden te verwijderen, zodat je je kunt richten op de belangrijke woorden die een machine later helpen om de feedback aan de juiste onderwerpen te koppelen.
De functies word_tokenize uit nltk.tokenize en stopwords.words uit nltk.corpus zijn al voor je geïmporteerd. Daarnaast zijn de NLTK-resources punkt_tab en stopwords al gedownload.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Oefeninstructies
- Tokenize de gegeven feedback in woorden.
- Haal de lijst met Engelse stopwoorden op.
- Verwijder de Engelse stopwoorden en sla het resultaat op in
filtered_tokens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)