Rimozione delle stop words
Stai lavorando a un progetto in cui l'obiettivo è classificare i feedback degli utenti in categorie come "problemi di prodotto", "problemi di servizio" e "suggerimenti". Spesso le stop words non aggiungono molto significato per distinguere tra le categorie. Il tuo compito è rimuovere queste stop words per concentrarti sulle parole importanti che aiuteranno poi una macchina a categorizzare i feedback negli argomenti corretti.
Le funzioni word_tokenize da nltk.tokenize e stopwords.words da nltk.corpus sono già state importate per te. Inoltre, le risorse NLTK punkt_tab e stopwords sono già state scaricate.
Questo esercizio fa parte del corso
Natural Language Processing (NLP) in Python
Istruzioni dell'esercizio
- Tokenizza il feedback fornito in parole.
- Ottieni l'elenco delle stop words in inglese.
- Rimuovi le stop words inglesi e salva il risultato in
filtered_tokens.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)