IniziaInizia gratis

Rimozione delle stop words

Stai lavorando a un progetto in cui l'obiettivo è classificare i feedback degli utenti in categorie come "problemi di prodotto", "problemi di servizio" e "suggerimenti". Spesso le stop words non aggiungono molto significato per distinguere tra le categorie. Il tuo compito è rimuovere queste stop words per concentrarti sulle parole importanti che aiuteranno poi una macchina a categorizzare i feedback negli argomenti corretti.

Le funzioni word_tokenize da nltk.tokenize e stopwords.words da nltk.corpus sono già state importate per te. Inoltre, le risorse NLTK punkt_tab e stopwords sono già state scaricate.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Tokenizza il feedback fornito in parole.
  • Ottieni l'elenco delle stop words in inglese.
  • Rimuovi le stop words inglesi e salva il risultato in filtered_tokens.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)
Modifica ed esegui il codice