IniziaInizia gratis

Rimozione delle stopword

Nei prossimi esercizi andrai a pulire le email di Enron, così da poter usare i dati in un topic model. La pulizia del testo può essere impegnativa, quindi vedrai alcuni passaggi per farla bene. Il dataframe con le email, df, è disponibile. Come primo passo, devi definire l’elenco di stopword e i segni di punteggiatura da rimuovere dal testo nell’esercizio successivo. Proviamoci.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa le stopword da ntlk.
  • Definisci le parole 'english' da usare come stopword nella variabile stop.
  • Ottieni l’insieme della punteggiatura dal pacchetto string e assegnalo a exclude.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)
Modifica ed esegui il codice