Rimozione delle stopword

Nei prossimi esercizi andrai a pulire le email di Enron, così da poter usare i dati in un topic model. La pulizia del testo può essere impegnativa, quindi vedrai alcuni passaggi per farla bene. Il dataframe con le email, df, è disponibile. Come primo passo, devi definire l’elenco di stopword e i segni di punteggiatura da rimuovere dal testo nell’esercizio successivo. Proviamoci.

Questo esercizio fa parte del corso

Rilevamento delle frodi in Python

Visualizza corso

Istruzioni dell'esercizio

Importa le stopword da ntlk.
Definisci le parole 'english' da usare come stopword nella variabile stop.
Ottieni l’insieme della punteggiatura dal pacchetto string e assegnalo a exclude.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)

Modifica ed esegui il codice