Rimozione delle stopword
Nei prossimi esercizi andrai a pulire le email di Enron, così da poter usare i dati in un topic model. La pulizia del testo può essere impegnativa, quindi vedrai alcuni passaggi per farla bene. Il dataframe con le email, df, è disponibile. Come primo passo, devi definire l’elenco di stopword e i segni di punteggiatura da rimuovere dal testo nell’esercizio successivo. Proviamoci.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Importa le stopword da
ntlk. - Definisci le parole 'english' da usare come stopword nella variabile
stop. - Ottieni l’insieme della punteggiatura dal pacchetto
stringe assegnalo aexclude.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)