Stopwoorden verwijderen

In de volgende oefeningen ga je de Enron-e-mails opschonen, zodat je de gegevens kunt gebruiken in een topicmodel. Tekst opschonen kan lastig zijn, dus je leert een aantal stappen om dit goed te doen. De dataframe met de e-mails df is beschikbaar. In een eerste stap moet je de lijst met stopwoorden en leestekens definiëren die in de volgende oefening uit de tekst worden verwijderd. Aan de slag!

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Importeer de stopwoorden uit ntlk.
Definieer 'english' woorden om te gebruiken als stopwoorden onder de variabele stop.
Haal de set met leestekens op uit het pakket string en wijs die toe aan exclude.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import nltk packages and string 
from nltk.corpus import ____
import string

# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))

# Define punctuations to exclude and lemmatizer
exclude = set(____.____)

Code bewerken en uitvoeren