Stopwoorden verwijderen
In de volgende oefeningen ga je de Enron-e-mails opschonen, zodat je de gegevens kunt gebruiken in een topicmodel. Tekst opschonen kan lastig zijn, dus je leert een aantal stappen om dit goed te doen. De dataframe met de e-mails df is beschikbaar. In een eerste stap moet je de lijst met stopwoorden en leestekens definiëren die in de volgende oefening uit de tekst worden verwijderd. Aan de slag!
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Importeer de stopwoorden uit
ntlk. - Definieer 'english' woorden om te gebruiken als stopwoorden onder de variabele
stop. - Haal de set met leestekens op uit het pakket
stringen wijs die toe aanexclude.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import nltk packages and string
from nltk.corpus import ____
import string
# Define stopwords to exclude
stop = set(____.____('____'))
stop.update(("to","cc","subject","http","from","sent", "ect", "u", "fwd", "www", "com"))
# Define punctuations to exclude and lemmatizer
exclude = set(____.____)