Een blogpost opschonen

In deze oefening krijg je een fragment uit een blogpost. Je taak is om deze tekst op te schonen naar een meer machinevriendelijk formaat. Dit houdt in: omzetten naar lowercase, lemmatiseren en het verwijderen van stopwoorden, leestekens en niet-alfabetische tekens.

Het fragment staat als string in blog en is naar de console geprint. De lijst met stopwoorden is beschikbaar als stopwords.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Gebruik list comprehension om door doc te loopen en de lemma_ van elk token te extraheren.
Verwijder stopwoorden en niet-alfabetische tokens met stopwords en isalpha().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))

Code bewerken en uitvoeren