Een Counter bouwen met bag-of-words
In deze oefening bouw je je eerste (in deze cursus) bag-of-words-teller met een Wikipedia-artikel, dat al is ingeladen als article. Probeer de bag-of-words te maken zonder de volledige tekst te bekijken en raad het onderwerp! Als je aan het eind even wilt spieken, hebben we de titel toegevoegd als article_title. Let op: deze artikeltekst is nauwelijks voorbewerkt vanuit de ruwe Wikipedia-database.
word_tokenize is al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Importeer
Counteruitcollections. - Gebruik
word_tokenize()om het artikel in tokens te splitsen. - Gebruik een list comprehension met
tals de iteratievariabele om alle tokens naar kleine letters om te zetten. De methode.lower()zet tekst om naar kleine letters. - Maak een bag-of-words-teller met de naam
bow_simpledoorCounter()te gebruiken metlower_tokensals argument. - Gebruik de methode
.most_common()vanbow_simpleom de 10 meest voorkomende tokens af te drukken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)