Een Counter bouwen met bag-of-words

In deze oefening bouw je je eerste (in deze cursus) bag-of-words-teller met een Wikipedia-artikel, dat al is ingeladen als article. Probeer de bag-of-words te maken zonder de volledige tekst te bekijken en raad het onderwerp! Als je aan het eind even wilt spieken, hebben we de titel toegevoegd als article_title. Let op: deze artikeltekst is nauwelijks voorbewerkt vanuit de ruwe Wikipedia-database.

word_tokenize is al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Bekijk cursus

Oefeninstructies

Importeer Counter uit collections.
Gebruik word_tokenize() om het artikel in tokens te splitsen.
Gebruik een list comprehension met t als de iteratievariabele om alle tokens naar kleine letters om te zetten. De methode .lower() zet tekst om naar kleine letters.
Maak een bag-of-words-teller met de naam bow_simple door Counter() te gebruiken met lower_tokens als argument.
Gebruik de methode .most_common() van bow_simple om de 10 meest voorkomende tokens af te drukken.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)

Code bewerken en uitvoeren