Aan de slagGa gratis aan de slag

Stammen uit tweets

In deze oefening werk je met een array genaamd tweets. Deze bevat de tekst uit de airline-sentimentgegevens die van Twitter zijn verzameld.

Jouw taak is om met deze array te werken en deze om te zetten in een lijst met tokens met list comprehension. Loop daarna over de lijst met tokens en maak van elk token een stam (stem). Onthoud dat list comprehensions een éénregelig alternatief zijn voor for-lussen.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Cursus bekijken

Oefeninstructies

  • Importeer de functie die we gebruikten om strings om te zetten naar stammen (stems).
  • Roep de zojuist geïmporteerde Porter-stemmerfunctie aan.
  • Maak met een list comprehension de lijst tokens. Deze moet alle woordtokens uit de array tweets bevatten.
  • Itereer over de lijst tokens en pas de stemmingfunctie toe op elk item in de lijst.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the function to perform stemming
____
from nltk import word_tokenize

# Call the stemmer
porter = ____()

# Transform the array of tweets to tokens
tokens = [____]
# Stem the list of tokens
stemmed_tokens = [[____.____(word) for word in tweet] for tweet in tokens] 
# Print the first element of the list
print(stemmed_tokens[0])
Code bewerken en uitvoeren