Stammen uit tweets
In deze oefening werk je met een array genaamd tweets. Deze bevat de tekst uit de airline-sentimentgegevens die van Twitter zijn verzameld.
Jouw taak is om met deze array te werken en deze om te zetten in een lijst met tokens met list comprehension. Loop daarna over de lijst met tokens en maak van elk token een stam (stem). Onthoud dat list comprehensions een éénregelig alternatief zijn voor for-lussen.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de functie die we gebruikten om strings om te zetten naar stammen (stems).
- Roep de zojuist geïmporteerde Porter-stemmerfunctie aan.
- Maak met een list comprehension de lijst
tokens. Deze moet alle woordtokens uit de arraytweetsbevatten. - Itereer over de lijst
tokensen pas de stemmingfunctie toe op elk item in de lijst.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the function to perform stemming
____
from nltk import word_tokenize
# Call the stemmer
porter = ____()
# Transform the array of tweets to tokens
tokens = [____]
# Stem the list of tokens
stemmed_tokens = [[____.____(word) for word in tweet] for tweet in tokens]
# Print the first element of the list
print(stemmed_tokens[0])