Aantal tekens in Russische tweets
In deze oefening krijg je een dataframe tweets met tweets die gekoppeld zijn aan de Internet Research Agency in Rusland en samengesteld door FiveThirtyEight.
Je taak is om een nieuwe feature 'char_count' in tweets te maken die het aantal tekens per tweet berekent. Bereken ook de gemiddelde lengte van elke tweet. De tweets zelf staan in de feature content van tweets.
Wees je ervan bewust dat dit echte Twitter-data is en dat er dus een risico bestaat dat het grof taalgebruik of andere aanstootgevende inhoud bevat (in deze oefening, en in eventuele volgende oefeningen die ook echte Twitter-data gebruiken).
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Maak een nieuwe feature
char_countdoorlentoe te passen op de feature 'content' vantweets. - Print het gemiddelde aantal tekens van de tweets door het gemiddelde van de feature 'char_count' te berekenen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a feature char_count
tweets['char_count'] = tweets[____].apply(____)
# Print the average character count
print(tweets[____].____)