Alles samenbrengen (1)
In de vorige oefeningen heb je voor het eerst je eigen functies geschreven. Je hebt geleerd hoe je parameters toevoegt aan je eigen functiedefinities, hoe je één of meerdere waarden retourneert met tuples, en hoe je de functies aanroept die je hebt gedefinieerd.
In deze en de volgende oefening breng je al deze concepten samen en pas je ze toe op een eenvoudig data science-probleem. Je laadt een gegevensset en ontwikkelt functionaliteit om simpele inzichten uit de data te halen.
In deze oefening is je doel om te herhalen hoe je een gegevensset in een DataFrame laadt. De gegevensset bevat Twitter-gegevens en je itereert over de waarden in een kolom om een dictionary op te bouwen waarin de sleutels de namen van talen zijn en de waarden het aantal tweets in die taal. Het bestand tweets.csv staat in je huidige map.
Houd er rekening mee dat dit echte data van Twitter is en dat er daardoor altijd een risico is op grof taalgebruik of andere aanstootgevende inhoud (in deze oefening en in eventuele volgende oefeningen die ook echte Twitter-gegevens gebruiken).
Deze oefening maakt deel uit van de cursus
Introductie tot functies in Python
Oefeninstructies
- Importeer het pandas-pakket met de alias
pd. - Importeer het bestand
'tweets.csv'met de pandas-functieread_csv(). Ken het resulterende DataFrame toe aandf. - Maak de
for-lus af door te itereren overcol, de kolom'lang'in het DataFramedf. - Vul de bodies van de
if-else-statements in de for-lus aan: als de sleutel in de dictionarylangs_countzit, tel dan1op bij de waarde die bij deze sleutel hoort; anders voeg je de sleutel toe aanlangs_counten zet je de bijbehorende waarde op1. Gebruik de lusvariabeleentryin je code.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import pandas
# Import Twitter data as DataFrame: df
df = ____
# Initialize an empty dictionary: langs_count
langs_count = {}
# Extract column from DataFrame: col
col = df['lang']
# Iterate over lang column in DataFrame
for entry in ____:
# If the language is in langs_count, add 1
if entry in langs_count.keys():
____
# Else add the language to langs_count, set the value to 1
else:
____
# Print the populated dictionary
print(langs_count)