Gegevens groeperen met pandas
De output van een datapijplijn is meestal een ‘gemodelleerde’ gegevensset. Deze gegevensset geeft datagebruikers eenvoudig toegang tot informatie, zonder dat ze veel hoeven te bewerken. Gegevens groeperen met pandas helpt bij het opbouwen van gemodelleerde gegevenssets.
pandas is geïmporteerd als pd, en het DataFrame raw_testing_scores bevat gegevens in de volgende vorm:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Gebruik
.loc[]om alleen de kolommen"city","math_score","reading_score"en"writing_score"te behouden. - Groepeer het DataFrame op de kolom
"city"en bereken het gemiddelde van de wiskunde-, lees- en schrijfscores per stad. - Gebruik de functie
transform()om een gegroepeerd DataFrame te maken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())