Aan de slagGa gratis aan de slag

Gegevens groeperen met pandas

De output van een datapijplijn is meestal een ‘gemodelleerde’ gegevensset. Deze gegevensset geeft datagebruikers eenvoudig toegang tot informatie, zonder dat ze veel hoeven te bewerken. Gegevens groeperen met pandas helpt bij het opbouwen van gemodelleerde gegevenssets.

pandas is geïmporteerd als pd, en het DataFrame raw_testing_scores bevat gegevens in de volgende vorm:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Oefeninstructies

  • Gebruik .loc[] om alleen de kolommen "city", "math_score", "reading_score" en "writing_score" te behouden.
  • Groepeer het DataFrame op de kolom "city" en bereken het gemiddelde van de wiskunde-, lees- en schrijfscores per stad.
  • Gebruik de functie transform() om een gegroepeerd DataFrame te maken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())
Code bewerken en uitvoeren