LoslegenKostenlos loslegen

Daten mit Pandas gruppieren

Das Ergebnis einer Datenpipeline ist in der Regel ein "modellierter" Datensatz. Dieser Datensatz bietet Datenkonsumenten einen einfachen Zugang zu Informationen, ohne dass sie viel manipulieren müssen. Die Gruppierung von Daten mit pandas hilft dabei, modellierte Datensätze zu erstellen,

pandas wurde als pd importiert, und der raw_testing_scores DataFrame enthält Daten in der folgenden Form:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Diese Übung ist Teil des Kurses

ETL und ELT in Python

Kurs anzeigen

Anleitung zur Übung

  • Verwende .loc[], um nur die Spalten "city", "math_score", "reading_score" und "writing_score" zu behalten.
  • Gruppiere den DataFrame nach der Spalte "city" und ermittle den Mittelwert der Ergebnisse in Mathematik, Lesen und Schreiben für jede Stadt.
  • Verwende die Funktion transform(), um einen gruppierten DataFrame zu erstellen.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())
Code bearbeiten und ausführen