Daten mit Pandas gruppieren

Das Ergebnis einer Datenpipeline ist in der Regel ein "modellierter" Datensatz. Dieser Datensatz bietet Datenkonsumenten einen einfachen Zugang zu Informationen, ohne dass sie viel manipulieren müssen. Die Gruppierung von Daten mit pandas hilft dabei, modellierte Datensätze zu erstellen,

pandas wurde als pd importiert, und der DataFrame raw_testing_scores enthält Daten in folgender Form:

              street_address       city  math_score  reading_score  writing_score

01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Diese Übung ist Teil des Kurses

<Kurs>ETL und ELT mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Verwende .loc[], um nur die Spalten "city", "math_score", "reading_score" und "writing_score" zu behalten.
Gruppiere den DataFrame nach der Spalte "city" und ermittle den Mittelwert der Ergebnisse in Mathematik, Lesen und Schreiben für jede Stadt.
Verwende die Funktion transform(), um einen gruppierten DataFrame zu erstellen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())

Code bearbeiten und ausführen