Daten mit Pandas gruppieren
Das Ergebnis einer Datenpipeline ist in der Regel ein "modellierter" Datensatz. Dieser Datensatz bietet Datenkonsumenten einen einfachen Zugang zu Informationen, ohne dass sie viel manipulieren müssen. Die Gruppierung von Daten mit pandas
hilft dabei, modellierte Datensätze zu erstellen,
pandas
wurde als pd
importiert, und der raw_testing_scores
DataFrame enthält Daten in der folgenden Form:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Anleitung zur Übung
- Verwende
.loc[]
, um nur die Spalten"city"
,"math_score"
,"reading_score"
und"writing_score"
zu behalten. - Gruppiere den DataFrame nach der Spalte
"city"
und ermittle den Mittelwert der Ergebnisse in Mathematik, Lesen und Schreiben für jede Stadt. - Verwende die Funktion
transform()
, um einen gruppierten DataFrame zu erstellen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())