Mengelompokkan data dengan pandas
Keluaran dari sebuah data pipeline umumnya adalah himpunan data yang telah “dimodelkan”. Himpunan data ini memberi kemudahan bagi pengguna data untuk mengakses informasi tanpa perlu banyak manipulasi. Mengelompokkan data dengan pandas membantu membangun himpunan data yang dimodelkan.
pandas telah diimpor sebagai pd, dan DataFrame raw_testing_scores berisi data dengan bentuk berikut:
street_address city math_score reading_score writing_score
01M539 111 Columbia Street Manhattan 657.0 601.0 601.0
02M294 350 Grand Street Manhattan 395.0 411.0 387.0
02M308 350 Grand Street Manhattan 418.0 428.0 415.0
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Petunjuk latihan
- Gunakan
.loc[]untuk hanya mempertahankan kolom"city","math_score","reading_score", dan"writing_score". - Kelompokkan DataFrame berdasarkan kolom
"city", lalu cari nilai mean untuk skor matematika, membaca, dan menulis tiap kota. - Gunakan fungsi
transform()untuk membuat DataFrame yang telah dikelompokkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def transform(raw_data):
# Use .loc[] to only return the needed columns
raw_data = raw_data.____[:, ____]
# Group the data by city, return the grouped DataFrame
grouped_data = raw_data.____(by=["____"], axis=0).____()
return grouped_data
# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())