MulaiMulai sekarang secara gratis

Mengelompokkan data dengan pandas

Keluaran dari sebuah data pipeline umumnya adalah himpunan data yang telah “dimodelkan”. Himpunan data ini memberi kemudahan bagi pengguna data untuk mengakses informasi tanpa perlu banyak manipulasi. Mengelompokkan data dengan pandas membantu membangun himpunan data yang dimodelkan.

pandas telah diimpor sebagai pd, dan DataFrame raw_testing_scores berisi data dengan bentuk berikut:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Latihan ini adalah bagian dari kursus

ETL dan ELT di Python

Lihat Kursus

Petunjuk latihan

  • Gunakan .loc[] untuk hanya mempertahankan kolom "city", "math_score", "reading_score", dan "writing_score".
  • Kelompokkan DataFrame berdasarkan kolom "city", lalu cari nilai mean untuk skor matematika, membaca, dan menulis tiap kota.
  • Gunakan fungsi transform() untuk membuat DataFrame yang telah dikelompokkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def transform(raw_data):
	# Use .loc[] to only return the needed columns
	raw_data = raw_data.____[:, ____]
	
    # Group the data by city, return the grouped DataFrame
	grouped_data = raw_data.____(by=["____"], axis=0).____()
	return grouped_data

# Transform the data, print the head of the DataFrame
grouped_testing_scores = ____(raw_testing_scores)
print(grouped_testing_scores.head())
Edit dan Jalankan Kode