MulaiMulai sekarang secara gratis

Membaca CSV dan melakukan agregasi

Anda memiliki lembar sebar Data Scientist berisi gaji dari perusahaan dengan ukuran mulai dari kecil hingga besar. Anda ingin melihat apakah ada perbedaan signifikan antara gaji rata-rata yang dikelompokkan berdasarkan ukuran perusahaan.

Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Muat file CSV sebagai DataFrame dan inferensikan skemanya.
  • Kembalikan jumlah baris.
  • Kelompokkan berdasarkan kolom company_size dan hitung gaji rata-rata menggunakan salary_in_usd.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Edit dan Jalankan Kode