Membaca CSV dan melakukan agregasi
Anda memiliki lembar sebar Data Scientist berisi gaji dari perusahaan dengan ukuran mulai dari kecil hingga besar. Anda ingin melihat apakah ada perbedaan signifikan antara gaji rata-rata yang dikelompokkan berdasarkan ukuran perusahaan.
Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Muat file CSV sebagai DataFrame dan inferensikan skemanya.
- Kembalikan jumlah baris.
- Kelompokkan berdasarkan kolom
company_sizedan hitung gaji rata-rata menggunakansalary_in_usd.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()