Membaca CSV dan melakukan agregasi
Anda memiliki lembar sebar Data Scientist berisi gaji dari perusahaan dengan ukuran mulai dari kecil hingga besar. Anda ingin melihat apakah ada perbedaan signifikan antara gaji rata-rata yang dikelompokkan berdasarkan ukuran perusahaan.
Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!
Latihan ini merupakan bagian dari kursus
Pengantar PySpark
Instruksi latihan
- Muat file CSV sebagai DataFrame dan inferensikan skemanya.
- Kembalikan jumlah baris.
- Kelompokkan berdasarkan kolom
company_sizedan hitung gaji rata-rata menggunakansalary_in_usd.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()