Memeriksa data dalam PySpark DataFrame
Memeriksa data sangatlah penting sebelum melakukan analisis seperti plotting, pemodelan, pelatihan, dan sebagainya. Dalam latihan sederhana ini, Anda akan memeriksa data pada DataFrame people_df yang telah Anda buat pada latihan sebelumnya dengan menggunakan operator dasar DataFrame.
Ingat, Anda sudah memiliki SparkSession spark dan DataFrame people_df yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Cetak 10 observasi pertama pada DataFrame
people_df. - Hitung jumlah baris dalam DataFrame
people_df. - Berapa banyak kolom yang dimiliki DataFrame
people_dfdan apa saja nama kolomnya?
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the first 10 observations
people_df.____(10)
# Count the number of rows
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))
# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))