Infer dan filter
Bayangkan Anda memiliki himpunan data sensus yang Anda ketahui memiliki header dan skema. Mari muat himpunan data tersebut dan biarkan PySpark menyimpulkan (infer) skemanya. Apa yang Anda lihat jika Anda menyaring orang dewasa berusia di atas 40?
Ingat, sudah ada SparkSession bernama spark di workspace Anda!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Muat berkas JSON
adults.json. - Saring data untuk hanya menyertakan orang dewasa dengan
agelebih dari40. - Tampilkan hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____