Komponen Waktu
Mampu bekerja dengan komponen waktu untuk membangun fitur itu penting, tetapi Anda juga dapat menggunakannya untuk mengeksplorasi dan memahami data lebih jauh. Pada latihan ini, Anda akan melihat apakah ada pola pada hari dalam seminggu saat sebuah rumah mulai tercantum. Harap diingat bahwa minggu menurut PySpark dimulai pada hari Minggu dengan nilai 1 dan berakhir pada hari Sabtu dengan nilai 7.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Impor fungsi
to_date()dandayofweek()daripyspark.sql.functions - Gunakan fungsi
to_date()untuk mengonversiLISTDATEke tipe tanggal Spark, simpan kolom yang sudah dikonversi pada tempatnya menggunakanwithColumn() - Buat kolom baru menggunakan
LISTDATEdandayofweek()lalu simpan sebagaiList_Day_of_WeekmenggunakanwithColumn() - Ambil sampel setengah dari dataframe lalu konversi menjadi dataframe pandas dengan
toPandas()dan plot jumlah pada kolomList_Day_of_Weekdari dataframe pandas tersebut menggunakan seaborncountplot()dengan x =List_Day_of_Week.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import needed functions
from ____ import ____, ____
# Convert to date type
df = df.____(____, ____(____))
# Get the day of the week
df = df.____(____, ____(____))
# Sample and convert to pandas dataframe
sample_df = df.sample(False, ____, 42).____()
# Plot count plot of of day of week
sns.____(x="List_Day_of_Week", data=____)
plt.show()