Apa yang sedang kita prediksi?
Manakah dari field (atau kolom) berikut yang merupakan nilai yang ingin kita prediksi?
TAXESSALESCLOSEPRICEDAYSONMARKETLISTPRICE
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Dari kolom yang tercantum di atas, tentukan mana yang akan kita gunakan sebagai variabel dependen
$Y$. - Dengan himpunan data
dfyang sudah dimuat, saring menjadi hanya variabel dependen kita menggunakanselect(). Simpan dataframe ini dalam variabelY_df. - Tampilkan statistik ringkasan untuk variabel dependen dengan menggunakan
describe()padaY_dfdan memanggilshow()untuk menampilkannya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Select our dependent variable
Y_df = df.____([____])
# Display summary statistics
Y_df.____().____()