Menggunakan Visualisasi: lmplot
Membuat plot model linear membantu kita memvisualisasikan apakah variabel memiliki hubungan dengan variabel dependen. Jika ada, variabel tersebut merupakan kandidat yang baik untuk dimasukkan dalam analisis. Jika tidak, bukan berarti harus dibuang; itu berarti kita mungkin perlu memproses atau merapikannya terlebih dahulu sebelum dapat digunakan.
seaborn tersedia di workspace Anda dengan alias umum sns.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Gunakan himpunan data
dfyang telah dimuat, saring menjadi kolom 'SALESCLOSEPRICE' dan 'LIVINGAREA' denganselect(). - Ambil sampel 50% dari dataframe dengan
sample(), pastikan tanpa pengembalian (no replacement) dan tetapkan seed acak ke 42. - Konversi Spark DataFrame ke
pandas.DataFrame()dengantoPandas(). - Dengan 'SALESCLOSEPRICE' sebagai variabel dependen dan 'LIVINGAREA' sebagai variabel independen, buat plot model linear menggunakan
lmplot()dari seaborn.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Select a the relevant columns and sample
sample_df = df.____([____, ____]).____(____, ____, ____)
# Convert to pandas dataframe
pandas_df = sample_df.____()
# Linear model plot of pandas_df
sns.____(x=____, y=____, data=____)
plt.show()