MulaiMulai sekarang secara gratis

Menggunakan Visualisasi: lmplot

Membuat plot model linear membantu kita memvisualisasikan apakah variabel memiliki hubungan dengan variabel dependen. Jika ada, variabel tersebut merupakan kandidat yang baik untuk dimasukkan dalam analisis. Jika tidak, bukan berarti harus dibuang; itu berarti kita mungkin perlu memproses atau merapikannya terlebih dahulu sebelum dapat digunakan.

seaborn tersedia di workspace Anda dengan alias umum sns.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan himpunan data df yang telah dimuat, saring menjadi kolom 'SALESCLOSEPRICE' dan 'LIVINGAREA' dengan select().
  • Ambil sampel 50% dari dataframe dengan sample(), pastikan tanpa pengembalian (no replacement) dan tetapkan seed acak ke 42.
  • Konversi Spark DataFrame ke pandas.DataFrame() dengan toPandas().
  • Dengan 'SALESCLOSEPRICE' sebagai variabel dependen dan 'LIVINGAREA' sebagai variabel independen, buat plot model linear menggunakan lmplot() dari seaborn.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Select a the relevant columns and sample
sample_df = df.____([____, ____]).____(____, ____, ____)

# Convert to pandas dataframe
pandas_df = sample_df.____()

# Linear model plot of pandas_df
sns.____(x=____, y=____, data=____)
plt.show()
Edit dan Jalankan Kode