Menggunakan Visualisasi: distplot
Memahami distribusi variabel dependen sangatlah penting dan dapat memengaruhi jenis model atau prapemrosesan yang kita lakukan. Cara yang baik untuk melakukannya adalah dengan memvisualisasikannya. Namun, plotting bukan fungsi bawaan di PySpark, sehingga kita perlu beberapa langkah perantara agar dapat berjalan dengan benar. Pada latihan ini Anda akan memvisualisasikan variabel 'LISTPRICE', dan Anda akan memperoleh wawasan lebih lanjut tentang distribusinya dengan menghitung skewness.
Pustaka matplotlib.pyplot dan seaborn telah diimpor untuk Anda dengan alias plt dan sns.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Ambil sampel 50% dari dataframe
dfdengansample()tanpa penggantian dan tetapkan seed acak ke 42. - Konversi Spark DataFrame menjadi
pandas.DataFrame()dengantoPandas(). - Buat plot distribusi menggunakan metode
distplot()dariseaborn. - Impor fungsi
skewness()daripyspark.sql.functionsdan hitung nilainya pada agregat kolom'LISTPRICE'dengan metodeagg(). Ingat untuk melakukancollect()pada hasil Anda untuk mengevaluasi komputasinya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Select a single column and sample and convert to pandas
sample_df = df.select(['LISTPRICE']).____(____, ____, 42)
pandas_df = sample_df.____()
# Plot distribution of pandas_df and display plot
sns.____(____)
plt.show()
# Import skewness function
from pyspark.sql.functions import skewness
# Compute and print skewness of LISTPRICE
print(df.____({____: ____}).collect())