Menggunakan Visualisasi: distplot

Memahami distribusi variabel dependen sangatlah penting dan dapat memengaruhi jenis model atau prapemrosesan yang kita lakukan. Cara yang baik untuk melakukannya adalah dengan memvisualisasikannya. Namun, plotting bukan fungsi bawaan di PySpark, sehingga kita perlu beberapa langkah perantara agar dapat berjalan dengan benar. Pada latihan ini Anda akan memvisualisasikan variabel 'LISTPRICE', dan Anda akan memperoleh wawasan lebih lanjut tentang distribusinya dengan menghitung skewness.

Pustaka matplotlib.pyplot dan seaborn telah diimpor untuk Anda dengan alias plt dan sns.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Instruksi latihan

Ambil sampel 50% dari dataframe df dengan sample() tanpa penggantian dan tetapkan seed acak ke 42.
Konversi Spark DataFrame menjadi pandas.DataFrame() dengan toPandas().
Buat plot distribusi menggunakan metode distplot() dari seaborn.
Impor fungsi skewness() dari pyspark.sql.functions dan hitung nilainya pada agregat kolom 'LISTPRICE' dengan metode agg(). Ingat untuk melakukan collect() pada hasil Anda untuk mengevaluasi komputasinya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Select a single column and sample and convert to pandas
sample_df = df.select(['LISTPRICE']).____(____, ____, 42)
pandas_df = sample_df.____()

# Plot distribution of pandas_df and display plot
sns.____(____)
plt.show()

# Import skewness function
from pyspark.sql.functions import skewness

# Compute and print skewness of LISTPRICE
print(df.____({____: ____}).collect())

Edit dan Jalankan Kode