MulaiMulai sekarang secara gratis

Menggunakan Visualisasi: distplot

Memahami distribusi variabel dependen sangatlah penting dan dapat memengaruhi jenis model atau prapemrosesan yang kita lakukan. Cara yang baik untuk melakukannya adalah dengan memvisualisasikannya. Namun, plotting bukan fungsi bawaan di PySpark, sehingga kita perlu beberapa langkah perantara agar dapat berjalan dengan benar. Pada latihan ini Anda akan memvisualisasikan variabel 'LISTPRICE', dan Anda akan memperoleh wawasan lebih lanjut tentang distribusinya dengan menghitung skewness.

Pustaka matplotlib.pyplot dan seaborn telah diimpor untuk Anda dengan alias plt dan sns.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Ambil sampel 50% dari dataframe df dengan sample() tanpa penggantian dan tetapkan seed acak ke 42.
  • Konversi Spark DataFrame menjadi pandas.DataFrame() dengan toPandas().
  • Buat plot distribusi menggunakan metode distplot() dari seaborn.
  • Impor fungsi skewness() dari pyspark.sql.functions dan hitung nilainya pada agregat kolom 'LISTPRICE' dengan metode agg(). Ingat untuk melakukan collect() pada hasil Anda untuk mengevaluasi komputasinya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Select a single column and sample and convert to pandas
sample_df = df.select(['LISTPRICE']).____(____, ____, 42)
pandas_df = sample_df.____()

# Plot distribution of pandas_df and display plot
sns.____(____)
plt.show()

# Import skewness function
from pyspark.sql.functions import skewness

# Compute and print skewness of LISTPRICE
print(df.____({____: ____}).collect())
Edit dan Jalankan Kode