MulaiMulai sekarang secara gratis

Skala Persentase Kustom

Dalam slide, kami menunjukkan cara melakukan penskalaan data antara 0 dan 1. Terkadang Anda mungkin ingin melakukan penskalaan yang berbeda untuk keperluan pemodelan atau tampilan.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Hitung nilai maksimum dan minimum dari DAYSONMARKET dan simpan ke dalam variabel max_days dan min_days, jangan lupa gunakan collect() pada agg().
  • Gunakan withColumn() untuk membuat kolom baru bernama 'percentagescaleddays' berdasarkan DAYSONMARKET.
  • percentage_scaled_days harus berupa kolom bilangan bulat dari 0 hingga 100, gunakan round() untuk memperoleh bilangan bulat.
  • Cetak max() dan min() untuk kolom baru percentage_scaled_days.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Define max and min values and collect them
max_days = df.____({____: ____}).____()[0][0]
min_days = df.____({____: ____}).____()[0][0]

# Create a new column based off the scaled data
df = df.____(____, 
                  ____((df[____] - min_days) / (max_days - min_days)) * ____)

# Calc max and min for new column
print(df.____({____: ____}).____())
print(df.____({____: ____}).____())
Edit dan Jalankan Kode