Skala Persentase Kustom
Dalam slide, kami menunjukkan cara melakukan penskalaan data antara 0 dan 1. Terkadang Anda mungkin ingin melakukan penskalaan yang berbeda untuk keperluan pemodelan atau tampilan.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Hitung nilai maksimum dan minimum dari
DAYSONMARKETdan simpan ke dalam variabelmax_daysdanmin_days, jangan lupa gunakancollect()padaagg(). - Gunakan
withColumn()untuk membuat kolom baru bernama 'percentagescaleddays' berdasarkanDAYSONMARKET. percentage_scaled_daysharus berupa kolom bilangan bulat dari 0 hingga 100, gunakanround()untuk memperoleh bilangan bulat.- Cetak
max()danmin()untuk kolom barupercentage_scaled_days.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Define max and min values and collect them
max_days = df.____({____: ____}).____()[0][0]
min_days = df.____({____: ____}).____()[0][0]
# Create a new column based off the scaled data
df = df.____(____,
____((df[____] - min_days) / (max_days - min_days)) * ____)
# Calc max and min for new column
print(df.____({____: ____}).____())
print(df.____({____: ____}).____())