1. Learn
  2. /
  3. Kurser
  4. /
  5. Inżynieria cech z PySpark

Connected

övning

Skalowanie do wartości procentowych

Na slajdach pokazaliśmy, jak skalować dane do zakresu od 0 do 1. Czasem jednak warto przeskalować dane inaczej – na potrzeby modelowania lub prezentacji wyników.

Instruktioner

100 XP
  • Oblicz wartość maksymalną i minimalną kolumny DAYSONMARKET i zapisz je w zmiennych max_days i min_days – pamiętaj, aby użyć collect() na agg().
  • Używając withColumn(), utwórz nową kolumnę o nazwie 'percentagescaleddays' na podstawie kolumny DAYSONMARKET.
  • Kolumna percentage_scaled_days powinna zawierać liczby całkowite z zakresu od 0 do 100 – użyj funkcji round(), aby otrzymać liczby całkowite.
  • Wyświetl wartości max() i min() dla nowej kolumny percentage_scaled_days.