1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Vlastní procentuální škálování

Ve slidech jsme ukázali, jak škálovat data v rozsahu od 0 do 1. Někdy ale může být užitečné zvolit jiný rozsah – třeba pro potřeby modelování nebo vizualizace.

Pokyny

100 XP
  • Zjisti maximální a minimální hodnotu sloupce DAYSONMARKET a ulož je do proměnných max_days a min_days – nezapomeň použít collect() na agg().
  • Pomocí withColumn() vytvoř nový sloupec s názvem 'percentagescaleddays' vycházející ze sloupce DAYSONMARKET.
  • Sloupec percentage_scaled_days by měl obsahovat celá čísla v rozsahu od 0 do 100 – použij round() pro zaokrouhlení na celá čísla.
  • Vypiš max() a min() nového sloupce percentage_scaled_days.