1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Skalowanie na dużą skalę

W poprzednim ćwiczeniu przeskalowałeś metodą min-max jedną zmienną. Co jednak zrobić, gdy zmiennych do przeskalowania jest bardzo dużo? Pisanie osobnych linii kodu dla każdej z nich mija się z celem. Rozbudujmy poprzednie ćwiczenie i zamieńmy tę logikę w funkcję.

Instrukcje

100 XP
  • Zdefiniuj funkcję o nazwie min_max_scaler, która przyjmuje parametry: df – ramkę danych oraz cols_to_scale – listę kolumn do przeskalowania.
  • Użyj pętli for, aby przejść przez każdą kolumnę z listy i przeskalować ją metodą min-max.
  • Zwróć ramkę danych df z dodanymi nowymi kolumnami.
  • Wywołaj funkcję min_max_scaler() na ramce df i liście kolumn cols_to_scale.