1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Korekcja danych z prawostronną skośnością

Na slajdach pokazaliśmy, jak za pomocą transformacji logarytmicznej można skorygować dodatnią skośność danych (gdy rozkład jest skupiony głównie po lewej stronie). Aby skorygować ujemną skośność (gdy dane skupiają się po prawej stronie), trzeba wykonać dodatkowy krok zwany „odbiciem" – zanim będzie można zastosować odwrotność \(\log\), czyli (1/\(\log\)), tak żeby rozkład danych bardziej przypominał rozkład normalny. Odbicie danych polega na przekształceniu każdej wartości według wzoru: \((x_{\text{max}} +1) – x\).

Instrukcje

100 XP
  • Użyj funkcji agregującej skewness(), aby potwierdzić, że kolumna 'YEARBUILT' ma ujemną skośność.
  • Za pomocą withColumn() utwórz nową kolumnę 'Reflect_YearBuilt' i odwróć wartości kolumny 'YEARBUILT'.
  • Korzystając z kolumny 'Reflect_YearBuilt', utwórz kolejną kolumnę 'adj_yearbuilt', stosując do jej wartości przekształcenie 1/log().