1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Oprava dat s pravostranným zkreslením

Ve slides jsme si ukázali, jak lze logaritmickou transformací opravit data s kladným zkreslením (jejichž rozdělení je soustředěno převážně vlevo). Při záporném zkreslení (data soustředěna převážně vpravo) je potřeba udělat ještě jeden krok zvaný „reflektování" – teprve pak můžeš aplikovat inverzní funkci \(\log\), zapsanou jako (1/\(\log\)), a přiblížit tak rozdělení dat normálnímu. Reflektování funguje podle tohoto vzorce: \((x_{\text{max}} +1) – x\).

Pokyny

100 XP
  • Pomocí agregační funkce skewness() ověř, že sloupec 'YEARBUILT' má záporné zkreslení.
  • Pomocí withColumn() vytvoř nový sloupec 'Reflect_YearBuilt' a reflektuj hodnoty ze sloupce 'YEARBUILT'.
  • Ze sloupce 'Reflect_YearBuilt' vytvoř další sloupec 'adj_yearbuilt' tak, že z hodnot vypočítáš 1/log().