1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Podmíněné filtrování numerických polí

Pochopení kontextu dat je naprosto klíčové. Chceme zjistit, v jakém cenovém rozsahu se běžně prodávají domy. Vyloučíme proto odlehlé hodnoty – domy, jejichž prodejní cena se výrazně liší od průměru. Vypočítáme průměr a směrodatnou odchylku a použijeme je k filtrování pole log_SalesClosePrice, které se přibližuje normálnímu rozdělení.

Pokyny

100 XP
  • Importuj mean() a stddev() z pyspark.sql.functions.
  • Pomocí agg() vypočítej průměr a směrodatnou odchylku pro 'log_SalesClosePrice' s použitím importovaných funkcí.
  • Vytvoř horní a dolní hranici tak, že od mean_val přičteš nebo odečteš 3násobek stddev_val.
  • Pomocí where() vyfiltruj záznamy z 'log_SalesClosePrice' na základě hodnot low_bound a hi_bound.