1. Learn
  2. /
  3. Cursuri
  4. /
  5. Inżynieria cech z PySpark

Connected

exercițiu

Warunkowe filtrowanie pól liczbowych

Zrozumienie kontekstu danych jest niezwykle ważne. Chcemy poznać typowy przedział cen sprzedaży domów, dlatego należy wykluczyć wartości odstające – czyli domy sprzedane za znacznie więcej lub znacznie mniej niż średnia. Obliczysz średnią i odchylenie standardowe, a następnie użyjesz ich do odfiltrowania pola log_SalesClosePrice, które ma rozkład zbliżony do normalnego.

Instrucțiuni

100 XP
  • Zaimportuj funkcje mean() i stddev() z pyspark.sql.functions.
  • Użyj metody agg(), aby obliczyć średnią i odchylenie standardowe dla 'log_SalesClosePrice' za pomocą zaimportowanych funkcji.
  • Wyznacz górną i dolną granicę, dodając lub odejmując od mean_val trzykrotność stddev_val.
  • Utwórz filtr where() dla 'log_SalesClosePrice', korzystając z obu wartości: low_bound i hi_bound.