1. Learn
  2. /
  3. Kurser
  4. /
  5. Inżynieria cech z PySpark

Connected

övning

Usuwanie listy kolumn

Nasz zbiór danych jest bogaty w wiele cech, ale nie wszystkie są wartościowe. Niektóre z nich będzie bardzo trudno przetworzyć w coś użytecznego. Na razie usuńmy kolumny, które nie są bezpośrednio przydatne do analizy.

  • 'STREETNUMBERNUMERIC': Numer adresu pocztowego nieruchomości
  • 'FIREPLACES': Liczba kominków w domu
  • 'LOTSIZEDIMENSIONS': Dowolny tekst opisujący kształt działki
  • 'LISTTYPE': Predefiniowana lista wartości typu sprzedaży
  • 'ACRES': Numeryczna powierzchnia działki

Instruktioner

100 XP
  • Przeczytaj powyższe opisy kolumn i przejrzyj ich 30 najpopularniejszych wartości za pomocą show(). Ramka danych jest już przefiltrowana do wymienionych kolumn i dostępna jako df.
  • Utwórz listę dwóch kolumn do usunięcia ze względu na ich brak związku z przewidywaniem cen domów i nazwij ją cols_to_drop. Pamiętaj, że komputer interpretuje wyłącznie liczby i nie rozumie kontekstu.
  • Użyj funkcji drop(), aby usunąć z ramki danych df kolumny znajdujące się na liście cols_to_drop.