1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Filtrowanie tekstowe – usuwanie rekordów

Zadawanie klientom szczegółowych pytań i dokładne poznanie zmiennych naprawdę się opłaca. Dowiadujesz się, że przejęcie kredytu hipotecznego (assumable mortgage) to rzadkie zjawisko na rynku nieruchomości i klient sugeruje, aby wykluczyć takie przypadki. W tym ćwiczeniu użyjesz isin(), które działa podobnie do like(), ale pozwala przekazać listę wartości jako filtr zamiast pojedynczej wartości.

Instrukcje

100 XP
  • Użyj select() i show(), aby sprawdzić unikalne wartości w kolumnie 'ASSUMABLEMORTGAGE', a następnie utwórz listę yes_values zawierającą wszystkie wartości z ciągiem 'Yes'.
  • Użyj ~df['ASSUMABLEMORTGAGE'], isin() oraz .isNull(), aby utworzyć filtr negujący – odrzucający rekordy z wartościami z listy yes_values i zachowujący rekordy z wartościami null. Zapisz ten filtr w zmiennej text_filter.
  • Użyj where(), aby zastosować text_filter do df.
  • Wyświetl liczbę rekordów pozostałych w df.