1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Filtrování textu pro odstranění záznamů

Vyplatí se klientům klást hodně otázek a věnovat čas pochopení jednotlivých proměnných. Zjistíš, že předpokladatelná hypotéka je v realitním odvětví neobvyklá záležitost a klient tě požádá, abys takové záznamy vyloučil/a. V tomto cvičení použiješ isin(), což je funkce podobná like(), ale umožňuje předat seznam hodnot jako filtr místo jedné jediné.

Pokyny

100 XP
  • Pomocí select() a show() prozkoumej různé hodnoty ve sloupci 'ASSUMABLEMORTGAGE' a vytvoř seznam yes_values pro všechny hodnoty obsahující řetězec 'Yes'.
  • Pomocí ~df['ASSUMABLEMORTGAGE'], isin() a .isNull() vytvoř negační filtr, který odstraní záznamy s odpovídajícími hodnotami ze seznamu yes_values a zachová záznamy s hodnotou null. Ulož tento filtr do proměnné text_filter.
  • Pomocí where() aplikuj text_filter na df.
  • Vypiš počet záznamů, které v df zůstaly.