1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Obliczanie procentu brakujących wartości

Automatyzacja to przyszłość data science. Warto nauczyć się automatyzować przygotowanie danych – to inwestycja, która szybko się zwraca. W tym ćwiczeniu zautomatyzujemy usuwanie kolumn, w których brakuje zbyt dużej części danych – powyżej określonego progu.

Instrukcje

100 XP
  • Zdefiniuj funkcję column_dropper(), która przyjmuje parametry: df – ramkę danych oraz threshold – liczbę zmiennoprzecinkową z zakresu od 0 do 1.
  • Oblicz odsetek brakujących wartości, korzystając z where(), isNull() i count().
  • Sprawdź, czy odsetek brakujących wartości przekracza próg – jeśli tak, usuń kolumnę za pomocą drop().
  • Uruchom column_dropper() na df z progiem ustawionym na 0,6.