1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Uzupełnianie brakujących danych

Brakujące dane to rzeczywistość każdego analityka. Jeśli przyjmiemy założenie, że dane są brakujące całkowicie losowo, uznajemy tym samym, że posiadane przez nas dane dobrze reprezentują całą populację. Gdy brakuje tylko kilku wartości, możemy je usunąć albo zastąpić średnią lub medianą. W tym ćwiczeniu przyjrzymy się kolumnie 'PDOM': liczba dni na rynku po bieżącej cenie.

Instrukcje

100 XP
  • Policz brakujące wartości w kolumnie 'PDOM', używając funkcji where(), isNull() i count().
  • Oblicz średnią wartość kolumny 'PDOM' za pomocą funkcji agregującej mean().
  • Użyj funkcji fillna(), ustawiając wartość zastępczą na obliczoną średnią z kolumny 'PDOM' i ogranicz jej działanie wyłącznie do tej kolumny za pomocą parametru subset.