1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Wizualizacja brakujących danych

Wizualizacja brakujących wartości to świetny sposób na szybkie zorientowanie się, jak duża część danych jest niekompletna. Może też pomóc wykryć wzorce w brakujących danych – a to coś, czym trzeba zająć się z rozwagą, żeby model nie był obciążony błędem.

Która zmienna ma najwięcej brakujących wartości? Uruchom wszystkie linie kodu z wyjątkiem ostatniej, aby znaleźć odpowiedź. Gdy już będziesz mieć pewność, wpisz odpowiednią wartość i kliknij „Prześlij odpowiedź".

Instrukcje

100 XP
  • Użyj select(), aby wybrać kolumny z ramki danych df według listy columns, a następnie pobierz próbkę za pomocą dostarczonej funkcji sample(). Wynik przypisz do zmiennej sample_df.
  • Przekształć podzbiór ramki danych na ramkę danych pandas o nazwie pandas_df, a następnie użyj metody isnull() z biblioteki pandas, aby zamienić ją na wartości True/False. Wynik zapisz w tf_df.
  • Użyj funkcji heatmap() z biblioteki seaborn, aby zwizualizować tf_df.
  • Kliknij „Uruchom kod", aby zobaczyć wykres. Następnie przypisz nazwę zmiennej z największą liczbą brakujących wartości do answer.