1. Nauka
  2. /
  3. Kursy
  4. /
  5. Monitorowanie uczenia maszynowego w Pythonie

Connected

ćwiczenie

Sprawdzanie jakości danych

Jak pokazano w poprzednim filmie, brakujące wartości mogą prowadzić do utraty cennych informacji i błędnych interpretacji. Podobnie, obecność nieznanych wartości może wpływać na pewność predykcji modelu.

W tym ćwiczeniu sprawdzisz, czy zbiór danych dotyczący rezerwacji hotelowych zawiera brakujące wartości, oraz zidentyfikujesz ewentualne nieznane wartości. Zbiory danych referencyjny i analityczny są już wczytane, podobnie jak biblioteka nannyml.

Przydatna wskazówka: jeśli nie pamiętasz typów kolumn, możesz je łatwo sprawdzić za pomocą metody .head().

Instrukcje 1/2

undefined XP
  • 1
    • Zainicjalizuj kalkulator brakujących wartości, przekazując wybrane kolumny do column_names i ustawiając chunk_period na miesięczny.
  • 2
    • Dodaj nazwy dwóch kolumn kategorycznych – country i hotel – zainicjalizuj kalkulator nieznanych wartości i przekaż categorical_columns do parametru column_names.