1. Nauka
  2. /
  3. Kursy
  4. /
  5. End-to-End Machine Learning

Connected

ćwiczenie

Wykrywanie dryfu danych za pomocą testu Kołmogorowa-Smirnowa

Po pomyślnym wdrożeniu modelu do przewidywania chorób serca monitorujesz jego wydajność oraz dane wejściowe. Zauważasz, że rozkład niektórych kluczowych cech w danych zebranych w lutym różni się nieco od danych, na których trenowano model w styczniu. Tego rodzaju rozbieżności mogą wpływać na jakość modelu, dlatego ważne jest ich wykrycie i odpowiednia reakcja.

W tym ćwiczeniu użyjesz testu Kołmogorowa-Smirnowa (K-S), aby wykryć ewentualny dryfowanie danych między zbiorami ze stycznia i lutego. Przykładowe zbiory danych january_data i february_data są już wczytane.

Instrukcje

100 XP
  • Zaimportuj funkcję ks_2samp z modułu scipy.stats.
  • Użyj dostarczonych zbiorów danych january_data i february_data, aby przeprowadzić test Kołmogorowa-Smirnowa; oblicz statystykę testową i p-value.
  • Sprawdź, czy p-value jest mniejsze od 0.05, co wskazuje na dryfowanie danych; jeśli dryfowanie zostanie wykryte, wypisz "Data drift detected.", w przeciwnym razie wypisz "No data drift detected."