1. Nauka
  2. /
  3. Kursy
  4. /
  5. Projektowanie przepływów pracy uczenia maszynowego w Pythonie

Connected

ćwiczenie

Radzenie sobie z zaszumionymi etykietami

Jeden z twoich analityków ds. cyberbezpieczeństwa informuje cię, że wiele etykiet dla pierwszych 100 komputerów źródłowych w zbiorze treningowym może być błędnych z powodu awarii bazy danych. Ma nadzieję, że dane nadal można wykorzystać – większość etykiet jest poprawna – ale prosi, żebyś potraktował te 100 etykiet jako „zaszumione". Na szczęście wiesz, jak sobie z tym poradzić, stosując ważone uczenie. Skażone dane są dostępne w twoim środowisku jako X_train, X_test, y_train_noisy, y_test. Sprawdź, czy za pomocą ważonego uczenia możesz poprawić wyniki klasyfikatora GaussianNB(). Możesz użyć opcjonalnego parametru sample_weight, obsługiwanego przez metodę .fit() większości popularnych klasyfikatorów. Funkcja accuracy_score() jest już wczytana. Skorzystaj z poniższego obrazka jako wskazówki.

Instrukcje

100 XP
  • Dopasuj instancję GaussianNB() do danych treningowych z zaszumionymi etykietami.
  • Sprawdź jej dokładność na danych testowych, używając accuracy_score().
  • Utwórz wagi przypisujące etykietom uznawanych za pewne (ground truth) dwukrotnie większą wagę niż etykietom zaszumionym. Pamiętaj, że wagi dotyczą danych treningowych.
  • Ponownie dopasuj klasyfikator z użyciem powyższych wag i sprawdź jego dokładność.