Radzenie sobie z zaszumionymi etykietami

Jeden z twoich analityków ds. cyberbezpieczeństwa informuje cię, że wiele etykiet dla pierwszych 100 komputerów źródłowych w zbiorze treningowym może być błędnych z powodu awarii bazy danych. Ma nadzieję, że dane nadal można wykorzystać – większość etykiet jest poprawna – ale prosi, żebyś potraktował te 100 etykiet jako „zaszumione". Na szczęście wiesz, jak sobie z tym poradzić, stosując ważone uczenie. Skażone dane są dostępne w twoim środowisku jako X_train, X_test, y_train_noisy, y_test. Sprawdź, czy za pomocą ważonego uczenia możesz poprawić wyniki klasyfikatora GaussianNB(). Możesz użyć opcjonalnego parametru sample_weight, obsługiwanego przez metodę .fit() większości popularnych klasyfikatorów. Funkcja accuracy_score() jest już wczytana. Skorzystaj z poniższego obrazka jako wskazówki.

Dopasuj instancję GaussianNB() do danych treningowych z zaszumionymi etykietami.
Sprawdź jej dokładność na danych testowych, używając accuracy_score().
Utwórz wagi przypisujące etykietom uznawanych za pewne (ground truth) dwukrotnie większą wagę niż etykietom zaszumionym. Pamiętaj, że wagi dotyczą danych treningowych.
Ponownie dopasuj klasyfikator z użyciem powyższych wag i sprawdź jego dokładność.

ćwiczenie

Radzenie sobie z zaszumionymi etykietami

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie