레이블 노이즈 다루기

사이버 분석가 한 분이 알려주길, 학습 데이터에서 처음 100개의 소스 컴퓨터에 대한 레이블 다수가 데이터베이스 오류로 인해 잘못되었을 수 있다고 합니다. 대부분의 레이블은 여전히 올바르니 데이터를 사용하되, 이 100개의 레이블은 "노이즈가 있다"라고 간주해 달라고 요청합니다. 다행히도 여러분은 가중치 학습을 사용해 이를 처리하는 방법을 알고 있습니다. 오염된 데이터는 작업 공간에 X_train, X_test, y_train_noisy, y_test로 제공됩니다. 가중치 학습을 사용해 GaussianNB() 분류기의 성능을 개선할 수 있는지 확인해 보세요. 대부분의 인기 있는 분류기의 .fit() 메서드에서 지원되는 선택 매개변수 sample_weight를 사용할 수 있습니다. accuracy_score() 함수는 미리 로드되어 있습니다. 안내가 필요하면 아래 이미지를 참고하세요.

오염된 레이블이 있는 학습 데이터에 GaussianNB() 인스턴스를 적합하세요.
accuracy_score()를 사용해 테스트 데이터에 대한 정확도를 보고하세요.
정답(ground truth) 레이블에는 노이즈 레이블보다 2배 큰 가중치를 부여하는 가중치를 만드세요. 가중치는 학습 데이터를 대상으로 한다는 점을 기억하세요.
위 가중치로 분류기를 다시 적합하고 정확도를 보고하세요.

연습 문제

레이블 노이즈 다루기

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제