1. Learn
  2. /
  3. Cursuri
  4. /
  5. Proiectarea fluxurilor de lucru pentru Machine Learning în Python

Connected

exercițiu

Gestionarea zgomotului din etichete

Unul dintre analiștii tăi de securitate cibernetică îți semnalează că multe dintre etichetele primelor 100 de calculatoare sursă din datele de antrenament ar putea fi greșite din cauza unei erori de bază de date. Ea speră că poți folosi în continuare datele, deoarece majoritatea etichetelor sunt corecte, dar îți cere să tratezi aceste 100 de etichete ca fiind „zgomotoase". Din fericire, știi cum să faci asta prin intermediul învățării ponderate. Datele afectate sunt disponibile în spațiul tău de lucru ca X_train, X_test, y_train_noisy, y_test. Vrei să verifici dacă poți îmbunătăți performanța unui clasificator GaussianNB() folosind învățarea ponderată. Poți folosi parametrul opțional sample_weight, suportat de metodele .fit() ale majorității clasificatorilor populari. Funcția accuracy_score() este preîncărcată. Consultă imaginea de mai jos pentru îndrumare.

Instrucțiuni

100 XP
  • Antrenează o instanță a GaussianNB() pe datele de antrenament cu etichetele afectate.
  • Raportează acuratețea acesteia pe datele de testare folosind accuracy_score().
  • Creează ponderi care acordă de două ori mai multă importanță etichetelor de referință față de etichetele zgomotoase. Reține că ponderile se referă la datele de antrenament.
  • Reantrenează clasificatorul folosind ponderile de mai sus și raportează acuratețea obținută.