Statistik cross-validation

Anda menggunakan grid search CV untuk menyetel classifier random forest, dan sekarang ingin meninjau hasil cross-validation untuk memastikan Anda tidak overfit. Secara khusus, Anda ingin mengambil selisih antara skor uji rata-rata untuk setiap lipatan dari skor latih rata-rata. Himpunan data tersedia sebagai X_train dan y_train, pipeline sebagai pipe, dan sejumlah modul telah dimuat sebelumnya termasuk pandas sebagai pd dan GridSearchCV().

Latihan ini merupakan bagian dari kursus

Merancang Alur Kerja Machine Learning di Python

Lihat Kursus

Instruksi latihan

Buat objek grid search dengan tiga lipatan cross-validation dan pastikan objek tersebut mengembalikan statistik pelatihan serta pengujian.
Pasangkan objek grid search ke data pelatihan.
Simpan hasil cross-validation, yang tersedia pada atribut cv_results_ dari objek CV yang sudah dipasangkan, ke dalam sebuah dataframe.
Cetak selisih antara kolom yang berisi skor uji rata-rata dan kolom yang berisi skor latih rata-rata.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
  pipe, params, ____=3, return_train_score=____)

# Fit the grid search
gs = grid_search.____(____, ____)

# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)

# Print the difference between mean test and training scores
print(
  results[____]-results['mean_train_score'])

Edit dan Jalankan Kode

Merancang Alur Kerja Machine Learning di Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.

Exercise 1: Deteksi anomali Exercise 2: Sebuah outlier sederhana Exercise 3: Kontaminasi LoF Exercise 4: Deteksi kebaruan Exercise 5: Sebuah novelty sederhana Exercise 6: Tiga pendeteksi novelty Exercise 7: Meninjau kembali contamination Exercise 8: Pembelajaran berbasis jarak Exercise 9: Temukan tetangga Exercise 10: Tidak semua metrik sepakat Exercise 11: Data tidak terstruktur Exercise 12: Levenshtein Terbatas Exercise 13: Menggabungkan semuanya Exercise 14: Catatan penutup