Pipeline pertama Anda - lagi!

Kembali di startup aritmia, tinjauan bulanan Anda akan segera berlangsung, dan sebagai bagian darinya seorang programmer Python ahli akan meninjau kode Anda. Anda memutuskan untuk merapikan dengan mengikuti praktik terbaik dan mengganti skrip Anda untuk seleksi fitur dan klasifikasi random forest dengan sebuah pipeline. Anda menggunakan himpunan data pelatihan yang tersedia sebagai X_train dan y_train, serta sejumlah modul: RandomForestClassifier, SelectKBest() dan f_classif() untuk seleksi fitur, juga GridSearchCV dan Pipeline.

Latihan ini merupakan bagian dari kursus

Merancang Alur Kerja Machine Learning di Python

Lihat Kursus

Instruksi latihan

Buat pipeline dengan pemilih fitur seperti pada kode contoh, dan classifier random forest. Beri nama langkah pertama feature_selection.
Tambahkan dua pasangan key-value dalam params, satu untuk jumlah fitur k pada selector dengan nilai 10 dan 20, dan satu untuk n_estimators pada forest dengan nilai yang mungkin 2 dan 5.
Inisialisasi objek GridSearchCV dengan pipeline dan parameter grid yang diberikan.
Latih objek tersebut pada data dan cetak kombinasi parameter dengan performa terbaik.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create pipeline with feature selector and classifier
pipe = ___([
    (___, SelectKBest(f_classif)),
    ('clf', ___(random_state=2))])

# Create a parameter grid
params = {
   'feature_selection__k':___,
    ___:[2, 5]}

# Initialize the grid search object
grid_search = ___(___, ___=params)

# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)

Edit dan Jalankan Kode

Merancang Alur Kerja Machine Learning di Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.

Exercise 1: Deteksi anomali Exercise 2: Sebuah outlier sederhana Exercise 3: Kontaminasi LoF Exercise 4: Deteksi kebaruan Exercise 5: Sebuah novelty sederhana Exercise 6: Tiga pendeteksi novelty Exercise 7: Meninjau kembali contamination Exercise 8: Pembelajaran berbasis jarak Exercise 9: Temukan tetangga Exercise 10: Tidak semua metrik sepakat Exercise 11: Data tidak terstruktur Exercise 12: Levenshtein Terbatas Exercise 13: Menggabungkan semuanya Exercise 14: Catatan penutup