Menggabungkan semuanya

Anda memiliki dua kekhawatiran tentang pipeline Anda di startup deteksi aritmia:

Aplikasi dilatih pada pasien dari segala usia, tetapi terutama digunakan oleh pengguna kebugaran yang cenderung muda. Anda menduga ini mungkin kasus pergeseran domain (domain shift), sehingga Anda ingin mengabaikan semua contoh di atas 50 tahun.
Anda masih khawatir tentang overfitting, jadi Anda ingin melihat apakah membuat pengklasifikasi random forest kurang kompleks dan melakukan pemilihan fitur dapat membantu.

Anda akan membuat pipeline dengan langkah pemilihan fitur SelectKBest() dan RandomForestClassifier, yang keduanya sudah diimpor. Anda juga memiliki akses ke GridSearchCV(), Pipeline, numpy sebagai np, dan pickle. Data tersedia sebagai arrh.

Latihan ini merupakan bagian dari kursus

Merancang Alur Kerja Machine Learning di Python

Lihat Kursus

Instruksi latihan

Buat pipeline dengan SelectKBest() sebagai langkah ft dan RandomForestClassifier() sebagai langkah clf.
Buat parameter grid untuk menyetel k pada SelectKBest() dan max_depth pada RandomForestClassifier().
Gunakan GridSearchCV() untuk mengoptimalkan pipeline Anda terhadap grid tersebut dan data yang hanya berisi mereka yang berusia di bawah 50 tahun.
Simpan pipeline yang teroptimasi ke dalam pickle untuk produksi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a pipeline 
pipe = Pipeline([
  ('ft', ____), ('clf', ____(random_state=2))])

# Create a parameter grid
grid = {'ft__k':[5, 10], '____':[10, 20]}

# Execute grid search CV on a dataset containing under 50s
grid_search = ____(pipe, param_grid=grid)
arrh = arrh.____[____(arrh['age'] < 50)]
____.____(arrh.drop('class', 1), arrh['class'])

# Push the fitted pipeline to production
with ____('pipe.pkl', ____) as file:
    pickle.dump(____, file)

Edit dan Jalankan Kode

Merancang Alur Kerja Machine Learning di Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.

Exercise 1: Deteksi anomali Exercise 2: Sebuah outlier sederhana Exercise 3: Kontaminasi LoF Exercise 4: Deteksi kebaruan Exercise 5: Sebuah novelty sederhana Exercise 6: Tiga pendeteksi novelty Exercise 7: Meninjau kembali contamination Exercise 8: Pembelajaran berbasis jarak Exercise 9: Temukan tetangga Exercise 10: Tidak semua metrik sepakat Exercise 11: Data tidak terstruktur Exercise 12: Levenshtein Terbatas Exercise 13: Menggabungkan semuanya Exercise 14: Catatan penutup