Pipeline pertama Anda - lagi!
Kembali di startup aritmia, tinjauan bulanan Anda akan segera berlangsung, dan sebagai bagian darinya seorang programmer Python ahli akan meninjau kode Anda. Anda memutuskan untuk merapikan dengan mengikuti praktik terbaik dan mengganti skrip Anda untuk seleksi fitur dan klasifikasi random forest dengan sebuah pipeline. Anda menggunakan himpunan data pelatihan yang tersedia sebagai X_train dan y_train, serta sejumlah modul: RandomForestClassifier, SelectKBest() dan f_classif() untuk seleksi fitur, juga GridSearchCV dan Pipeline.
Latihan ini adalah bagian dari kursus
Merancang Alur Kerja Machine Learning di Python
Petunjuk latihan
- Buat pipeline dengan pemilih fitur seperti pada kode contoh, dan classifier random forest. Beri nama langkah pertama
feature_selection. - Tambahkan dua pasangan key-value dalam
params, satu untuk jumlah fiturkpada selector dengan nilai 10 dan 20, dan satu untukn_estimatorspada forest dengan nilai yang mungkin 2 dan 5. - Inisialisasi objek
GridSearchCVdengan pipeline dan parameter grid yang diberikan. - Latih objek tersebut pada data dan cetak kombinasi parameter dengan performa terbaik.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create pipeline with feature selector and classifier
pipe = ___([
(___, SelectKBest(f_classif)),
('clf', ___(random_state=2))])
# Create a parameter grid
params = {
'feature_selection__k':___,
___:[2, 5]}
# Initialize the grid search object
grid_search = ___(___, ___=params)
# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)