Pemusatan dan penskalaan untuk klasifikasi
Sekarang Anda akan menggabungkan penskalaan dan pembuatan model ke dalam sebuah pipeline untuk cross-validation.
Tugas Anda adalah membangun pipeline untuk men-skala fitur dalam himpunan data music_df dan melakukan grid search cross-validation menggunakan model logistic regression dengan berbagai nilai untuk hyperparameter C. Variabel target di sini adalah "genre", yang berisi nilai biner untuk rock sebagai 1 dan genre lainnya sebagai 0.
StandardScaler, LogisticRegression, dan GridSearchCV telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Supervised Learning dengan scikit-learn
Petunjuk latihan
- Bangun langkah-langkah untuk pipeline: sebuah objek
StandardScaler()bernama"scaler", dan model logistic regression bernama"logreg". - Buat
parameters, dengan mencari 20 nilai float berjarak sama dari0.001hingga1.0untuk hyperparameterCmodel logistic regression di dalam pipeline. - Buat instance objek grid search.
- Fit objek grid search ke data latih.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build the steps
steps = [("____", ____()),
("____", ____())]
pipeline = Pipeline(steps)
# Create the parameter space
parameters = {"____": np.____(____, ____, 20)}
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=21)
# Instantiate the grid search object
cv = ____(____, param_grid=____)
# Fit to the training data
cv.____(____, ____)
print(cv.best_score_, "\n", cv.best_params_)