Memprediksi rating sebuah aplikasi

Setelah mengeksplorasi himpunan data Google apps pada latihan sebelumnya, kini mari membangun model yang memprediksi rating sebuah aplikasi berdasarkan sebagian fiturnya.

Untuk itu, Anda akan menggunakan DecisionTreeRegressor dari scikit-learn. Karena decision tree merupakan fondasi dari banyak model ensemble, menyegarkan kembali pemahaman Anda tentang cara kerjanya akan sangat bermanfaat sepanjang kursus ini.

Kita akan menggunakan MAE (mean absolute error) sebagai metrik evaluasi. Metrik ini sangat mudah diinterpretasikan karena merepresentasikan rata-rata selisih absolut antara rating aktual dan rating yang diprediksi.

Semua modul yang diperlukan telah diimpor untuk Anda. Fitur dan target tersedia pada variabel X dan y secara berurutan.

Latihan ini merupakan bagian dari kursus

Metode Ensemble di Python

Instruksi latihan

Gunakan train_test_split() untuk membagi X dan y menjadi himpunan latih dan uji. Gunakan 20%, atau 0.2, sebagai ukuran uji.
Instansiasi DecisionTreeRegressor(), reg_dt, dengan hyperparameter berikut: min_samples_leaf = 3 dan min_samples_split = 9.
Latih regressor pada himpunan latih menggunakan .fit().
Prediksi label himpunan uji menggunakan .predict().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split into train (80%) and test (20%) sets
X_train, X_test, y_train, y_test = ____(____, ____, ____, random_state=42)

# Instantiate the regressor
reg_dt = ____(____, ____, random_state=500)

# Fit to the training set
____

# Evaluate the performance of the model on the test set
y_pred = ____
print('MAE: {:.3f}'.format(mean_absolute_error(y_test, y_pred)))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Metode Ensemble di Python

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Kesulitan menentukan model mana yang terbaik untuk permasalahan Anda? Lupakan itu, gunakan semuanya sekaligus! Di bab ini, Anda akan belajar cara menggabungkan beberapa model menjadi satu menggunakan "Voting" dan "Averaging". Anda akan menggunakannya untuk memprediksi rating aplikasi di Google Play Store, apakah suatu Pokémon legendaris atau tidak, serta karakter mana yang akan mati di Game of Thrones!

Exercise 1: Pengantar metode ensemble Exercise 2: Mengeksplorasi data aplikasi Google Exercise 3: Memprediksi rating sebuah aplikasi

Latihan Saat Ini

Exercise 4: Voting Exercise 5: Memilih model terbaik Exercise 6: Menyusun ensemble pertama Anda Exercise 7: Mengevaluasi ensemble Anda Exercise 8: Averaging Exercise 9: Perjalanan ke Westeros Exercise 10: Memprediksi kematian di GoT Exercise 11: Voting soft vs. hard

Bagging adalah metode ensemble di balik algoritme machine learning yang kuat seperti random forest. Di bab ini, Anda akan mempelajari teori di balik teknik ini dan membangun model bagging Anda sendiri menggunakan scikit-learn.

Exercise 1: Kekuatan model "lemah"Exercise 2: Pohon keputusan terbatas dan tidak terbatas Exercise 3: Pohon keputusan "lemah"Exercise 4: Bootstrap aggregating Exercise 5: Pelatihan dengan bootstrapping Exercise 6: Upaya pertama melakukan bagging Exercise 7: BaggingClassifier: seluk-beluknya Exercise 8: Bagging: cara scikit-learn Exercise 9: Memeriksa out-of-bag score Exercise 10: Parameter bagging: kiat dan trik Exercise 11: Menjelajahi data UCI SECOM Exercise 12: Model bagging yang lebih kompleks Exercise 13: Menyetel hyperparameter bagging

Boosting adalah kelas algoritme pembelajaran ensemble yang mencakup model pemenang penghargaan seperti AdaBoost. Di bab ini, Anda akan mempelajari model pemenang penghargaan tersebut, dan menggunakannya untuk memprediksi pendapatan film-film peraih penghargaan! Anda juga akan mempelajari algoritme gradient boosting seperti CatBoost dan XGBoost.

Exercise 1: Efektivitas pembelajaran bertahap Exercise 2: Mengenal basis data film Exercise 3: Menjelajahi fitur film Exercise 4: Memprediksi pendapatan film Exercise 5: Boosting untuk prediksi pendapatan Exercise 6: Adaptive boosting: model pemenang penghargaan Exercise 7: Model AdaBoost pertama Anda Exercise 8: Regresi AdaBoost berbasis pohon Exercise 9: Memaksimalkan AdaBoost Exercise 10: Gradient boosting Exercise 11: Meninjau kembali ulasan aplikasi Google Exercise 12: Analisis sentimen dengan GBM Exercise 13: Ragam gradient boosting Exercise 14: Prediksi pendapatan film dengan CatBoost Exercise 15: Kompetisi boosting: Light vs Extreme

Bersiaplah melihat bagaimana semuanya ditumpuk! Di bab terakhir ini, Anda akan mempelajari metode ensemble stacking. Anda akan belajar cara mengimplementasikannya menggunakan scikit-learn serta pustaka mlxtend! Anda akan menerapkan stacking untuk memprediksi kelayakan konsumsi jamur Amerika Utara, dan meninjau kembali rating aplikasi Google dengan pendekatan yang lebih maju ini.

Exercise 1: Intuisi di balik stacking Exercise 2: Menjelajahi himpunan data jamur Exercise 3: Memprediksi kelayakan jamur untuk dimakan Exercise 4: K-nearest neighbors untuk jamur Exercise 5: Bangun ensemble bertumpuk pertama Anda Exercise 6: Menerapkan stacking untuk memprediksi penilaian aplikasi Exercise 7: Membangun stacking classifier Exercise 8: Prediksi bertumpuk untuk rating aplikasi Exercise 9: Mari gunakan mlxtend!Exercise 10: Percobaan pertama dengan mlxtend Exercise 11: Kembali ke regresi dengan stacking Exercise 12: Jamur: urusan hidup atau mati Exercise 13: Menggabungkan semua ensemble