Memvariasikan ukuran himpunan pelatihan
Ukuran himpunan pelatihan dan pengujian memengaruhi kinerja model. Model belajar lebih baik ketika memiliki lebih banyak data pelatihan. Namun, ada risiko model terlalu menyesuaikan diri dengan data pelatihan dan tidak melakukan generalisasi dengan baik ke data baru. Oleh karena itu, untuk mengevaluasi kemampuan generalisasi model secara tepat, Anda memerlukan cukup data pengujian. Akibatnya, ada keseimbangan dan kompromi penting antara seberapa banyak yang digunakan untuk pelatihan dan seberapa banyak yang disisihkan untuk pengujian.
Sejauh ini, Anda telah menggunakan 70% untuk pelatihan dan 30% untuk pengujian. Sekarang, mari gunakan 80% data untuk pelatihan dan evaluasi bagaimana hal itu mengubah kinerja model.
Latihan ini adalah bagian dari kursus
Analitik Pemasaran: Memprediksi Churn Pelanggan di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import train_test_split
from sklearn.model_selection import train_test_split
# Create feature variable
X = telco.drop('Churn', axis=1)
# Create target variable
y = telco['Churn']
# Create training and testing sets
X_train, X_test, y_train, y_test = ____