Çalışan verisini bölme
Bir veri kümesinde aşırı öğrenme (overfitting) analitiklerde sık görülen bir sorundur. Model, geliştirildiği veri kümesinde iyi çalışırken, onun dışına genelleyemediğinde ortaya çıkar.
Modelin genellemesini sağlamak için train/test ayrımı yapılır: modeli eğitim örneklemi üzerinde geliştirir, daha sonra test örnekleminde denersin.
Bu egzersizde hem target hem de features değişkenlerini sırasıyla yüzde 75/25 oranında eğitim ve test kümelerine böleceksin.
Bu egzersiz
İK Analitiği: Python ile Çalışan Terkini (Churn) Tahmin Etme
kursunun bir parçasıdırEgzersiz talimatları
sklearn.model_selectionmodülündentrain_test_splitfonksiyonunu içe aktar- Veri kümeni eğitim ve test kümelerine ayırmak için
train_test_split()kullan - Gözlemlerinin yüzde 25’ini test kümesine ayır
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)