Aan de slagGa gratis aan de slag

Variëren in trainingssetgrootte

De grootte van je trainings- en testsets beïnvloedt de modelprestatie. Modellen leren beter met meer trainingsdata. Er is echter een risico op overfitting op de trainingsdata, waardoor ze minder goed generaliseren naar nieuwe data. Om het generaliserend vermogen van het model goed te beoordelen, heb je dus ook genoeg testdata nodig. Er is daarom een belangrijke balans en trade-off tussen hoeveel je gebruikt voor training en hoeveel je apart houdt voor testen.

Tot nu toe gebruikte je 70% voor training en 30% voor testen. Laten we nu 80% van de data gebruiken voor training en bekijken hoe dat de prestatie van het model verandert.

Deze oefening maakt deel uit van de cursus

Marketinganalyse: klantverloop voorspellen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import train_test_split
from sklearn.model_selection import train_test_split

# Create feature variable
X = telco.drop('Churn', axis=1)

# Create target variable
y = telco['Churn']

# Create training and testing sets
X_train, X_test, y_train, y_test = ____
Code bewerken en uitvoeren