Variare la dimensione del training set
La dimensione dei tuoi training e testing set influisce sulle prestazioni del modello. I modelli apprendono meglio quando hanno più dati di training. Tuttavia, c’è il rischio che sovradattino i dati di training e non generalizzino bene su nuovi dati; quindi, per valutare correttamente la capacità di generalizzazione del modello, serve avere abbastanza dati di test. Di conseguenza, c’è un equilibrio importante e un compromesso tra quanto usare per il training e quanto tenere da parte per il testing.
Finora hai usato il 70% per il training e il 30% per il testing. Usiamo ora l’80% dei dati per il training e valutiamo come cambia la performance del modello.
Questo esercizio fa parte del corso
Marketing Analytics: Prevedere il churn dei clienti in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import train_test_split
from sklearn.model_selection import train_test_split
# Create feature variable
X = telco.drop('Churn', axis=1)
# Create target variable
y = telco['Churn']
# Create training and testing sets
X_train, X_test, y_train, y_test = ____