Variare la dimensione del training set

La dimensione dei tuoi training e testing set influisce sulle prestazioni del modello. I modelli apprendono meglio quando hanno più dati di training. Tuttavia, c’è il rischio che sovradattino i dati di training e non generalizzino bene su nuovi dati; quindi, per valutare correttamente la capacità di generalizzazione del modello, serve avere abbastanza dati di test. Di conseguenza, c’è un equilibrio importante e un compromesso tra quanto usare per il training e quanto tenere da parte per il testing.

Finora hai usato il 70% per il training e il 30% per il testing. Usiamo ora l’80% dei dati per il training e valutiamo come cambia la performance del modello.

Questo esercizio fa parte del corso

Marketing Analytics: Prevedere il churn dei clienti in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import train_test_split
from sklearn.model_selection import train_test_split

# Create feature variable
X = telco.drop('Churn', axis=1)

# Create target variable
y = telco['Churn']

# Create training and testing sets
X_train, X_test, y_train, y_test = ____

Modifica ed esegui il codice