Suddividere i dati dei dipendenti

L’overfitting dell’insieme di dati è un problema comune in analytics. Succede quando un modello funziona bene sull’insieme su cui è stato sviluppato, ma non riesce a generalizzare al di fuori di esso.

Per garantire la capacità di generalizzazione del modello, si usa lo split train/test: sviluppi il modello sul campione di training e lo provi successivamente sul campione di test.

In questo esercizio, dividerai sia target sia features in insiemi di training e test con un rapporto rispettivamente del 75%/25%.

Questo esercizio fa parte del corso

HR Analytics: prevedere l'abbandono dei dipendenti in Python

Visualizza corso

Istruzioni dell'esercizio

Importa train_test_split dal modulo sklearn.model_selection
Usa train_test_split() per dividere il tuo insieme di dati in set di training e di test
Assegna il 25% delle osservazioni al set di test

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)

Modifica ed esegui il codice