Suddividere i dati dei dipendenti
L’overfitting dell’insieme di dati è un problema comune in analytics. Succede quando un modello funziona bene sull’insieme su cui è stato sviluppato, ma non riesce a generalizzare al di fuori di esso.
Per garantire la capacità di generalizzazione del modello, si usa lo split train/test: sviluppi il modello sul campione di training e lo provi successivamente sul campione di test.
In questo esercizio, dividerai sia target sia features in insiemi di training e test con un rapporto rispettivamente del 75%/25%.
Questo esercizio fa parte del corso
HR Analytics: prevedere l'abbandono dei dipendenti in Python
Istruzioni dell'esercizio
- Importa
train_test_splitdal modulosklearn.model_selection - Usa
train_test_split()per dividere il tuo insieme di dati in set di training e di test - Assegna il 25% delle osservazioni al set di test
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)