Suddividi i dati in training e testing
Ora sei pronto per costruire un modello di Machine Learning end-to-end seguendo pochi semplici passaggi! Approfondirai le sfumature della modellazione nei prossimi capitoli, ma per ora farai pratica e capirai i passaggi fondamentali.
Le variabili indipendenti sono già caricate per te come pandas DataFrame con nome X, e i valori dipendenti come pandas Series con nome Y.
Inoltre, la funzione train_test_split è stata caricata dalla libreria sklearn. Ora creerai i dataset di training e di testing e poi verificherai che la suddivisione sia avvenuta correttamente.
Questo esercizio fa parte del corso
Machine Learning per il marketing con Python
Istruzioni dell'esercizio
- Dividi
XeYin training e test set con il 25% dei dati destinato al testing. - Assicurati che il training set contenga solo il 75% dei dati originali.
- Assicurati che il test set contenga solo il 25% dei dati originali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])