Suddividi i dati in training e testing

Ora sei pronto per costruire un modello di Machine Learning end-to-end seguendo pochi semplici passaggi! Approfondirai le sfumature della modellazione nei prossimi capitoli, ma per ora farai pratica e capirai i passaggi fondamentali.

Le variabili indipendenti sono già caricate per te come pandas DataFrame con nome X, e i valori dipendenti come pandas Series con nome Y.

Inoltre, la funzione train_test_split è stata caricata dalla libreria sklearn. Ora creerai i dataset di training e di testing e poi verificherai che la suddivisione sia avvenuta correttamente.

Questo esercizio fa parte del corso

Machine Learning per il marketing con Python

Visualizza corso

Istruzioni dell'esercizio

Dividi X e Y in training e test set con il 25% dei dati destinato al testing.
Assicurati che il training set contenga solo il 75% dei dati originali.
Assicurati che il test set contenga solo il 25% dei dati originali.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)

# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])

# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])

Modifica ed esegui il codice