Suddivisione train - test
In questo capitolo continuerai a lavorare con l'insieme di dati ANSUR. Prima di costruire un modello, devi decidere quale variabile vuoi prevedere. In questo caso, cerchi di prevedere il genere.
Devi estrarre dal dataset la colonna che contiene questa variabile e poi suddividere i dati in un set di training e uno di test. Il set di training verrà usato per addestrare il modello, mentre quello di test servirà per valutarne le prestazioni su dati mai visti.
ansur_df è già stato caricato per te.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in Python
Istruzioni dell'esercizio
- Importa la funzione
train_test_splitdasklearn.model_selection. - Assegna la colonna
'Gender'a y. - Rimuovi la colonna
'Gender'dal DataFrame e assegna il risultato aX. - Imposta la dimensione del test al 30% per ottenere una suddivisione 70% train e 30% test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")