IniziaInizia gratis

Suddivisione train - test

In questo capitolo continuerai a lavorare con l'insieme di dati ANSUR. Prima di costruire un modello, devi decidere quale variabile vuoi prevedere. In questo caso, cerchi di prevedere il genere.

Devi estrarre dal dataset la colonna che contiene questa variabile e poi suddividere i dati in un set di training e uno di test. Il set di training verrà usato per addestrare il modello, mentre quello di test servirà per valutarne le prestazioni su dati mai visti.

ansur_df è già stato caricato per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la funzione train_test_split da sklearn.model_selection.
  • Assegna la colonna 'Gender' a y.
  • Rimuovi la colonna 'Gender' dal DataFrame e assegna il risultato a X.
  • Imposta la dimensione del test al 30% per ottenere una suddivisione 70% train e 30% test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")
Modifica ed esegui il codice