Train-test-split

In dit hoofdstuk blijf je werken met de ANSUR-gegevensset. Voordat je een model op je gegevensset kunt bouwen, moet je eerst bepalen welke feature je wilt voorspellen. In dit geval probeer je het geslacht te voorspellen.

Je moet de kolom met deze feature uit de gegevensset halen en de data vervolgens splitsen in een trainings- en een testset. De trainingsset wordt gebruikt om het model te trainen en de testset om de prestaties te controleren op niet eerder geziene data.

ansur_df is alvast voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in Python

Bekijk cursus

Oefeninstructies

Importeer de functie train_test_split uit sklearn.model_selection.
Wijs de kolom 'Gender' toe aan y.
Verwijder de kolom 'Gender' uit de DataFrame en wijs het resultaat toe aan X.
Stel de testgrootte in op 30% om een split te maken van 70% train en 30% testdata.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")

Code bewerken en uitvoeren