Train-test-split
In dit hoofdstuk blijf je werken met de ANSUR-gegevensset. Voordat je een model op je gegevensset kunt bouwen, moet je eerst bepalen welke feature je wilt voorspellen. In dit geval probeer je het geslacht te voorspellen.
Je moet de kolom met deze feature uit de gegevensset halen en de data vervolgens splitsen in een trainings- en een testset. De trainingsset wordt gebruikt om het model te trainen en de testset om de prestaties te controleren op niet eerder geziene data.
ansur_df is alvast voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in Python
Oefeninstructies
- Importeer de functie
train_test_splituitsklearn.model_selection. - Wijs de kolom
'Gender'toe aan y. - Verwijder de kolom
'Gender'uit de DataFrame en wijs het resultaat toe aanX. - Stel de testgrootte in op 30% om een split te maken van 70% train en 30% testdata.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")