Luie train-test-split
Je hebt de X-variabelen getransformeerd. Nu maak je je datavoorbereiding af door de y-variabelen te transformeren en je data op te splitsen in train- en testsets.
De variabelen X en y, die je in de vorige oefening hebt gemaakt, zijn beschikbaar in je omgeving.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Importeer de functie
train_test_split()uitdask_ml.model_selection. - De populariteitsscores in
yliggen tussen 0 en 100; deel ze door 100 zodat ze tussen 0 en 1 liggen. - Splits de data in train- en testsets met de functie
train_test_split(), zorg dat je de data shuffelt en stel het testgedeelte in op 20% van de data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the train_test_split function
from ____ import ____
# Rescale the target values
y = ____
# Split the data into train and test sets
X_train, X_test, y_train, y_test = ____
print(X_train)