Découpage train-test paresseux
Vous avez transformé les variables X. Il vous reste maintenant à finaliser la préparation des données en transformant les variables y et en scindant vos données en ensembles d’entraînement et de test.
Les variables X et y, que vous avez créées dans l’exercice précédent, sont disponibles dans votre environnement.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Importez la fonction
train_test_split()depuisdask_ml.model_selection. - Les scores de popularité dans
ysont compris entre 0 et 100 ; divisez-les par 100 pour les ramener entre 0 et 1. - Scindez les données en ensembles d’entraînement et de test avec la fonction
train_test_split(), veillez à mélanger les données, et fixez la part de test à 20 % des données.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the train_test_split function
from ____ import ____
# Rescale the target values
y = ____
# Split the data into train and test sets
X_train, X_test, y_train, y_test = ____
print(X_train)