CommencerCommencer gratuitement

Séparation train/test

Pour éviter l’overfitting, il est courant en Machine Learning de scinder les données en jeux d’entraînement et de test. Cela permet de vérifier que le modèle sait bien prédire de nouvelles données jamais vues.

Comme nous travaillons avec des séries temporelles, nous ne pouvons pas utiliser une séparation aléatoire, car cela donnerait au modèle des informations sur le futur.

Une fonction pour afficher le début et la fin d’un DataFrame est disponible sous le nom show_start_end(). Elle prend un DataFrame comme seul argument et renvoie une chaîne de caractères.

Les données sont disponibles sous environment.

Cet exercice fait partie du cours

Analyzing IoT Data in Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define the split day
limit_day = ____

# Split the data
train_env = ____[____]
test_env = ____[____]
Modifier et exécuter le code