Séparation train/test
Pour éviter l’overfitting, il est courant en Machine Learning de scinder les données en jeux d’entraînement et de test. Cela permet de vérifier que le modèle sait bien prédire de nouvelles données jamais vues.
Comme nous travaillons avec des séries temporelles, nous ne pouvons pas utiliser une séparation aléatoire, car cela donnerait au modèle des informations sur le futur.
Une fonction pour afficher le début et la fin d’un DataFrame est disponible sous le nom show_start_end(). Elle prend un DataFrame comme seul argument et renvoie une chaîne de caractères.
Les données sont disponibles sous environment.
Cet exercice fait partie du cours
Analyzing IoT Data in Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define the split day
limit_day = ____
# Split the data
train_env = ____[____]
test_env = ____[____]