Divisão em treino/teste
Para evitar overfitting, é prática comum em Machine Learning dividir os dados em conjuntos de treino e teste. Isso é feito para garantir que o modelo consiga prever corretamente novos dados, nunca vistos antes.
Como estamos trabalhando com séries temporais, não podemos usar métodos aleatórios de divisão, pois isso permitiria que o modelo “soubesse” o futuro.
Uma função para imprimir o início e o fim de um DataFrame está disponível como show_start_end(), que recebe um DataFrame como único argumento e retorna uma string.
Os dados estão disponíveis como environment.
Este exercício faz parte do curso
Analisando Dados de IoT em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define the split day
limit_day = ____
# Split the data
train_env = ____[____]
test_env = ____[____]