Train/Test split
Para evitar el sobreajuste, en Machine Learning es habitual dividir los datos en conjuntos de entrenamiento y prueba. Esto se hace para asegurarse de que el modelo pueda predecir correctamente datos nuevos, no vistos.
Como estamos trabajando con series temporales, no podemos usar métodos de división aleatoria, ya que eso permitiría al modelo “conocer” el futuro.
Dispones de una función para imprimir el inicio y el final de un DataFrame, show_start_end(), que recibe un DataFrame como único argumento y devuelve una cadena.
Los datos están disponibles como environment.
Este ejercicio forma parte del curso
Análisis de datos de IoT en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Define the split day
limit_day = ____
# Split the data
train_env = ____[____]
test_env = ____[____]