ComenzarEmpieza gratis

`KFold()` de scikit-learn

Acabas de ejecutar el código de un compañero que crea un modelo de random forest y calcula una exactitud fuera de muestra. Notaste que el código de tu compañero no fijaba una semilla aleatoria y que los errores que encontraste eran completamente diferentes de los que él reportó.

Para obtener una mejor estimación de cuán preciso será este modelo de random forest con datos nuevos, has decidido generar algunos índices para usar en una validación cruzada KFold.

Este ejercicio forma parte del curso

Validación de modelos en Python

Ver curso

Instrucciones del ejercicio

  • Llama al método KFold() para dividir los datos usando cinco particiones, barajado (shuffling) y un estado aleatorio de 1111.
  • Usa el método split() de KFold sobre X.
  • Imprime el número de índices tanto en las listas de índices de entrenamiento como de validación.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))
Editar y ejecutar código