Dividir los datos de empleados

El sobreajuste del conjunto de datos es un problema común en analítica. Ocurre cuando un modelo funciona bien en el conjunto con el que se desarrolló, pero no generaliza fuera de él.

Para favorecer la generalización del modelo, se realiza una división train/test: desarrollas el modelo con la muestra de entrenamiento y lo pruebas más tarde con la muestra de prueba.

En este ejercicio, vas a dividir target y features en conjuntos de entrenamiento y prueba con una proporción del 75 %/25 %, respectivamente.

Este ejercicio forma parte del curso

Analítica de RR. HH.: Predicción de rotación de empleados en Python

Ver curso

Instrucciones del ejercicio

Importa train_test_split del módulo sklearn.model_selection
Usa train_test_split() para dividir tu conjunto de datos en conjuntos de entrenamiento y prueba
Asigna el 25 % de tus observaciones al conjunto de prueba

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)

Editar y ejecutar código