Dividir los datos de empleados
El sobreajuste del conjunto de datos es un problema común en analítica. Ocurre cuando un modelo funciona bien en el conjunto con el que se desarrolló, pero no generaliza fuera de él.
Para favorecer la generalización del modelo, se realiza una división train/test: desarrollas el modelo con la muestra de entrenamiento y lo pruebas más tarde con la muestra de prueba.
En este ejercicio, vas a dividir target y features en conjuntos de entrenamiento y prueba con una proporción del 75 %/25 %, respectivamente.
Este ejercicio forma parte del curso
Analítica de RR. HH.: Predicción de rotación de empleados en Python
Instrucciones del ejercicio
- Importa
train_test_splitdel módulosklearn.model_selection - Usa
train_test_split()para dividir tu conjunto de datos en conjuntos de entrenamiento y prueba - Asigna el 25 % de tus observaciones al conjunto de prueba
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)