Divide los datos en entrenamiento y prueba
¡Último paso antes de pasar a construir el modelo de regresión! Aquí, seguirás los pasos para identificar los nombres de la variable objetivo y de las columnas de características, extraer los datos y dividirlos en entrenamiento y prueba.
Las bibliotecas pandas y numpy se han cargado como pd y np, respectivamente. Las variables de entrada se han importado como el conjunto de datos features, y la variable objetivo que creaste en el ejercicio anterior se ha importado por ti como Y.
Este ejercicio forma parte del curso
Machine Learning para marketing en Python
Instrucciones del ejercicio
- Guarda el nombre de la columna del identificador de cliente como una lista.
- Selecciona los nombres de las columnas de características excluyendo el identificador de cliente.
- Extrae las características como
X. - Divide los datos en entrenamiento y prueba usando la función
train_test_split().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Store customer identifier column name as a list
custid = ['___']
# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]
# Extract the features as `X`
X = features[___]
# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)