Divide los datos en entrenamiento y prueba
¡Ya estás listo para crear un modelo de Machine Learning de extremo a extremo siguiendo unos pocos pasos sencillos! Profundizarás en los matices del modelado en los próximos capítulos, pero por ahora practicarás y entenderás los pasos clave.
Las variables independientes se han cargado por ti como un DataFrame de pandas llamado X, y los valores dependientes como una Series de pandas llamada Y.
Además, la función train_test_split se ha cargado desde la biblioteca sklearn. Ahora crearás los conjuntos de entrenamiento y de prueba, y luego comprobarás que los datos se han dividido correctamente.
Este ejercicio forma parte del curso
Machine Learning para marketing en Python
Instrucciones del ejercicio
- Divide
XyYen conjuntos de entrenamiento y prueba con un 25% de los datos destinado a prueba. - Asegúrate de que el conjunto de entrenamiento tenga solo el 75% de los datos originales.
- Asegúrate de que el conjunto de prueba tenga solo el 25% de los datos originales.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])