ComenzarEmpieza gratis

Divide los datos en entrenamiento y prueba

¡Ya estás listo para crear un modelo de Machine Learning de extremo a extremo siguiendo unos pocos pasos sencillos! Profundizarás en los matices del modelado en los próximos capítulos, pero por ahora practicarás y entenderás los pasos clave.

Las variables independientes se han cargado por ti como un DataFrame de pandas llamado X, y los valores dependientes como una Series de pandas llamada Y.

Además, la función train_test_split se ha cargado desde la biblioteca sklearn. Ahora crearás los conjuntos de entrenamiento y de prueba, y luego comprobarás que los datos se han dividido correctamente.

Este ejercicio forma parte del curso

Machine Learning para marketing en Python

Ver curso

Instrucciones del ejercicio

  • Divide X y Y en conjuntos de entrenamiento y prueba con un 25% de los datos destinado a prueba.
  • Asegúrate de que el conjunto de entrenamiento tenga solo el 75% de los datos originales.
  • Asegúrate de que el conjunto de prueba tenga solo el 25% de los datos originales.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)

# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])

# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])
Editar y ejecutar código