Train - test split
En este capítulo seguirás trabajando con el conjunto de datos ANSUR. Antes de poder construir un modelo, primero debes decidir qué variable quieres predecir. En este caso, vas a predecir el género.
Tienes que extraer la columna que contiene esta variable del conjunto de datos y luego dividir los datos en un conjunto de entrenamiento y otro de prueba. Usarás el conjunto de entrenamiento para entrenar el modelo y el de prueba para comprobar su rendimiento con datos no vistos.
ansur_df ya se ha cargado por ti.
Este ejercicio forma parte del curso
Reducción de dimensionalidad en Python
Instrucciones del ejercicio
- Importa la función
train_test_splitdesklearn.model_selection. - Asigna la columna
'Gender'a y. - Elimina la columna
'Gender'del DataFrame y asigna el resultado aX. - Establece el tamaño del conjunto de prueba en un 30% para realizar una división de 70% entrenamiento y 30% prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")