Train - test split

En este capítulo seguirás trabajando con el conjunto de datos ANSUR. Antes de poder construir un modelo, primero debes decidir qué variable quieres predecir. En este caso, vas a predecir el género.

Tienes que extraer la columna que contiene esta variable del conjunto de datos y luego dividir los datos en un conjunto de entrenamiento y otro de prueba. Usarás el conjunto de entrenamiento para entrenar el modelo y el de prueba para comprobar su rendimiento con datos no vistos.

ansur_df ya se ha cargado por ti.

Este ejercicio forma parte del curso

Reducción de dimensionalidad en Python

Ver curso

Instrucciones del ejercicio

Importa la función train_test_split de sklearn.model_selection.
Asigna la columna 'Gender' a y.
Elimina la columna 'Gender' del DataFrame y asigna el resultado a X.
Establece el tamaño del conjunto de prueba en un 30% para realizar una división de 70% entrenamiento y 30% prueba.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")

Editar y ejecutar código