Divisão treino-teste

Neste capítulo, você vai continuar trabalhando com o conjunto de dados ANSUR. Antes de construir um modelo, primeiro decida qual variável você quer prever. Neste caso, você vai prever o gênero.

Você precisa extrair do conjunto de dados a coluna que contém essa variável e depois dividir os dados em conjuntos de treino e teste. O conjunto de treino será usado para treinar o modelo e o de teste servirá para avaliar seu desempenho em dados nunca vistos.

ansur_df já foi carregado para você.

Este exercício faz parte do curso

Redução de Dimensionalidade em Python

Ver curso

Instruções do exercício

Importe a função train_test_split de sklearn.model_selection.
Atribua a coluna 'Gender' à variável y.
Remova a coluna 'Gender' do DataFrame e atribua o resultado a X.
Defina o tamanho do teste como 30% para fazer uma divisão de 70% treino e 30% teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import train_test_split()
from ____.____ import ____

# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]

# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")

Editar e executar o código