Divisão treino-teste
Neste capítulo, você vai continuar trabalhando com o conjunto de dados ANSUR. Antes de construir um modelo, primeiro decida qual variável você quer prever. Neste caso, você vai prever o gênero.
Você precisa extrair do conjunto de dados a coluna que contém essa variável e depois dividir os dados em conjuntos de treino e teste. O conjunto de treino será usado para treinar o modelo e o de teste servirá para avaliar seu desempenho em dados nunca vistos.
ansur_df já foi carregado para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em Python
Instruções do exercício
- Importe a função
train_test_splitdesklearn.model_selection. - Atribua a coluna
'Gender'à variável y. - Remova a coluna
'Gender'do DataFrame e atribua o resultado aX. - Defina o tamanho do teste como 30% para fazer uma divisão de 70% treino e 30% teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import train_test_split()
from ____.____ import ____
# Select the Gender column as the feature to be predicted (y)
y = ansur_df[____]
# Remove the Gender column to create the training data
X = ansur_df.____(____, ____)
# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)
print(f"{X_test.shape[0]} rows in test set vs. {X_train.shape[0]} in training set, {X_test.shape[1]} Features.")