Acurácia após redução de dimensionalidade
Você vai reduzir o overfitting com a ajuda de redução de dimensionalidade. Neste caso, você vai aplicar uma forma mais drástica de redução selecionando apenas uma única coluna que traz boa informação para diferenciar entre gêneros. Você repetirá as etapas de separação treino-teste, ajuste do modelo e predição para comparar a acurácia nos dados de teste versus treinamento.
Todos os pacotes relevantes e y já foram pré-carregados.
Este exercício faz parte do curso
Redução de Dimensionalidade em Python
Instruções do exercício
- Selecione apenas a coluna de circunferência do pescoço (
'neckcircumferencebase') deansur_df. - Divida os dados, instancie um classificador e ajuste o modelo. Isso já foi feito para você.
- Mais uma vez, calcule as pontuações de acurácia tanto no conjunto de treino quanto no de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]
# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)
# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))
print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")