Avaliação de um classificador para previsão de diabetes
Neste capítulo, você vai trabalhar com o conjunto de dados diabetes_df
apresentado anteriormente.
O objetivo é prever se cada indivíduo tem ou não probabilidade de apresentar diabetes com base nas variáveis independentes índice de massa corporal (BMI, Body Mass Index) e idade (em anos). Portanto, trata-se de um problema de classificação binária. Uma variável dependente com valor igual a 0
indica que o indivíduo não tem diabetes, enquanto o valor 1
indica que o indivíduo tem diabetes.
diabetes_df
foi pré-carregado para você como um DataFrame do pandas e dividido em X_train
, X_test
, y_train
e y_test
. Além disso, um KNeighborsClassifier()
foi instanciado e atribuído a knn
.
Você deve ajustar o modelo, fazer previsões com base no conjunto de testes e, em seguida, gerar uma matriz de confusão e um relatório de classificação.
Este exercício faz parte do curso
Aprendizado Supervisionado com o scikit-learn
Instruções de exercício
- Importe
confusion_matrix
eclassification_report
. - Ajuste o modelo aos dados de treinamento.
- Preveja os rótulos do conjunto de teste, armazenando os resultados como
y_pred
. - Calcule e imprima a matriz de confusão e o relatório de classificação para os rótulos de teste em comparação com os rótulos previstos.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import confusion matrix
____
knn = KNeighborsClassifier(n_neighbors=6)
# Fit the model to the training data
____
# Predict the labels of the test data: y_pred
y_pred = ____
# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))