Valutazione di un classificatore di previsione del diabete
In questo capitolo lavorerai con il dataset diabetes_df introdotto in precedenza.
L'obiettivo è quello di prevedere se ogni individuo ha la probabilità di avere il diabete in base alle caratteristiche dell'indice di massa corporea (BMI) e dell'età (in anni). Si tratta quindi di un problema di classificazione binaria. Un valore target di 0 indica che l'individuo non ha il diabete, mentre un valore di 1 indica che l'individuo ha il diabete.
diabetes_df è stato precaricato come DataFrame di pandas e suddiviso in X_train, X_test, y_train e y_test. Inoltre, è stato istanziato un KNeighborsClassifier() e assegnato a knn.
Adatterai il modello, farai delle previsioni sul set di prova, quindi produrrai una matrice di confusione e un rapporto di classificazione.
Questo esercizio fa parte del corso
Apprendimento supervisionato con scikit-learn
Istruzioni dell'esercizio
- Importazione di
confusion_matrixeclassification_report. - Adatta il modello ai dati di formazione.
- Prevedere le etichette dell'insieme di prova, memorizzando i risultati come
y_pred. - Calcola e stampa la matrice di confusione e il rapporto di classificazione delle etichette di prova rispetto alle etichette previste.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import confusion matrix
____
knn = KNeighborsClassifier(n_neighbors=6)
# Fit the model to the training data
____
# Predict the labels of the test data: y_pred
y_pred = ____
# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))