Valutazione di un classificatore di previsione del diabete

In questo capitolo lavorerai con il dataset diabetes_df introdotto in precedenza.

L'obiettivo è quello di prevedere se ogni individuo ha la probabilità di avere il diabete in base alle caratteristiche dell'indice di massa corporea (BMI) e dell'età (in anni). Si tratta quindi di un problema di classificazione binaria. Un valore target di 0 indica che l'individuo non ha il diabete, mentre un valore di 1 indica che l'individuo ha il diabete.

diabetes_df è stato precaricato come DataFrame di pandas e suddiviso in X_train, X_test, y_train e y_test. Inoltre, è stato istanziato un KNeighborsClassifier() e assegnato a knn.

Adatterai il modello, farai delle previsioni sul set di prova, quindi produrrai una matrice di confusione e un rapporto di classificazione.

Questo esercizio fa parte del corso

Apprendimento supervisionato con scikit-learn

Visualizza corso

Istruzioni dell'esercizio

Importazione di confusion_matrix e classification_report.
Adatta il modello ai dati di formazione.
Prevedere le etichette dell'insieme di prova, memorizzando i risultati come y_pred.
Calcola e stampa la matrice di confusione e il rapporto di classificazione delle etichette di prova rispetto alle etichette previste.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import confusion matrix
____

knn = KNeighborsClassifier(n_neighbors=6)

# Fit the model to the training data
____

# Predict the labels of the test data: y_pred
y_pred = ____

# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Apprendimento supervisionato con scikit-learn

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo ti verranno presentati i problemi di classificazione e imparerai a risolverli con tecniche di apprendimento supervisionato. Imparerai a suddividere i dati in training e test set, addestrare un modello, fare previsioni e valutarne l'accuratezza. Scoprirai il rapporto tra complessità del modello e prestazioni, applicando quanto appreso a un insieme di dati di churn, in cui classificherai lo stato di abbandono dei clienti di un'azienda di telecomunicazioni.

Exercise 1: Apprendimento automatico con scikit-learn Exercise 2: Classificazione binaria Exercise 3: Il flusso di lavoro dell'apprendimento supervisionato Exercise 4: La sfida della classificazione Exercise 5: k-Nearest Neighbors: Fit Exercise 6: k-Nearest Neighbors: Prevedere Exercise 7: Misurare le prestazioni del modello Exercise 8: Divisione treno/test + calcolo dell'accuratezza Exercise 9: Overfitting e underfitting Exercise 10: Visualizzazione della complessità del modello

In questo capitolo verrai introdotto alla regressione e costruirai modelli per prevedere i valori di vendita utilizzando un insieme di dati sulla spesa pubblicitaria. Imparerai il funzionamento della regressione lineare e le metriche di prestazione più comuni, come R-squared e root mean squared error. Eseguirai una cross-validation a k fold e applicherai la regolarizzazione ai modelli di regressione per ridurre il rischio di overfitting.

Exercise 1: Introduzione alla regressione Exercise 2: Creazione di caratteristiche Exercise 3: Costruire un modello di regressione lineare Exercise 4: Visualizzazione di un modello di regressione lineare Exercise 5: Le basi della regressione lineare Exercise 6: Adattamento e previsione per la regressione Exercise 7: Valutare le prestazioni della regressione Exercise 8: Convalida incrociata Exercise 9: Convalida incrociata per l'R-squared Exercise 10: Analisi delle metriche di convalida incrociata Exercise 11: Regressione regolarizzata Exercise 12: Regressione regolarizzata: Crinale Exercise 13: Regressione Lasso per l'importanza delle caratteristiche

Dopo aver addestrato i modelli, imparerai a valutarli. In questo capitolo ti verranno presentate diverse metriche e una tecnica di visualizzazione per analizzare le prestazioni dei modelli di classificazione con scikit-learn. Imparerai anche a ottimizzare i modelli di classificazione e regressione tramite il tuning degli iperparametri.

Exercise 1: Quanto è bello il tuo modello?Exercise 2: Decidere una metrica primaria Exercise 3: Valutazione di un classificatore di previsione del diabete

Esercizio attuale

Exercise 4: Regressione logistica e curva ROC Exercise 5: Costruire un modello di regressione logistica Exercise 6: La curva ROC Exercise 7: ROC AUC Exercise 8: Regolazione dell'iperparametro Exercise 9: Regolazione degli iperparametri con GridSearchCV Exercise 10: Sintonizzazione degli iperparametri con RandomizedSearchCV

Impara a imputare i valori mancanti, convertire i dati categorici in valori numerici, scalare i dati, valutare contemporaneamente più modelli di apprendimento supervisionato e creare pipeline per rendere più efficiente il tuo flusso di lavoro!

Exercise 1: Pre-elaborazione dei dati Exercise 2: Creazione di variabili dummy Exercise 3: Regressione con caratteristiche categoriche Exercise 4: Gestione dei dati mancanti Exercise 5: Eliminazione dei dati mancanti Exercise 6: Pipeline per la previsione del genere di canzone: I Exercise 7: Pipeline per la previsione del genere di canzone: II Exercise 8: Centratura e scalatura Exercise 9: Centratura e scalatura per la regressione Exercise 10: Centratura e scalatura per la classificazione Exercise 11: Valutazione di più modelli Exercise 12: Visualizzazione delle prestazioni del modello di regressione Exercise 13: Predire sul set di test Exercise 14: Visualizzazione delle prestazioni del modello di classificazione Exercise 15: Pipeline per la previsione della popolarità delle canzoni Exercise 16: Congratulazioni