Analisi dei costi nel mondo reale

Lavorerai ancora sul dataset di credito per questo esercizio. Ricorda che un "positivo" in questo dataset significa "bad credit", cioè un cliente che è andato in default sul prestito, mentre un "negativo" è un cliente che ha continuato a pagare senza problemi. Il direttore della banca ti ha informato che la banca guadagna in media 10K da ogni cliente "good risk", ma perde 150K da ogni cliente "bad risk". Il tuo algoritmo verrà usato per selezionare i richiedenti, quindi chi è etichettato come "negative" riceverà un prestito, mentre i "positive" verranno rifiutati. Qual è il costo totale del tuo classificatore? I dati sono disponibili come X_train, X_test, y_train e y_test. Sono disponibili anche le funzioni confusion_matrix(), f1_score(), precision_score() e RandomForestClassifier().

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Esegui il fitting di un classificatore random forest sui dati di training.
Usalo per etichettare i dati di test.
Estrai i falsi negativi e i falsi positivi da confusion_matrix(). Dovrai appiattire la matrice.
Classificare per errore un cliente "good" come "bad" significa che la banca avrebbe perso l’opportunità di guadagnare 10K. Classificare per errore un cliente "bad" come "good" significa che la banca avrebbe perso 150K a causa del default del cliente sul prestito.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Fit a random forest classifier to the training data
clf = ____(random_state=2).fit(____, ____)

# Label the test data
preds = clf.____(____)

# Get false positives/negatives from the confusion matrix
tn, ____, ____, tp = confusion_matrix(y_test, preds).____()

# Now compute the cost using the manager's advice
cost = fp*____ + fn*____

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali