Kostenanalyse in de praktijk

Je werkt in deze oefening verder met de kredietgegevensset. Onthoud dat een "positief" in deze set "slechte credit" betekent, dus een klant die zijn lening niet heeft terugbetaald, en een "negatief" een klant die zonder problemen is blijven betalen. De bankmanager liet weten dat de bank gemiddeld 10K winst maakt op elke "goed risico"-klant, maar 150K verliest op elke "slecht risico"-klant. Jouw algoritme wordt gebruikt om aanvragers te screenen: wie als "negatief" wordt gelabeld, krijgt een lening; de "positieven" worden afgewezen. Wat zijn de totale kosten van je classifier? De data is beschikbaar als X_train, X_test, y_train en y_test. De functies confusion_matrix(), f1_score(), precision_score() en RandomForestClassifier() zijn beschikbaar.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Train een random forest-classifier op de trainingsdata.
Gebruik het model om de testdata te labelen.
Haal de false negatives en false positives uit confusion_matrix(). Je moet de matrix platmaken.
Een "goede" klant ten onrechte als "slecht" classificeren betekent dat de bank de kans mist om 10K winst te maken. Een "slechte" klant ten onrechte als "goed" classificeren betekent dat de bank 150K verliest doordat de klant zijn lening niet terugbetaalt.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit a random forest classifier to the training data
clf = ____(random_state=2).fit(____, ____)

# Label the test data
preds = clf.____(____)

# Get false positives/negatives from the confusion matrix
tn, ____, ____, tp = confusion_matrix(y_test, preds).____()

# Now compute the cost using the manager's advice
cost = fp*____ + fn*____

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen