Featuretransformaties

Je bespreekt de kredietgegevensset met de bankmanager. Zij geeft aan dat de veiligste leningaanvragen doorgaans om middelhoge kredietbedragen vragen. Waarden die te laag of te hoog zijn, wijzen op hoog risico. Dit betekent dat er een niet-lineaire relatie kan bestaan tussen deze variabele en de klasse. Je wilt deze hypothese testen. Je gaat een niet-lineaire transformatie van de feature bouwen. Daarna beoordeel je welke van de twee features de klasse beter voorspelt met SelectKBest() en de chi2()-metric, die beide al zijn ingeladen.

De data is beschikbaar als een pandas DataFrame credit, met de klasse in de kolom class. Ook zijn pandas als pd en numpy als np al ingeladen.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Definieer een functie die een numerieke vector transformeert door het absolute verschil te nemen tussen elke waarde en de gemiddelde waarde van de vector.
Pas deze transformatie toe op de kolom credit_amount van de gegevensset en sla het op in een nieuwe kolom diff.
Maak een SelectKBest() feature selector om één van de twee kolommen, credit_amount en diff, te kiezen met de chi2()-metric.
Bekijk de resultaten.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Function computing absolute difference from column mean
def abs_diff(x):
    return ____(x-____)

# Apply it to the credit amount and store to new column
credit['diff'] = ____

# Create a feature selector with chi2 that picks one feature
sk = ____(chi2, ____)

# Use the selector to pick between credit_amount and diff
sk.fit(____, credit['class'])

# Inspect the results
sk.____()

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen