Je eerste pipeline - nog een keer!

Terug bij de hartritmestoornis-startup staat je maandelijkse evaluatie voor de deur, en daarbij kijkt een expert Python-programmeur je code na. Je besluit op te ruimen volgens best practices en je script voor featureselectie en random forest-classificatie te vervangen door een pipeline. Je gebruikt een trainingsgegevensset die beschikbaar is als X_train en y_train, en een aantal modules: RandomForestClassifier, SelectKBest() en f_classif() voor featureselectie, en daarnaast GridSearchCV en Pipeline.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Maak een pipeline met de featureselector uit de voorbeeldcode en een random forest-classifier. Noem de eerste stap feature_selection.
Voeg twee key-valueparen toe in params: één voor het aantal features k in de selector met waarden 10 en 20, en één voor n_estimators in het forest met mogelijke waarden 2 en 5.
Initialiseer een GridSearchCV-object met de gegeven pipeline en parametergrid.
Fit het object op de data en print de best presterende parametercombinatie.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create pipeline with feature selector and classifier
pipe = ___([
    (___, SelectKBest(f_classif)),
    ('clf', ___(random_state=2))])

# Create a parameter grid
params = {
   'feature_selection__k':___,
    ___:[2, 5]}

# Initialize the grid search object
grid_search = ___(___, ___=params)

# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen