Alles samenbrengen

Je hebt twee zorgen over je pipeline bij de startup voor hartritmestoornis-detectie:

De app is getraind op patiënten van alle leeftijden, maar wordt vooral gebruikt door fitnessgebruikers die meestal jong zijn. Je vermoedt dat dit een geval van domeinverschuiving is en wilt daarom alle voorbeelden boven de 50 jaar negeren.
Je bent nog steeds bezorgd over overfitting, dus je wilt kijken of het minder complex maken van de random forest-classifier en het selecteren van enkele features daarbij kan helpen.

Je maakt een pipeline met een featureselectiestap SelectKBest() en een RandomForestClassifier, die beide al zijn geïmporteerd. Je hebt ook toegang tot GridSearchCV(), Pipeline, numpy als np en pickle. De data is beschikbaar als arrh.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Maak een pipeline met SelectKBest() als stap ft en RandomForestClassifier() als stap clf.
Maak een parameterrooster om k in SelectKBest() en max_depth in RandomForestClassifier() af te stemmen.
Gebruik GridSearchCV() om je pipeline te optimaliseren tegen dat rooster en data die alleen personen onder de 50 jaar bevat.
Sla de geoptimaliseerde pipeline op naar een pickle voor productie.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a pipeline 
pipe = Pipeline([
  ('ft', ____), ('clf', ____(random_state=2))])

# Create a parameter grid
grid = {'ft__k':[5, 10], '____':[10, 20]}

# Execute grid search CV on a dataset containing under 50s
grid_search = ____(pipe, param_grid=grid)
arrh = arrh.____[____(arrh['age'] < 50)]
____.____(arrh.drop('class', 1), arrh['class'])

# Push the fitted pipeline to production
with ____('pipe.pkl', ____) as file:
    pickle.dump(____, file)

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen