Aangepaste function transformers in pipelines

Je hebt op een gegeven moment gehoord dat de sensoren mogelijk slechter presteren bij obese personen. Eerder pakte je dat aan met wegingen, maar nu denk je dat deze informatie ook handig kan zijn voor feature engineering. Daarom besluit je het geregistreerde gewicht van een persoon te vervangen door een indicator of iemand obees is. Je wilt dit met pipelines doen. Je hebt numpy als np beschikbaar, RandomForestClassifier(), FunctionTransformer() en GridSearchCV().

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Definieer een aangepaste feature-extractor. Dit is een functie die een aangepaste kopie van de invoer teruggeeft.
Vervang elke waarde in de eerste kolom door een indicator of die waarde boven een drempel ligt, gegeven door een veelvoud van het kolomgemiddelde.
Zet de bovenstaande feature-extractor om naar een transformer en plaats deze in een pipeline samen met een random forest-classifier.
Gebruik grid search CV om de waarden 1, 2 en 3 te proberen voor de vermenigvuldigingsconstante multiplier in je feature-extractor.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define a feature extractor to flag very large values
def more_than_average(X, multiplier=1.0):
  Z = ____
  Z[:,1] = ____ > multiplier*np.mean(Z[:,1])
  return Z

# Convert your function so that it can be used in a pipeline
pipe = Pipeline([
  ('ft', ____(____)),
  ('clf', RandomForestClassifier(random_state=2))])

# Optimize the parameter multiplier using GridSearchCV
params = ____
grid_search = GridSearchCV(pipe, param_grid=params)

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen