Pickles

Eindelijk is het tijd om je eerste model naar productie te brengen. Het is een random forest-classifier die je als baseline gebruikt, terwijl je verder werkt aan een beter alternatief. Je hebt toegang tot de data, gesplitst in train en test met de gebruikelijke namen X_train, X_test, y_train en y_test, en tot de modules RandomForestClassifier() en pickle, waarvan je de methoden .load() en .dump() nodig hebt voor deze oefening.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Train een random forest-classifier op de data. Zet de willekeurige seed op 42 om je resultaten reproduceerbaar te maken.
Schrijf het model met pickle weg naar een bestand. Open het doelbestand met de syntaxis with open(____) as ____.
Laad nu het model uit het bestand in een andere variabelenaam, clf_from_file.
Sla de voorspellingen van het geladen model op in een variabele preds.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen