Je eerste pipeline

Je collega heeft AdaBoostClassifier gebruikt voor de kredietbeoordelingsgegevensset. Jij wilt ook een random forest-classifier uitproberen. In deze oefening pas je deze classifier toe op de data en vergelijk je hem met AdaBoostClassifier. Zorg dat je de data opsplitst in train/test om overfitting te voorkomen. De data is al geladen en zo getransformeerd dat alle features numeriek zijn. De features staan in X en de labels in y. De module RandomForestClassifier is ook al geladen.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the data into train and test, with 20% as test
X_train, ____, ____, y_test = train_test_split(
  X, y, ____=0.2, random_state=1)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Begin gratis met de cursus

In dit hoofdstuk fris je de basis van een supervised learning-workflow op, inclusief het trainen, afstemmen en selecteren van modellen, feature engineering en -selectie, en technieken voor het splitsen van data. Je ontdekt hoe de stappen in een workflow van elkaar afhangen, en herkent hoe ze kunnen bijdragen aan of juist beschermen tegen overfitting: de grootste vijand van de data scientist. Aan het einde van dit hoofdstuk ben je al vaardig met supervised learning en klaar om in latere hoofdstukken de meer gevorderde stof in te duiken.

Exercise 1: Pipelines voor supervised learning Exercise 2: Feature engineering Exercise 3: Je eerste pipeline

Huidige oefening

Exercise 4: Modelcomplexiteit en overfitting Exercise 5: Grid search CV voor modelcomplexiteit Exercise 6: Aantal bomen en estimators Exercise 7: Feature engineering en overfitting Exercise 8: Categorische encoderingen Exercise 9: Featuretransformaties Exercise 10: Alles samenbrengen

In het vorige hoofdstuk heb je je kennis van de standaard supervised learning-workflows geperfectioneerd. In dit hoofdstuk bekijk je kritisch hoe expertkennis wordt verwerkt in supervised learning. Dat doe je door de juiste analyseeenheid te bepalen — wat feature engineering over meerdere databronnen kan vereisen —, door het soms onvolmaakte proces van het labelen van voorbeelden, en door het specificeren van een loss-functie die de echte bedrijfswaarde van fouten van je Machine Learning-model vastlegt.

Exercise 1: Datafusie Exercise 2: Is de bron of de bestemming slecht?Exercise 3: Feature engineering op gegroepeerde data Exercise 4: Imperfecte labels Exercise 5: Van een heuristiek een classifier maken Exercise 6: Heuristieken combineren Exercise 7: Omgaan met labelruis Exercise 8: Lossfuncties Deel I Exercise 9: Herinnering: prestatieratio's Exercise 10: Kostenanalyse in de praktijk Exercise 11: Berekeningen met de confusion matrix Exercise 12: Lossfuncties Deel II Exercise 13: Standaard drempelwaarde Exercise 14: De drempel optimaliseren Exercise 15: Alles samenbrengen

In het vorige hoofdstuk heb je verschillende manieren gebruikt om feedback van experts in je workflow op te nemen en te evalueren op een manier die aansluit bij bedrijfswaarde. Nu ga je oefenen met de vaardigheden die nodig zijn om je model te productiseren en ervoor te zorgen dat het daarna goed blijft presteren door het iteratief te verbeteren. Je leert ook hoe je dataset shift herkent en het effect beperkt dat een veranderende omgeving kan hebben op de nauwkeurigheid van je model.

Exercise 1: Van workflows naar pipelines Exercise 2: Je eerste pipeline - nog een keer!Exercise 3: Aangepaste scorers in pipelines Exercise 4: Model implementatie Exercise 5: Pickles Exercise 6: Aangepaste function transformers in pipelines Exercise 7: Itereren zonder overfitting Exercise 8: Daag de kampioen uit Exercise 9: Statistieken van cross-validatie Exercise 10: Dataset shift Exercise 11: De venstergrootte afstemmen Exercise 12: Alles samenbrengen

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen