De beoordeling van een app voorspellen

Nu je in de vorige oefening de Google-appsgegevensset hebt verkend, ga je een model bouwen dat de beoordeling van een app voorspelt op basis van een subset van de kenmerken.

Hiervoor gebruik je scikit-learn’s DecisionTreeRegressor. Omdat beslissingsbomen de bouwstenen zijn van veel ensemblemodellen, is het handig om je geheugen hierover op te frissen; dat helpt je de rest van deze cursus.

We gebruiken de MAE (mean absolute error) als evaluatiemetriek. Deze metriek is goed te interpreteren, omdat hij het gemiddelde absolute verschil tussen de werkelijke en voorspelde beoordelingen weergeeft.

Alle benodigde modules zijn al voor je geïmporteerd. De features en de target zijn respectievelijk beschikbaar in de variabelen X en y.

Deze oefening maakt deel uit van de cursus

Ensemblemethoden in Python

Oefeninstructies

Gebruik train_test_split() om X en y op te splitsen in train- en testsets. Gebruik 20%, of 0.2, als testgrootte.
Instantieer een DecisionTreeRegressor(), reg_dt, met de volgende hyperparameters: min_samples_leaf = 3 en min_samples_split = 9.
Fit de regressieboom op de trainingsset met .fit().
Voorspel de labels van de testset met .predict().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split into train (80%) and test (20%) sets
X_train, X_test, y_train, y_test = ____(____, ____, ____, random_state=42)

# Instantiate the regressor
reg_dt = ____(____, ____, random_state=500)

# Fit to the training set
____

# Evaluate the performance of the model on the test set
y_pred = ____
print('MAE: {:.3f}'.format(mean_absolute_error(y_test, y_pred)))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Ensemblemethoden in Python

SkillTag.level.advancedSkillTag.label

4.9+

Begin gratis met de cursus

Vind je het lastig om te bepalen welk van de modellen die je hebt gebouwd het beste is voor jouw probleem? Laat dat los en gebruik ze gewoon allemaal! In dit hoofdstuk leer je hoe je meerdere modellen kunt combineren tot één geheel met "Voting" en "Averaging". Je gebruikt deze om de beoordelingen van apps in de Google Play Store te voorspellen, of een Pokémon legendarisch is, en welke personages zullen sterven in Game of Thrones!

Exercise 1: Introductie tot ensemblemethoden Exercise 2: Google-appgegevens verkennen Exercise 3: De beoordeling van een app voorspellen

Huidige oefening

Exercise 4: Voting Exercise 5: Het beste model kiezen Exercise 6: Je eerste ensemble samenstellen Exercise 7: Je ensemble evalueren Exercise 8: Gemiddelden Exercise 9: Reis naar Westeros Exercise 10: Voorspellen wie er sterft in GoT Exercise 11: Soft vs. hard voting

Bagging is de ensemblemethode achter krachtige Machine Learning-algoritmen zoals random forests. In dit hoofdstuk leer je de theorie achter deze techniek en bouw je je eigen bagging-modellen met scikit-learn.

Exercise 1: De kracht van ‘zwakke’ modellen Exercise 2: Beperkte en onbeperkte beslisbomen Exercise 3: "Zwakke" beslisboom Exercise 4: Bootstrap-aggregatie Exercise 5: Trainen met bootstrapping Exercise 6: Een eerste poging tot bagging Exercise 7: BaggingClassifier: de fijne kneepjes Exercise 8: Bagging: de scikit-learn-manier Exercise 9: De out-of-bag-score controleren Exercise 10: Bagging-parameters: tips en tricks Exercise 11: De UCI SECOM-data verkennen Exercise 12: Een complexer bagging-model Exercise 13: Hyperparameters voor bagging afstemmen

Boosting is een klasse van ensemble learning-algoritmen waar prijswinnende modellen zoals AdaBoost onder vallen. In dit hoofdstuk leer je over dit bekroonde model en gebruik je het om de opbrengst van prijswinnende films te voorspellen! Je leert ook over gradient boosting-algoritmen zoals CatBoost en XGBoost.

Exercise 1: De effectiviteit van geleidelijk leren Exercise 2: Kennismaking met de filmdatabase Exercise 3: Filmeigenschappen verkennen Exercise 4: Filmomzet voorspellen Exercise 5: Boosting voor voorspelde omzet Exercise 6: Adaptive boosting: bekroond model Exercise 7: Je eerste AdaBoost-model Exercise 8: Boomgebaseerde AdaBoost-regressie Exercise 9: Haal alles uit AdaBoost Exercise 10: Gradient boosting Exercise 11: Google-apprecensies opnieuw bekijken Exercise 12: Sentimentanalyse met GBM Exercise 13: Verschillende smaken van gradient boosting Exercise 14: Filmomzet voorspellen met CatBoost Exercise 15: Boosting-wedstrijd: Light vs Extreme

Maak je klaar om te zien hoe alles zich opstapelt! In dit laatste hoofdstuk leer je over de stacking-ensemblemethode. Je leert hoe je deze implementeert met scikit-learn én met de mlxtend-bibliotheek! Je past stacking toe om de eetbaarheid van Noord-Amerikaanse paddenstoelen te voorspellen en kijkt opnieuw naar de beoordelingen van Google-apps met deze geavanceerdere aanpak.

Exercise 1: De intuïtie achter stacking Exercise 2: De mushroom-gegevensset verkennen Exercise 3: Eetbaarheid van paddenstoelen voorspellen Exercise 4: K-nearest neighbors voor paddenstoelen Exercise 5: Bouw je eerste stacked ensemble Exercise 6: Stacking toepassen om app-beoordelingen te voorspellen Exercise 7: De stacking-classifier bouwen Exercise 8: Gestapelde voorspellingen voor app-beoordelingen Exercise 9: Aan de slag met mlxtend!Exercise 10: Een eerste poging met mlxtend Exercise 11: Terug naar regressie met stacking Exercise 12: Paddenstoelen: een kwestie van leven of dood Exercise 13: Alles samenvoegen met ensembling