Regressie met categorische features

Nu je music_dummies hebt gemaakt, met binaire features voor het genre van elk nummer, is het tijd om een ridge-regressiemodel te bouwen om de populariteit van nummers te voorspellen.

music_dummies is alvast voor je geladen, samen met Ridge, cross_val_score, numpy als np, en een KFold-object opgeslagen als kf.

Het model wordt geëvalueerd door de gemiddelde RMSE te berekenen. Eerst moet je echter de scores voor elke fold positief maken en daar de vierkantswortel van nemen. Deze metriek toont de gemiddelde fout van de voorspellingen van ons model, zodat je die kunt vergelijken met de standaarddeviatie van de doelwaarde—"popularity".

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Cursus bekijken

Oefeninstructies

Maak X, met alle features in music_dummies, en y, bestaande uit de kolom "popularity".
Initialiseer een ridge-regressiemodel en zet alpha gelijk aan 0.2.
Voer cross-validatie uit op X en y met het ridge-model, zet cv gelijk aan kf, en gebruik negatieve mean squared error als scoringsmetriek.
Print de RMSE-waarden door negatieve scores positief te maken en daar de vierkantswortel van te nemen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create X and y
X = ____
y = ____

# Instantiate a ridge model
ridge = ____

# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")

# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Begin de cursus gratis

In this chapter, you'll be introduced to classification problems and learn how to solve them using supervised learning techniques. You'll learn how to split data into training and test sets, fit a model, make predictions, and evaluate accuracy. You’ll discover the relationship between model complexity and performance, applying what you learn to a churn dataset, where you will classify the churn status of a telecom company's customers.

Exercise 1: Machine learning with scikit-learn Exercise 2: Binary classification Exercise 3: The supervised learning workflow Exercise 4: The classification challenge Exercise 5: k-Nearest Neighbors: Fit Exercise 6: k-Nearest Neighbors: Predict Exercise 7: Measuring model performance Exercise 8: Train/test split + computing accuracy Exercise 9: Overfitting and underfitting Exercise 10: Visualizing model complexity

In this chapter, you will be introduced to regression, and build models to predict sales values using a dataset on advertising expenditure. You will learn about the mechanics of linear regression and common performance metrics such as R-squared and root mean squared error. You will perform k-fold cross-validation, and apply regularization to regression models to reduce the risk of overfitting.

Exercise 1: Introduction to regression Exercise 2: Creating features Exercise 3: Building a linear regression model Exercise 4: Visualizing a linear regression model Exercise 5: The basics of linear regression Exercise 6: Fit and predict for regression Exercise 7: Regression performance Exercise 8: Cross-validation Exercise 9: Cross-validation for R-squared Exercise 10: Analyzing cross-validation metrics Exercise 11: Regularized regression Exercise 12: Regularized regression: Ridge Exercise 13: Lasso regression for feature importance

Having trained models, now you will learn how to evaluate them. In this chapter, you will be introduced to several metrics along with a visualization technique for analyzing classification model performance using scikit-learn. You will also learn how to optimize classification and regression models through the use of hyperparameter tuning.

Exercise 1: How good is your model?Exercise 2: Deciding on a primary metric Exercise 3: Assessing a diabetes prediction classifier Exercise 4: Logistic regression and the ROC curve Exercise 5: Building a logistic regression model Exercise 6: The ROC curve Exercise 7: ROC AUC Exercise 8: Hyperparameter tuning Exercise 9: Hyperparameter tuning with GridSearchCV Exercise 10: Hyperparameter tuning with RandomizedSearchCV

Learn how to impute missing values, convert categorical data to numeric values, scale data, evaluate multiple supervised learning models simultaneously, and build pipelines to streamline your workflow!

Exercise 1: Gegevens preprocessen Exercise 2: Dummyvariabelen maken Exercise 3: Regressie met categorische features

Huidige oefening

Exercise 4: Omgaan met missende gegevens Exercise 5: Missende gegevens verwijderen Exercise 6: Pipeline voor het voorspellen van muziekgenre: I Exercise 7: Pipeline voor het voorspellen van muziekgenres: II Exercise 8: Centreren en schalen Exercise 9: Centreren en schalen voor regressie Exercise 10: Centreren en schalen voor classificatie Exercise 11: Meerdere modellen evalueren Exercise 12: Prestatie van regressiemodellen visualiseren Exercise 13: Voorspellen op de testset Exercise 14: Classificatiemodelprestaties visualiseren Exercise 15: Pipeline voor het voorspellen van songpopulariteit Exercise 16: Gefeliciteerd