Boosting voor voorspelde omzet
Het eerste model haalde een RMSE van ongeveer 7.34. Laten we kijken of we dit kunnen verbeteren met één iteratie van boosting.
Je bouwt nog een lineaire regressie, maar dit keer zijn de doelwaarden de fouten van het basismodel, als volgt berekend:
y_train_error = pred_train - y_train
y_test_error = pred_test - y_test
Voor dit model gebruik je in plaats daarvan de feature 'popularity', in de hoop dat die meer informatieve patronen biedt dan alleen de feature 'budget'. Deze vind je als X_train_pop en X_test_pop. Net als in de vorige oefening zijn de invoerkenmerken al voor je gestandaardiseerd.
Deze oefening maakt deel uit van de cursus
Ensemblemethoden in Python
Oefeninstructies
- Train een lineair regressiemodel op de eerdere fouten met
X_train_popeny_train_error. - Bereken de voorspelde fouten op de testset,
X_test_pop. - Bereken de RMSE, net als in de vorige oefening, met
y_test_errorenpred_error.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit a linear regression model to the previous errors
reg_error = LinearRegression()
____
# Calculate the predicted errors on the test set
pred_error = ____
# Evaluate the updated performance
rmse_error = ____
print('RMSE: {:.3f}'.format(rmse_error))