Filmomzet voorspellen
Laten we beginnen met de uitdaging om filmomzet te voorspellen door een eenvoudige lineaire regressie te bouwen die de log-omzet van films schat op basis van de functie 'budget'. De maatstaf die je hier gebruikt is de RMSE (root mean squared error). Om dit met scikit-learn te berekenen, kun je de functie mean_squared_error() uit de module sklearn.metrics gebruiken en vervolgens de wortel nemen met numpy.
De movies-gegevensset is voor je geladen en opgesplitst in train- en testsets. Daarnaast zijn ontbrekende waarden vervangen door nullen. We hebben de invoerkenmerk ook gestandaardiseerd met StandardScaler(). Bekijk de DataCamp-cursussen over datacleaning en feature engineering als je meer wilt leren over preprocessing voor Machine Learning.
Deze oefening maakt deel uit van de cursus
Ensemblemethoden in Python
Oefeninstructies
- Instantier het standaard
LinearRegression-model. - Bereken de voorspellingen op de testset.
- Bereken de RMSE. De functie
mean_squared_error()verwacht twee argumenten:y_test, gevolgd door de voorspellingen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))