Aan de slagGa gratis aan de slag

Filmomzet voorspellen

Laten we beginnen met de uitdaging om filmomzet te voorspellen door een eenvoudige lineaire regressie te bouwen die de log-omzet van films schat op basis van de functie 'budget'. De maatstaf die je hier gebruikt is de RMSE (root mean squared error). Om dit met scikit-learn te berekenen, kun je de functie mean_squared_error() uit de module sklearn.metrics gebruiken en vervolgens de wortel nemen met numpy.

De movies-gegevensset is voor je geladen en opgesplitst in train- en testsets. Daarnaast zijn ontbrekende waarden vervangen door nullen. We hebben de invoerkenmerk ook gestandaardiseerd met StandardScaler(). Bekijk de DataCamp-cursussen over datacleaning en feature engineering als je meer wilt leren over preprocessing voor Machine Learning.

Deze oefening maakt deel uit van de cursus

Ensemblemethoden in Python

Cursus bekijken

Oefeninstructies

  • Instantier het standaard LinearRegression-model.
  • Bereken de voorspellingen op de testset.
  • Bereken de RMSE. De functie mean_squared_error() verwacht twee argumenten: y_test, gevolgd door de voorspellingen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))
Code bewerken en uitvoeren