LoslegenKostenlos loslegen

Filmeinnahmen vorhersagen

Beginnen wir die Aufgabe, Filmeinnahmen vorherzusagen, mit einer einfachen linearen Regression, die die Log-Einnahmen von Filmen basierend auf dem Merkmal 'budget' schätzt. Die Metrik, die du hier verwendest, ist die RMSE (Root Mean Squared Error). Um sie mit scikit-learn zu berechnen, kannst du die Funktion mean_squared_error() aus dem Modul sklearn.metrics verwenden und anschließend mit numpy die Quadratwurzel ziehen.

Der Datensatz movies wurde für dich geladen und in Trainings- und Testdaten aufgeteilt. Außerdem wurden fehlende Werte durch Nullen ersetzt. Wir haben das Eingabemerkmal auch mit StandardScaler() standardisiert. Schau dir die DataCamp-Kurse zu Datenbereinigung und Feature Engineering an, wenn du mehr über Preprocessing für Machine Learning lernen möchtest.

Diese Übung ist Teil des Kurses

Ensemble-Methoden in Python

Kurs anzeigen

Anleitung zur Übung

  • Instanziiere das Standardmodell LinearRegression.
  • Berechne die Vorhersagen für den Testsatz.
  • Berechne die RMSE. Die Funktion mean_squared_error() erwartet zwei Argumente: y_test, gefolgt von den Vorhersagen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))
Code bearbeiten und ausführen