IniziaInizia gratis

Prevedere gli incassi dei film

Iniziamo la sfida di prevedere gli incassi dei film costruendo una semplice regressione lineare per stimare il log-incasso dei film a partire dalla feature 'budget'. La metrica che userai qui è la RMSE (root mean squared error). Per calcolarla con scikit-learn, puoi usare la funzione mean_squared_error() dal modulo sklearn.metrics e poi prenderne la radice quadrata usando numpy.

Il dataset movies è stato caricato e suddiviso in training e test set. Inoltre, i valori mancanti sono stati sostituiti con zeri. Abbiamo anche standardizzato la feature di input usando StandardScaler(). Dai un'occhiata ai corsi di DataCamp su pulizia dei dati e feature engineering se vuoi saperne di più sul preprocessing per il machine learning.

Questo esercizio fa parte del corso

Metodi Ensemble in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Istanzia il modello LinearRegression di default.
  • Calcola le predizioni sul test set.
  • Calcola la RMSE. La funzione mean_squared_error() richiede due argomenti: y_test, seguito dalle predizioni.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))
Modifica ed esegui il codice