Prevedere gli incassi dei film
Iniziamo la sfida di prevedere gli incassi dei film costruendo una semplice regressione lineare per stimare il log-incasso dei film a partire dalla feature 'budget'. La metrica che userai qui è la RMSE (root mean squared error). Per calcolarla con scikit-learn, puoi usare la funzione mean_squared_error() dal modulo sklearn.metrics e poi prenderne la radice quadrata usando numpy.
Il dataset movies è stato caricato e suddiviso in training e test set. Inoltre, i valori mancanti sono stati sostituiti con zeri. Abbiamo anche standardizzato la feature di input usando StandardScaler(). Dai un'occhiata ai corsi di DataCamp su pulizia dei dati e feature engineering se vuoi saperne di più sul preprocessing per il machine learning.
Questo esercizio fa parte del corso
Metodi Ensemble in Python
Istruzioni dell'esercizio
- Istanzia il modello
LinearRegressiondi default. - Calcola le predizioni sul test set.
- Calcola la RMSE. La funzione
mean_squared_error()richiede due argomenti:y_test, seguito dalle predizioni.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))