Prevendo a receita de filmes
Vamos começar o desafio de prever a receita de filmes construindo uma regressão linear simples para estimar o log-revenue dos filmes com base na variável 'budget'. A métrica que você vai usar aqui é o RMSE (root mean squared error). Para calculá-la usando scikit-learn, você pode usar a função mean_squared_error() do módulo sklearn.metrics e, em seguida, tirar sua raiz quadrada usando numpy.
O conjunto de dados movies já foi carregado e dividido em conjuntos de treino e teste. Além disso, os valores ausentes foram substituídos por zeros. Também padronizamos a variável de entrada usando StandardScaler(). Confira os cursos da DataCamp sobre limpeza de dados e engenharia de atributos se quiser aprender mais sobre pré-processamento para Machine Learning.
Este exercício faz parte do curso
Métodos de Ensemble em Python
Instruções do exercício
- Instancie o modelo
LinearRegressionpadrão. - Calcule as previsões no conjunto de teste.
- Calcule o RMSE. A função
mean_squared_error()requer dois argumentos:y_test, seguido pelas previsões.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))