ComeçarComece de graça

Prevendo a receita de filmes

Vamos começar o desafio de prever a receita de filmes construindo uma regressão linear simples para estimar o log-revenue dos filmes com base na variável 'budget'. A métrica que você vai usar aqui é o RMSE (root mean squared error). Para calculá-la usando scikit-learn, você pode usar a função mean_squared_error() do módulo sklearn.metrics e, em seguida, tirar sua raiz quadrada usando numpy.

O conjunto de dados movies já foi carregado e dividido em conjuntos de treino e teste. Além disso, os valores ausentes foram substituídos por zeros. Também padronizamos a variável de entrada usando StandardScaler(). Confira os cursos da DataCamp sobre limpeza de dados e engenharia de atributos se quiser aprender mais sobre pré-processamento para Machine Learning.

Este exercício faz parte do curso

Métodos de Ensemble em Python

Ver curso

Instruções do exercício

  • Instancie o modelo LinearRegression padrão.
  • Calcule as previsões no conjunto de teste.
  • Calcule o RMSE. A função mean_squared_error() requer dois argumentos: y_test, seguido pelas previsões.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Build and fit linear regression model
reg_lm = ____
reg_lm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance using the RMSE
rmse = np.sqrt(____)
print('RMSE: {:.3f}'.format(rmse))
Editar e executar o código