Regressão com variáveis independentes categóricas

Agora que você criou music_dummies, contendo variáveis independentes binárias para o gênero de cada música, é hora de criar um modelo de regressão ridge para prever a popularidade da música.

music_dummies foi pré-carregado para você, juntamente com Ridge, cross_val_score, numpy como np e um objeto KFold armazenado como kf.

O modelo deve ser avaliado calculando a raiz do erro quadrático médio (RMSE), mas, primeiro, é preciso converter as pontuações de cada subgrupo (fold) em valores positivos e calcular a raiz quadrada deles. Essa métrica mostra o erro médio das previsões do nosso modelo e, portanto, pode ser comparada com o desvio-padrão do valor da variável dependente, "popularity".

Este exercício faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Ver Curso

Instruções de exercício

  • Crie X, que contém todas as variáveis independentes em music_dummies, e y, que consiste na coluna "popularity", respectivamente.
  • Instancie um modelo de regressão ridge, definindo alpha igual a 0,2.
  • Faça a validação cruzada com X e y usando o modelo ridge, definindo cv igual a kf e usando o erro quadrático médio negativo como métrica de pontuação.
  • Imprima os valores de RMSE convertendo scores negativos em positivos e calculando a raiz quadrada.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create X and y
X = ____
y = ____

# Instantiate a ridge model
ridge = ____

# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")

# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))