Regressão com variáveis independentes categóricas
Agora que você criou music_dummies
, contendo variáveis independentes binárias para o gênero de cada música, é hora de criar um modelo de regressão ridge para prever a popularidade da música.
music_dummies
foi pré-carregado para você, juntamente com Ridge
, cross_val_score
, numpy
como np
e um objeto KFold
armazenado como kf
.
O modelo deve ser avaliado calculando a raiz do erro quadrático médio (RMSE), mas, primeiro, é preciso converter as pontuações de cada subgrupo (fold) em valores positivos e calcular a raiz quadrada deles. Essa métrica mostra o erro médio das previsões do nosso modelo e, portanto, pode ser comparada com o desvio-padrão do valor da variável dependente, "popularity"
.
Este exercício faz parte do curso
Aprendizado Supervisionado com o scikit-learn
Instruções de exercício
- Crie
X
, que contém todas as variáveis independentes emmusic_dummies
, ey
, que consiste na coluna"popularity"
, respectivamente. - Instancie um modelo de regressão ridge, definindo
alpha
igual a 0,2. - Faça a validação cruzada com
X
ey
usando o modelo ridge, definindocv
igual akf
e usando o erro quadrático médio negativo como métrica de pontuação. - Imprima os valores de RMSE convertendo
scores
negativos em positivos e calculando a raiz quadrada.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create X and y
X = ____
y = ____
# Instantiate a ridge model
ridge = ____
# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")
# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))