Regressão com variáveis independentes categóricas

Agora que você criou music_dummies, contendo variáveis independentes binárias para o gênero de cada música, é hora de criar um modelo de regressão ridge para prever a popularidade da música.

music_dummies foi pré-carregado para você, juntamente com Ridge, cross_val_score, numpy como np e um objeto KFold armazenado como kf.

O modelo deve ser avaliado calculando a raiz do erro quadrático médio (RMSE), mas, primeiro, é preciso converter as pontuações de cada grupo (fold) em valores positivos e calcular a raiz quadrada deles. Essa métrica mostra o erro médio das previsões do nosso modelo e, portanto, pode ser comparada com o desvio-padrão do valor da variável dependente, "popularity".

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Instruções do exercicio

Crie X, que contém todas as variáveis independentes em music_dummies, e y, que consiste na coluna "popularity", respectivamente.
Instancie um modelo de regressão ridge, definindo alpha igual a 0,2.
Faça a validação cruzada com X e y usando o modelo ridge, definindo cv igual a kf e usando o erro quadrático médio negativo como métrica de pontuação.
Imprima os valores de RMSE convertendo o scores negativo em positivo e calculando a raiz quadrada.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create X and y
X = ____
y = ____

# Instantiate a ridge model
ridge = ____

# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")

# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))

Editar e Executar Código

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, será feita uma introdução aos problemas de classificação e você aprenderá a resolvê-los usando técnicas de aprendizado supervisionado. Você vai aprender a dividir os dados em conjuntos de treinamento e teste, ajustar um modelo, fazer previsões e avaliar a precisão. Você descobrirá a relação entre complexidade e desempenho do modelo, aplicando o que aprendeu a um conjunto de dados de cancelamento de assinaturas, no qual classificará a situação dos cancelamentos de clientes de uma empresa de telecomunicações.

Exercise 1: Aprendizado de máquina com o scikit-learn Exercise 2: Classificação binária Exercise 3: Fluxo de trabalho de aprendizado supervisionado Exercise 4: O desafio da classificação Exercise 5: k vizinhos mais próximos: ajuste Exercise 6: k vizinhos mais próximos: previsão Exercise 7: Avaliação do desempenho do modelo Exercise 8: Divisão em treinamento/teste + cálculo da precisão Exercise 9: Sobreajuste e subajuste Exercise 10: Visualização da complexidade do modelo

Este capítulo introduz o conceito de regressão, e você vai criar modelos para prever valores de vendas usando um conjunto de dados sobre gastos com publicidade. Você aprenderá como funcionam a regressão linear e métricas de desempenho comuns, como R-quadrado e raiz do erro quadrático médio. Você vai fazer a validação cruzada com k grupos (k folds) e aplicar a regularização a modelos de regressão para reduzir o risco de sobreajuste.

Exercise 1: Introdução à regressão Exercise 2: Criação de variáveis independentes Exercise 3: Criação de um modelo de regressão linear Exercise 4: Visualização de um modelo de regressão linear Exercise 5: Noções básicas de regressão linear Exercise 6: Ajuste e previsão para regressão Exercise 7: Desempenho da regressão Exercise 8: Validação cruzada Exercise 9: Validação cruzada com R-quadrado Exercise 10: Análise de métricas de validação cruzada Exercise 11: Regressão regularizada Exercise 12: Regressão regularizada: ridge Exercise 13: Regressão Lasso para análise da importância de variáveis independentes

Depois de treinar os modelos, agora você aprenderá a avaliá-los. Neste capítulo, são apresentadas várias métricas e uma técnica de visualização para analisar o desempenho do modelo de classificação usando o scikit-learn. Você também aprenderá a otimizar modelos de classificação e regressão por meio do ajuste de hiperparâmetros.

Exercise 1: Qual é o desempenho de seu modelo?Exercise 2: Decisão sobre uma métrica primária Exercise 3: Avaliação de um classificador para previsão de diabetes Exercise 4: Regressão logística e curva de COR Exercise 5: Criação de um modelo de regressão logística Exercise 6: A curva de COR Exercise 7: Área sob a curva de COR (ROC AUC)Exercise 8: Ajuste de hiperparâmetros Exercise 9: Ajuste de hiperparâmetros com GridSearchCV Exercise 10: Ajuste de hiperparâmetros com RandomizedSearchCV

Saiba como imputar valores faltantes, converter dados categóricos em valores numéricos, fazer o escalonamento de dados, avaliar vários modelos de aprendizado supervisionado de maneira simultânea e criar pipelines para otimizar o fluxo de trabalho!

Exercise 1: Pré-processamento de dados Exercise 2: Criação de variáveis binárias (dummies)Exercise 3: Regressão com variáveis independentes categóricas

Exercicio Atual

Exercise 4: Tratamento de dados faltantes Exercise 5: Eliminação de dados faltantes Exercise 6: Pipeline para previsão do gênero de músicas: I Exercise 7: Pipeline para previsão do gênero de músicas: II Exercise 8: Centralização e escalonamento Exercise 9: Centralização e escalonamento para regressão Exercise 10: Centralização e escalonamento para classificação Exercise 11: Avaliação de vários modelos Exercise 12: Visualização do desempenho do modelo de regressão Exercise 13: Previsão com base no conjunto de teste Exercise 14: Visualização do desempenho do modelo de classificação Exercise 15: Pipeline para previsão da popularidade de músicas Exercise 16: Parabéns!