Centralização e escalonamento para regressão

Agora que você já viu as vantagens de fazer o escalonamento dos dados, deve usar um pipeline para pré-processar as variáveis independentes de music_df e criar um modelo de regressão lasso para prever o volume (loudness) de uma música.

X_train, X_test, y_train e y_test já foram criados a partir do conjunto de dados music_df, em que a variável dependente é "loudness" e as variáveis independentes são todas as outras colunas do conjunto de dados. Lasso e Pipeline também foram importados para você.

Observe que "genre" foi convertido em uma variável independente binária em que 1 indica uma música de rock e 0 representa outros gêneros.

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Instruções do exercicio

Importe StandardScaler.
Crie as etapas para o objeto de pipeline, um objeto StandardScaler chamado "scaler" e um modelo lasso chamado "lasso" com alpha igual a 0.5.
Instancie um pipeline com etapas para o escalonamento e a criação de um modelo de regressão lasso.
Calcule o valor de R-quadrado com os dados de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import StandardScaler
____

# Create pipeline steps
steps = [("____", ____()),
         ("____", ____(alpha=____))]

# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)

# Calculate and print R-squared
print(____.____(____, ____))

Editar e Executar Código

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, será feita uma introdução aos problemas de classificação e você aprenderá a resolvê-los usando técnicas de aprendizado supervisionado. Você vai aprender a dividir os dados em conjuntos de treinamento e teste, ajustar um modelo, fazer previsões e avaliar a precisão. Você descobrirá a relação entre complexidade e desempenho do modelo, aplicando o que aprendeu a um conjunto de dados de cancelamento de assinaturas, no qual classificará a situação dos cancelamentos de clientes de uma empresa de telecomunicações.

Exercise 1: Aprendizado de máquina com o scikit-learn Exercise 2: Classificação binária Exercise 3: Fluxo de trabalho de aprendizado supervisionado Exercise 4: O desafio da classificação Exercise 5: k vizinhos mais próximos: ajuste Exercise 6: k vizinhos mais próximos: previsão Exercise 7: Avaliação do desempenho do modelo Exercise 8: Divisão em treinamento/teste + cálculo da precisão Exercise 9: Sobreajuste e subajuste Exercise 10: Visualização da complexidade do modelo

Este capítulo introduz o conceito de regressão, e você vai criar modelos para prever valores de vendas usando um conjunto de dados sobre gastos com publicidade. Você aprenderá como funcionam a regressão linear e métricas de desempenho comuns, como R-quadrado e raiz do erro quadrático médio. Você vai fazer a validação cruzada com k grupos (k folds) e aplicar a regularização a modelos de regressão para reduzir o risco de sobreajuste.

Exercise 1: Introdução à regressão Exercise 2: Criação de variáveis independentes Exercise 3: Criação de um modelo de regressão linear Exercise 4: Visualização de um modelo de regressão linear Exercise 5: Noções básicas de regressão linear Exercise 6: Ajuste e previsão para regressão Exercise 7: Desempenho da regressão Exercise 8: Validação cruzada Exercise 9: Validação cruzada com R-quadrado Exercise 10: Análise de métricas de validação cruzada Exercise 11: Regressão regularizada Exercise 12: Regressão regularizada: ridge Exercise 13: Regressão Lasso para análise da importância de variáveis independentes

Depois de treinar os modelos, agora você aprenderá a avaliá-los. Neste capítulo, são apresentadas várias métricas e uma técnica de visualização para analisar o desempenho do modelo de classificação usando o scikit-learn. Você também aprenderá a otimizar modelos de classificação e regressão por meio do ajuste de hiperparâmetros.

Exercise 1: Qual é o desempenho de seu modelo?Exercise 2: Decisão sobre uma métrica primária Exercise 3: Avaliação de um classificador para previsão de diabetes Exercise 4: Regressão logística e curva de COR Exercise 5: Criação de um modelo de regressão logística Exercise 6: A curva de COR Exercise 7: Área sob a curva de COR (ROC AUC)Exercise 8: Ajuste de hiperparâmetros Exercise 9: Ajuste de hiperparâmetros com GridSearchCV Exercise 10: Ajuste de hiperparâmetros com RandomizedSearchCV

Saiba como imputar valores faltantes, converter dados categóricos em valores numéricos, fazer o escalonamento de dados, avaliar vários modelos de aprendizado supervisionado de maneira simultânea e criar pipelines para otimizar o fluxo de trabalho!

Exercise 1: Pré-processamento de dados Exercise 2: Criação de variáveis binárias (dummies)Exercise 3: Regressão com variáveis independentes categóricas Exercise 4: Tratamento de dados faltantes Exercise 5: Eliminação de dados faltantes Exercise 6: Pipeline para previsão do gênero de músicas: I Exercise 7: Pipeline para previsão do gênero de músicas: II Exercise 8: Centralização e escalonamento Exercise 9: Centralização e escalonamento para regressão

Exercicio Atual

Exercise 10: Centralização e escalonamento para classificação Exercise 11: Avaliação de vários modelos Exercise 12: Visualização do desempenho do modelo de regressão Exercise 13: Previsão com base no conjunto de teste Exercise 14: Visualização do desempenho do modelo de classificação Exercise 15: Pipeline para previsão da popularidade de músicas Exercise 16: Parabéns!