Pipeline para previsão da popularidade de músicas

No exercício final, você deve criar um pipeline para imputar valores faltantes, fazer o escalonamento de variáveis independentes e realizar o ajuste de hiperparâmetros de um modelo de regressão logística. O objetivo é encontrar os melhores parâmetros e a melhor precisão ao prever o gênero das músicas!

Todos os modelos e objetos necessários para criar o pipeline foram pré-carregados para você.

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Instruções do exercicio

Crie as etapas do pipeline chamando um imputador simples, um escalonador padrão e um modelo de regressão logística.
Crie um objeto de pipeline e passe a variável steps.
Instancie um objeto de pesquisa em grade para fazer a validação cruzada usando o pipeline e os parâmetros.
Imprima os melhores parâmetros e calcule e imprima a pontuação de precisão do conjunto de teste para o objeto de pesquisa em grade.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create steps
steps = [("imp_mean", ____()), 
         ("scaler", ____()), 
         ("logreg", ____())]

# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
         "logreg__C": np.linspace(0.001, 1.0, 10)}

# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)

# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))

Editar e Executar Código

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, será feita uma introdução aos problemas de classificação e você aprenderá a resolvê-los usando técnicas de aprendizado supervisionado. Você vai aprender a dividir os dados em conjuntos de treinamento e teste, ajustar um modelo, fazer previsões e avaliar a precisão. Você descobrirá a relação entre complexidade e desempenho do modelo, aplicando o que aprendeu a um conjunto de dados de cancelamento de assinaturas, no qual classificará a situação dos cancelamentos de clientes de uma empresa de telecomunicações.

Exercise 1: Aprendizado de máquina com o scikit-learn Exercise 2: Classificação binária Exercise 3: Fluxo de trabalho de aprendizado supervisionado Exercise 4: O desafio da classificação Exercise 5: k vizinhos mais próximos: ajuste Exercise 6: k vizinhos mais próximos: previsão Exercise 7: Avaliação do desempenho do modelo Exercise 8: Divisão em treinamento/teste + cálculo da precisão Exercise 9: Sobreajuste e subajuste Exercise 10: Visualização da complexidade do modelo

Este capítulo introduz o conceito de regressão, e você vai criar modelos para prever valores de vendas usando um conjunto de dados sobre gastos com publicidade. Você aprenderá como funcionam a regressão linear e métricas de desempenho comuns, como R-quadrado e raiz do erro quadrático médio. Você vai fazer a validação cruzada com k grupos (k folds) e aplicar a regularização a modelos de regressão para reduzir o risco de sobreajuste.

Exercise 1: Introdução à regressão Exercise 2: Criação de variáveis independentes Exercise 3: Criação de um modelo de regressão linear Exercise 4: Visualização de um modelo de regressão linear Exercise 5: Noções básicas de regressão linear Exercise 6: Ajuste e previsão para regressão Exercise 7: Desempenho da regressão Exercise 8: Validação cruzada Exercise 9: Validação cruzada com R-quadrado Exercise 10: Análise de métricas de validação cruzada Exercise 11: Regressão regularizada Exercise 12: Regressão regularizada: ridge Exercise 13: Regressão Lasso para análise da importância de variáveis independentes

Depois de treinar os modelos, agora você aprenderá a avaliá-los. Neste capítulo, são apresentadas várias métricas e uma técnica de visualização para analisar o desempenho do modelo de classificação usando o scikit-learn. Você também aprenderá a otimizar modelos de classificação e regressão por meio do ajuste de hiperparâmetros.

Exercise 1: Qual é o desempenho de seu modelo?Exercise 2: Decisão sobre uma métrica primária Exercise 3: Avaliação de um classificador para previsão de diabetes Exercise 4: Regressão logística e curva de COR Exercise 5: Criação de um modelo de regressão logística Exercise 6: A curva de COR Exercise 7: Área sob a curva de COR (ROC AUC)Exercise 8: Ajuste de hiperparâmetros Exercise 9: Ajuste de hiperparâmetros com GridSearchCV Exercise 10: Ajuste de hiperparâmetros com RandomizedSearchCV

Saiba como imputar valores faltantes, converter dados categóricos em valores numéricos, fazer o escalonamento de dados, avaliar vários modelos de aprendizado supervisionado de maneira simultânea e criar pipelines para otimizar o fluxo de trabalho!

Exercise 1: Pré-processamento de dados Exercise 2: Criação de variáveis binárias (dummies)Exercise 3: Regressão com variáveis independentes categóricas Exercise 4: Tratamento de dados faltantes Exercise 5: Eliminação de dados faltantes Exercise 6: Pipeline para previsão do gênero de músicas: I Exercise 7: Pipeline para previsão do gênero de músicas: II Exercise 8: Centralização e escalonamento Exercise 9: Centralização e escalonamento para regressão Exercise 10: Centralização e escalonamento para classificação Exercise 11: Avaliação de vários modelos Exercise 12: Visualização do desempenho do modelo de regressão Exercise 13: Previsão com base no conjunto de teste Exercise 14: Visualização do desempenho do modelo de classificação Exercise 15: Pipeline para previsão da popularidade de músicas

Exercicio Atual

Exercise 16: Parabéns!