Visualização do desempenho do modelo de classificação

Neste exercício, você deve resolver um problema de classificação em que a coluna "popularity" do conjunto de dados music_df foi convertida em valores binários, sendo que 1 representa uma popularidade maior ou igual à mediana da coluna "popularity" e 0 indica popularidade abaixo da mediana.

Sua tarefa é criar e visualizar os resultados de três modelos diferentes para classificar se uma música é popular ou não.

Os dados foram divididos, escalonados e pré-carregados para você como X_train_scaled, X_test_scaled, y_train e y_test. Além disso, KNeighborsClassifier, DecisionTreeClassifier e LogisticRegression já foram importados.

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

Instruções do exercicio

Crie um dicionário com "Logistic Regression", "KNN" e "Decision Tree Classifier", definindo os valores do dicionário como uma chamada de cada modelo.
Faça um loop pelos valores de models.
Instancie um objeto KFold para fazer 6 divisões, definindo shuffle igual a True e random_state igual a 12.
Faça a validação cruzada usando o modelo, as variáveis independentes de treinamento com escalonamento, o conjunto de treinamento da variável dependente e definindo cv igual a kf.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create models dictionary
models = {"____": ____(), "____": ____(), "____": ____()}
results = []

# Loop through the models' values
for model in ____.____():
  
  # Instantiate a KFold object
  kf = ____(n_splits=____, random_state=____, shuffle=____)
  
  # Perform cross-validation
  cv_results = ____(____, ____, ____, cv=____)
  results.append(cv_results)
plt.boxplot(results, labels=models.keys())
plt.show()

Editar e Executar Código

Este exercicio faz parte do curso

Aprendizado Supervisionado com o scikit-learn

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, será feita uma introdução aos problemas de classificação e você aprenderá a resolvê-los usando técnicas de aprendizado supervisionado. Você vai aprender a dividir os dados em conjuntos de treinamento e teste, ajustar um modelo, fazer previsões e avaliar a precisão. Você descobrirá a relação entre complexidade e desempenho do modelo, aplicando o que aprendeu a um conjunto de dados de cancelamento de assinaturas, no qual classificará a situação dos cancelamentos de clientes de uma empresa de telecomunicações.

Exercise 1: Aprendizado de máquina com o scikit-learn Exercise 2: Classificação binária Exercise 3: Fluxo de trabalho de aprendizado supervisionado Exercise 4: O desafio da classificação Exercise 5: k vizinhos mais próximos: ajuste Exercise 6: k vizinhos mais próximos: previsão Exercise 7: Avaliação do desempenho do modelo Exercise 8: Divisão em treinamento/teste + cálculo da precisão Exercise 9: Sobreajuste e subajuste Exercise 10: Visualização da complexidade do modelo

Este capítulo introduz o conceito de regressão, e você vai criar modelos para prever valores de vendas usando um conjunto de dados sobre gastos com publicidade. Você aprenderá como funcionam a regressão linear e métricas de desempenho comuns, como R-quadrado e raiz do erro quadrático médio. Você vai fazer a validação cruzada com k grupos (k folds) e aplicar a regularização a modelos de regressão para reduzir o risco de sobreajuste.

Exercise 1: Introdução à regressão Exercise 2: Criação de variáveis independentes Exercise 3: Criação de um modelo de regressão linear Exercise 4: Visualização de um modelo de regressão linear Exercise 5: Noções básicas de regressão linear Exercise 6: Ajuste e previsão para regressão Exercise 7: Desempenho da regressão Exercise 8: Validação cruzada Exercise 9: Validação cruzada com R-quadrado Exercise 10: Análise de métricas de validação cruzada Exercise 11: Regressão regularizada Exercise 12: Regressão regularizada: ridge Exercise 13: Regressão Lasso para análise da importância de variáveis independentes

Depois de treinar os modelos, agora você aprenderá a avaliá-los. Neste capítulo, são apresentadas várias métricas e uma técnica de visualização para analisar o desempenho do modelo de classificação usando o scikit-learn. Você também aprenderá a otimizar modelos de classificação e regressão por meio do ajuste de hiperparâmetros.

Exercise 1: Qual é o desempenho de seu modelo?Exercise 2: Decisão sobre uma métrica primária Exercise 3: Avaliação de um classificador para previsão de diabetes Exercise 4: Regressão logística e curva de COR Exercise 5: Criação de um modelo de regressão logística Exercise 6: A curva de COR Exercise 7: Área sob a curva de COR (ROC AUC)Exercise 8: Ajuste de hiperparâmetros Exercise 9: Ajuste de hiperparâmetros com GridSearchCV Exercise 10: Ajuste de hiperparâmetros com RandomizedSearchCV

Saiba como imputar valores faltantes, converter dados categóricos em valores numéricos, fazer o escalonamento de dados, avaliar vários modelos de aprendizado supervisionado de maneira simultânea e criar pipelines para otimizar o fluxo de trabalho!

Exercise 1: Pré-processamento de dados Exercise 2: Criação de variáveis binárias (dummies)Exercise 3: Regressão com variáveis independentes categóricas Exercise 4: Tratamento de dados faltantes Exercise 5: Eliminação de dados faltantes Exercise 6: Pipeline para previsão do gênero de músicas: I Exercise 7: Pipeline para previsão do gênero de músicas: II Exercise 8: Centralização e escalonamento Exercise 9: Centralização e escalonamento para regressão Exercise 10: Centralização e escalonamento para classificação Exercise 11: Avaliação de vários modelos Exercise 12: Visualização do desempenho do modelo de regressão Exercise 13: Previsão com base no conjunto de teste Exercise 14: Visualização do desempenho do modelo de classificação

Exercicio Atual

Exercise 15: Pipeline para previsão da popularidade de músicas Exercise 16: Parabéns!