Juntando tudo

Você acabou de entrar em uma startup de detecção de arritmias e quer treinar um modelo no conjunto de dados de arritmias arrh. Você percebeu que random forests costumam vencer várias competições no Kaggle, então quer testar isso com profundidade máxima de 2, 5 ou 10, usando grid search. Você também observou que a dimensionalidade do conjunto de dados é bem alta, então deseja avaliar o efeito de um método de seleção de atributos.

Para garantir que você não faça overfitting por engano, você já dividiu seus dados. Você usará X_train e y_train para o grid search, e X_test e y_test para decidir se a seleção de atributos ajuda. As quatro partições do conjunto de dados já estão carregadas no seu ambiente. Você também tem acesso a GridSearchCV(), train_test_split(), SelectKBest(), chi2() e RandomForestClassifier como rfc.

Este exercício faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercício

Use grid search para testar profundidade máxima de 2, 5 e 10 para o RandomForestClassifier e armazene a melhor configuração de parâmetro.
Agora reajuste o estimador usando o melhor número de estimadores obtido acima.
Aplique o seletor de atributos SelectKBest com a função de pontuação chi2 e reajuste o classificador.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Find the best value for max_depth among values 2, 5 and 10
grid_search = GridSearchCV(
  ____(random_state=1), param_grid=____)
best_value = grid_search.____(
  ____, ____).best_params_['max_depth']

# Using the best value from above, fit a random forest
clf = rfc(
  random_state=1, ____=best_value).____(X_train, y_train)

# Apply SelectKBest with chi2 and pick top 100 features
vt = SelectKBest(____, k=____).____(X_train, y_train)

# Create a new dataset only containing the selected features
X_train_reduced = ____.transform(____)

Editar e executar o código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

74 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais