Seu primeiro pipeline - de novo!

De volta à startup de arritmia, sua revisão mensal está chegando e, como parte disso, um(a) programador(a) Python experiente vai revisar seu código. Você decide dar uma organizada seguindo as boas práticas e substituir seu script de seleção de atributos e classificação com random forest por um pipeline. Você está usando um conjunto de dados de treino disponível como X_train e y_train, e alguns módulos: RandomForestClassifier, SelectKBest() e f_classif() para seleção de atributos, além de GridSearchCV e Pipeline.

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Crie um pipeline com o seletor de atributos fornecido pelo código de exemplo e um classificador random forest. Dê o nome feature_selection à primeira etapa.
Adicione dois pares chave-valor em params: um para o número de atributos k no seletor com valores 10 e 20, e outro para n_estimators na floresta com valores possíveis 2 e 5.
Inicialize um objeto GridSearchCV com o pipeline e a grade de parâmetros fornecidos.
Ajuste o objeto aos dados e imprima a melhor combinação de parâmetros.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create pipeline with feature selector and classifier
pipe = ___([
    (___, SelectKBest(f_classif)),
    ('clf', ___(random_state=2))])

# Create a parameter grid
params = {
   'feature_selection__k':___,
    ___:[2, 5]}

# Initialize the grid search object
grid_search = ___(___, ___=params)

# Fit it to the data and print the best value combination
print(grid_search.fit(___, ___).___)

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais