Engenharia de atributos em dados agrupados

Agora você vai dar continuidade ao exercício anterior, considerando um atributo adicional: o número de protocolos únicos usados por cada computador de origem. Observe que, com dados agrupados, sempre é possível construir atributos dessa forma: você pode começar tomando o número de elementos únicos de todas as colunas categóricas e a média de todas as colunas numéricas. Como antes, você tem flows pré-carregado, cross_val_score() para medir acurácia, AdaBoostClassifier(), pandas como pd e numpy como np.

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Aplique uma função lambda no iterador de grupos fornecido para calcular o número de protocolos únicos usados por cada computador de origem. Você pode usar set() para reduzir a coluna protocol a um conjunto de valores únicos.
Converta o resultado em um data frame com o formato correto, fornecendo um índice e nomeando a coluna como protocol.
Concatene o novo data frame com o antigo, disponível como X.
Avalie a acurácia de AdaBoostClassifier() nesse novo conjunto de dados usando cross_val_score().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a feature counting unique protocols per source
protocols = flows.groupby('source_computer').apply(
  lambda df: ____)

# Convert this feature into a dataframe, naming the column
protocols_DF = pd.DataFrame(
  protocols, index=____, columns=____)

# Now concatenate this feature with the previous dataset, X
X_more = pd.concat([X, ____], axis=____)

# Refit the classifier and report its accuracy
print(____(____(
  AdaBoostClassifier(), ____, y)))

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais