Contaminação no LoF

Sua consultora médica na startup de arritmia informa que seus dados de treino podem não conter todos os tipos possíveis de arritmia. Como, afinal, você vai detectar esses outros tipos sem nenhum exemplo rotulado? Será que um detector de anomalias consegue diferenciar entre saudável e não saudável sem acesso a rótulos? Antes disso, você vai experimentar o parâmetro de contaminação para ver seu efeito na matriz de confusão. Você tem LocalOutlierFactor como lof, numpy como np, os rótulos como ground_truth codificados em -1 e 1, exatamente como a saída do Local Outlier Factor, e os dados de treino não rotulados como X.

Este exercício faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Fit the local outlier factor and output predictions
preds = lof().____(X)

# Print the confusion matrix
print(____(ground_truth, preds))

Editar e executar o código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

74 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF

Exercício atual

Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais