Contaminação revisitada

Você percebe que o SVM de uma classe não tem o parâmetro contamination. Mas, a essa altura, você já sabe que precisa controlar a proporção de exemplos rotulados como novidades para ajustar sua taxa de falsos positivos. Então, você decide experimentar aplicar um limite às pontuações. O detector foi importado como onesvm; você também tem os dados como X_train, X_test, y_train, y_test, numpy como np e confusion_matrix().

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Treine o SVM de 1 classe e calcule as pontuações dos dados de teste.
Calcule a proporção observada de outliers nos dados de teste.
Use np.quantile() para encontrar o ponto de corte nas pontuações que atinja essa proporção.
Use esse limite para rotular os dados de teste. Imprima a matriz de confusão.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Fit a one-class SVM detector and score the test data
nov_det = ____(X_train)
scores = ____(X_test)

# Find the observed proportion of outliers in the test data
prop = np.____(y_test==____)

# Compute the appropriate threshold
threshold = np.____(____, ____)

# Print the confusion matrix for the thresholded scores
print(confusion_matrix(y_test, ____ > ____))

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada

Exercicio Atual

Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais