Lidando com ruído nos rótulos

Uma das suas analistas de segurança informa que muitos dos rótulos dos primeiros 100 computadores de origem nos seus dados de treino podem estar errados por causa de um erro no banco de dados. Ela espera que você ainda possa usar os dados, porque a maioria dos rótulos ainda está correta, mas pede que você trate esses 100 rótulos como "ruidosos". Felizmente, você sabe como fazer isso usando aprendizado com pesos. Os dados contaminados estão disponíveis no seu workspace como X_train, X_test, y_train_noisy, y_test. Você quer ver se consegue melhorar o desempenho de um classificador GaussianNB() usando aprendizado com pesos. Você pode usar o parâmetro opcional sample_weight, que é suportado pelos métodos .fit() da maioria dos classificadores populares. A função accuracy_score() já está carregada. Você pode consultar a imagem abaixo para orientação.

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Ajuste uma instância de GaussianNB() aos dados de treino com rótulos contaminados.
Informe sua acurácia nos dados de teste usando accuracy_score().
Crie pesos que atribuam o dobro de peso aos rótulos de ground truth em relação aos rótulos ruidosos. Lembre-se de que os pesos dizem respeito aos dados de treino.
Reajuste o classificador usando os pesos acima e informe sua acurácia.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Fit a Gaussian Naive Bayes classifier to the training data
clf = ____.____(____, y_train_noisy)

# Report its accuracy on the test data
print(accuracy_score(y_test, ____.____(X_test)))

# Assign half the weight to the first 100 noisy examples
weights = [____]*100 + [1.0]*(len(____)-100)

# Refit using weights and report accuracy. Has it improved?
clf_weights = GaussianNB().fit(X_train, y_train_noisy, ____=____)
print(accuracy_score(y_test, ____))

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Anomaly detection Exercise 2: A simple outlier Exercise 3: LoF contamination Exercise 4: Novelty detection Exercise 5: A simple novelty Exercise 6: Three novelty detectors Exercise 7: Contamination revisited Exercise 8: Distance-based learning Exercise 9: Find the neighbor Exercise 10: Not all metrics agree Exercise 11: Unstructured data Exercise 12: Restricted Levenshtein Exercise 13: Bringing it all together Exercise 14: Concluding remarks