Toutes les métriques ne sont pas d’accord

Dans l’exercice précédent, vous avez vu que toutes les métriques ne s’accordent pas pour identifier les plus proches voisins. Mais est-ce que cela signifie qu’elles peuvent aussi diverger sur les anomalies ? Vous décidez de le vérifier. Vous reprenez les mêmes données que précédemment, mais cette fois vous les passez à un détecteur d’anomalies de type Local Outlier Factor. Le module LocalOutlierFactor vous est fourni sous le nom lof, et les données sont disponibles sous features.

Cet exercice fait partie du cours

Concevoir des workflows de Machine Learning en Python

Afficher le cours

Instructions

Détectez les anomalies dans features en utilisant la métrique euclidean.
Détectez les anomalies dans features en utilisant la métrique hamming.
Détectez les anomalies dans features en utilisant la métrique jaccard.
Vérifiez si les trois métriques s’accordent sur au moins une même anomalie.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Compute outliers according to the euclidean metric
out_eucl = ____(metric='euclidean').fit_predict(features)

# Compute outliers according to the hamming metric
out_hamm = ____(metric=____).fit_predict(features)

# Compute outliers according to the jaccard metric
out_jacc  = ____(____=____).____(features)

# Find if the metrics agree on any one datapoint
print(any(____ + ____ + ____ == ____))

Modifier et exécuter le code

Concevoir des workflows de Machine Learning en Python

AvancéNiveau de compétence

4.8+

74 reviews

Dans les chapitres précédents, vous avez bâti une base solide en apprentissage supervisé, y compris le déploiement des modèles en production, mais en supposant toujours la disponibilité d’un jeu de données étiqueté pour votre analyse. Dans ce chapitre, vous relevez le défi de modéliser des données sans labels, ou avec très peu de labels. Vous explorerez la détection d’anomalies, une forme de modélisation non supervisée, ainsi que l’apprentissage fondé sur la distance, où des hypothèses sur la similarité entre deux exemples peuvent se substituer aux labels pour vous aider à atteindre une précision comparable à celle d’un workflow supervisé. À l’issue de ce chapitre, vous vous distinguerez nettement en sachant avec assurance quels outils utiliser pour adapter votre workflow et surmonter des défis courants du monde réel.

Exercise 1: Détection d’anomalies Exercise 2: Un outlier simple Exercise 3: Contamination LoF Exercise 4: Détection de nouveauté Exercise 5: Une nouveauté simple Exercise 6: Trois détecteurs de nouveauté Exercise 7: Contamination : retour Exercise 8: Apprentissage basé sur la distance Exercise 9: Trouver le plus proche voisin Exercise 10: Toutes les métriques ne sont pas d’accord

Exercice en cours

Exercise 11: Données non structurées Exercise 12: Levenshtein restreint Exercise 13: Tout rassembler Exercise 14: Remarques finales