La source ou la destination est-elle en cause ?

Dans la leçon précédente, vous aviez utilisé l’ordinateur de destination comme entité d’intérêt. Cependant, votre analyste cybersécurité vient de vous préciser que ce sont les machines infectées qui génèrent le trafic malveillant et apparaissent donc comme source, et non comme destination, dans le jeu de données flows.

Les données flows ont été préchargées, ainsi que la liste bad des identifiants infectés et l’extracteur de caractéristiques featurizer() de la leçon précédente. Vous avez également numpy disponible sous np, AdaBoostClassifier(), et cross_val_score().

Cet exercice fait partie du cours

Concevoir des workflows de Machine Learning en Python

Afficher le cours

Instructions

Créez un data frame où chaque ligne est un vecteur de caractéristiques pour un source_computer. Regroupez par identifiant d’ordinateur source dans le jeu de données flows et appliquez l’extracteur de caractéristiques à chaque groupe.
Convertissez l’itérateur en data frame en appelant list() dessus.
Créez les étiquettes en vérifiant si chaque identifiant source_computer appartient à la liste des machines infectées qui vous a été fournie.
Évaluez un AdaBoostClassifier() sur ces données à l’aide de cross_val_score().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Group by source computer, and apply the feature extractor
out = flows.____('source_computer').____(featurize)

# Convert the iterator to a dataframe by calling list on it
X = pd.DataFrame(____, index=____)

# Check which sources in X.index are bad to create labels
y = [x in bads for x in ____]

# Report the average accuracy of Adaboost over 3-fold CV
print(np.mean(____(____, X, y)))

Modifier et exécuter le code

Concevoir des workflows de Machine Learning en Python

AvancéNiveau de compétence

4.8+

74 reviews

Dans les chapitres précédents, vous avez bâti une base solide en apprentissage supervisé, y compris le déploiement des modèles en production, mais en supposant toujours la disponibilité d’un jeu de données étiqueté pour votre analyse. Dans ce chapitre, vous relevez le défi de modéliser des données sans labels, ou avec très peu de labels. Vous explorerez la détection d’anomalies, une forme de modélisation non supervisée, ainsi que l’apprentissage fondé sur la distance, où des hypothèses sur la similarité entre deux exemples peuvent se substituer aux labels pour vous aider à atteindre une précision comparable à celle d’un workflow supervisé. À l’issue de ce chapitre, vous vous distinguerez nettement en sachant avec assurance quels outils utiliser pour adapter votre workflow et surmonter des défis courants du monde réel.

Exercise 1: Détection d’anomalies Exercise 2: Un outlier simple Exercise 3: Contamination LoF Exercise 4: Détection de nouveauté Exercise 5: Une nouveauté simple Exercise 6: Trois détecteurs de nouveauté Exercise 7: Contamination : retour Exercise 8: Apprentissage basé sur la distance Exercise 9: Trouver le plus proche voisin Exercise 10: Toutes les métriques ne sont pas d’accord Exercise 11: Données non structurées Exercise 12: Levenshtein restreint Exercise 13: Tout rassembler Exercise 14: Remarques finales