Heuristieken combineren

Een andere cyberanalist vertelt je dat tijdens bepaalde soorten aanvallen de geïnfecteerde broncomputer kleine beetjes verkeer verstuurt om detectie te vermijden. Dat doet je afvragen of het beter is om een gecombineerde heuristiek te maken die tegelijk zoekt naar grote aantallen poorten én kleine pakketgroottes. Verbetert dit de prestaties ten opzichte van de eenvoudige poortheuristiek? Net als in de vorige oefening heb je X_train, X_test, y_train en y_test in het geheugen. De voorbeeldcode helpt je ook om de uitkomst van de poortheuristiek, pred_port, te reproduceren. Je hebt ook numpy als np en accuracy_score() al ingeladen.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

De kolom average_packet berekent de gemiddelde pakketgrootte over alle flows die van één bron zijn waargenomen. Neem het gemiddelde van die waarden voor alleen de slechte bronnen in de trainingsset.
Maak nu een nieuwe regel die alle bronnen als positief markeert waarvan het gemiddelde verkeer kleiner is dan de waarde hierboven.
Combineer de regels zodat beide heuristieken tegelijk moeten gelden, met een passende rekenkundige bewerking.
Rapporteer de nauwkeurigheid van de gecombineerde heuristiek.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute the mean of average_packet for bad sources
avg_bad_packet = np.mean(____[____]['average_packet'])

# Label as positive if average_packet is lower than that
pred_packet = ____[____] < avg_bad_packet

# Find indices where pred_port and pred_packet both True
pred_port = X_test['unique_ports'] > avg_bad_ports
pred_both = pred_packet ____ pred_port

# Ports only produced an accuracy of 0.919. Is this better?
print(accuracy_score(____, ____))

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen