Van een heuristiek een classifier maken

Je bent verrast dat heuristieken zo nuttig kunnen zijn. Daarom besluit je de heuristiek dat "te veel unieke poorten verdacht is" te behandelen als een volwaardige classifier. Dat doe je door het aantal unieke poorten per bron te thresholden met het gemiddelde aantal dat wordt gebruikt door slechte broncomputers — dat zijn computers waarvoor het label True is. De gegevensset is al ingeladen en gesplitst in training en test, dus je hebt de objecten X_train, X_test, y_train en y_test in het geheugen. Je imports bevatten accuracy_score() en numpy als np. Ter verduidelijking: je gaat in deze oefening geen classifier uit scikit-learn fitten, maar je definieert expliciet je eigen classificatieregel!

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Selecteer alle slechte hosts uit X_train om een nieuwe gegevensset X_train_bad te vormen. Let op: y_train is een Booleaanse array.
Bereken het gemiddelde van de kolom unique_ports voor slechte hosts en sla dit op in avg_bad_ports.
Beschouw nu een classifier die elk voorbeeld als positief voorspelt waarvan unique_ports groter is dan avg_bad_ports. Sla de voorspellingen van deze classifier op de testdata op in een nieuwe variabele pred_port.
Bereken de nauwkeurigheid van deze classifier op de testdata met accuracy_score().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a new dataset X_train_bad by subselecting bad hosts
X_train_bad = ____[____]

# Calculate the average of unique_ports in bad examples
avg_bad_ports = np.____(____['unique_ports'])

# Label as positive sources that use more ports than that
pred_port = ____['unique_ports'] > ____

# Print the accuracy of the heuristic
print(____(y_test, ____))

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen