Is de bron of de bestemming slecht?

In de vorige les gebruikte je de bestemmings-computer als je entiteit van interesse. Je cybersecurity-analist liet je echter weten dat de geïnfecteerde machines het slechte verkeer genereren en daarom als bron verschijnen, niet als bestemming, in de flows-gegevensset.

De gegevens flows zijn al geladen, net als de lijst bad met geïnfecteerde ID's en de feature-extractor featurizer() uit de vorige les. Je hebt ook numpy als np, AdaBoostClassifier() en cross_val_score() beschikbaar.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Maak een data frame waarin elke rij een featurevector is voor een source_computer. Groepeer op source computer-ID in de flows-gegevensset en pas de feature-extractor toe op elke groep.
Zet de iterator om naar een data frame door er list() op aan te roepen.
Maak labels door te controleren of elke source_computer-ID voorkomt in de lijst met slechte ID's die je hebt gekregen.
Beoordeel een AdaBoostClassifier() op deze data met cross_val_score().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Group by source computer, and apply the feature extractor
out = flows.____('source_computer').____(featurize)

# Convert the iterator to a dataframe by calling list on it
X = pd.DataFrame(____, index=____)

# Check which sources in X.index are bad to create labels
y = [x in bads for x in ____]

# Report the average accuracy of Adaboost over 3-fold CV
print(np.mean(____(____, X, y)))

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen