De venstergrootte afstemmen

Je wilt zelf controleren dat de optimale venstergrootte voor de aritmiegegevensset 50 is. Je hebt de gegevensset gekregen als een pandas-dataframe met de naam arrh, en je wilt een subset van de data gebruiken tot en met tijdstip t_now. Je testdata is beschikbaar als X_test, y_test. Je probeert meerdere venstergroottes uit, van 10 tot 100, traint voor elk venster een naive Bayes-classifier, beoordeelt de F1-score op de testdata en kiest vervolgens de best presterende venstergrootte. Je hebt ook numpy beschikbaar als np, en de functie f1_score() is al geïmporteerd. Tot slot is er een lege lijst accuracies voor je geïnitialiseerd om de accuracies van de vensters in op te slaan.

Deze oefening maakt deel uit van de cursus

Machine Learning-workflows ontwerpen in Python

Bekijk cursus

Oefeninstructies

Definieer de index van een schuivend venster van grootte w_size dat eindigt bij t_now met de methode .loc().
Stel X samen vanuit het schuivende venster door de kolom class te verwijderen. Sla die kolom apart op als y.
Train een naive Bayes-classifier op X en y, en gebruik deze om de labels van de testdata X_test te voorspellen.
Bereken de F1-score van deze voorspellingen voor elke venstergrootte en bepaal de best presterende venstergrootte.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Loop over window sizes
for w_size in wrange:

    # Define sliding window
    sliding = arrh.____[____:t_now]

    # Extract X and y from the sliding window
    X, y = sliding.____('class', ____), sliding[____]
    
    # Fit the classifier and store the F1 score
    preds = GaussianNB().fit(____, ____).____(X_test)
    accuracies.append(____(____, ____))

# Estimate the best performing window size
optimal_window = ____[np.____(accuracies)]

Code bewerken en uitvoeren

Machine Learning-workflows ontwerpen in Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.

Exercise 1: Anomaliedetectie Exercise 2: Een simpele uitschieter Exercise 3: LoF-contaminatie Exercise 4: Novelty detection Exercise 5: Een eenvoudige novelty Exercise 6: Drie novelty-detectors Exercise 7: Contaminatie herbekeken Exercise 8: Afstandsgebaseerd leren Exercise 9: Zoek de buur Exercise 10: Niet alle metriekwaarden zijn het eens Exercise 11: Ongestructureerde data Exercise 12: Restricted Levenshtein Exercise 13: Alles samenbrengen Exercise 14: Afsluitende opmerkingen