Outliers verwijderen op basis van percentage

Een manier om te zorgen dat een klein deel van de data geen buitensporig negatief effect heeft, is door een bepaald percentage van de grootste en/of kleinste waarden in de kolom te verwijderen. Dit doe je door het relevante kwantiel te bepalen en de data daarmee te trimmen met een mask. Deze aanpak is vooral handig als je vermoedt dat de hoogste waarden in je gegevensset beter vermeden kunnen worden. Houd er bij deze aanpak wel rekening mee dat dit, zelfs als er geen outliers zijn, nog steeds dezelfde hoogste N procent uit de gegevensset verwijdert.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Oefeninstructies

Bepaal het 95e kwantiel van de kolom ConvertedSalary.
Trim de DataFrame so_numeric_df zodat alle rijen behouden blijven waarvoor ConvertedSalary kleiner is dan het 95e kwantiel.
Plot het histogram van so_numeric_df[['ConvertedSalary']].
Plot het histogram van trimmed_df[['ConvertedSalary']].

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)

# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]

# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()

# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk ontdek je wat feature engineering is en hoe je ermee aan de slag gaat op data uit de praktijk. Je laadt, verkent en visualiseert een gegevensset met enquête-antwoorden en leert zo over de onderliggende datatypes en waarom die bepalen hoe je je features moet engineeren. Met het pakket pandas maak je nieuwe features op basis van zowel categorische als continue kolommen.

Exercise 1: Waarom kenmerken genereren?Exercise 2: Je data leren kennen Exercise 3: Specifieke datatypes selecteren Exercise 4: Werken met categorische features Exercise 5: One-hot encoding en dummyvariabelen Exercise 6: Omgaan met ongebruikelijke categorieën Exercise 7: Numerieke variabelen Exercise 8: Kolommen binariseren Exercise 9: Waarden indelen in bins

Dit hoofdstuk laat je kennismaken met de realiteit van rommelige en onvolledige data. Je leert waar je data ontbrekende waarden heeft en verkent meerdere manieren om daarmee om te gaan. Je gebruikt ook stringbewerkingen om ongewenste tekens in je gegevensset op te schonen.

Exercise 1: Waarom bestaan ontbrekende waarden?Exercise 2: Hoe schaars is mijn data?Exercise 3: Ontbrekende waarden vinden Exercise 4: Omgaan met ontbrekende waarden (I)Exercise 5: Listwise deletion Exercise 6: Missende waarden vervangen door constanten Exercise 7: Omgaan met missende waarden (II)Exercise 8: Ontbrekende continue waarden invullen Exercise 9: Waarden imputeren in voorspellende modellen Exercise 10: Omgaan met andere databronproblemen Exercise 11: Omgaan met losse tekens (I)Exercise 12: Omgaan met losse tekens (II)Exercise 13: Method chaining

In dit hoofdstuk richt je je op het analyseren van de onderliggende verdeling van je data en of die invloed heeft op je Machine Learning-pijplijn. Je leert hoe je omgaat met scheve data en met situaties waarin uitschieters je analyse negatief kunnen beïnvloeden.

Exercise 1: Data-verdelingen Exercise 2: Hoe zien je data eruit? (I)Exercise 3: Hoe zien je gegevens eruit? (II)Exercise 4: Wanneer hoef je je data niet te transformeren?Exercise 5: Schalen en transformaties Exercise 6: Normalisatie Exercise 7: Standaardiseren Exercise 8: Logtransformatie Exercise 9: Wanneer kun je normalisatie gebruiken?Exercise 10: Uitschieters verwijderen Exercise 11: Outliers verwijderen op basis van percentage

Huidige oefening

Exercise 12: Statistische verwijdering van uitschieters Exercise 13: Schaal en transformeer nieuwe gegevens Exercise 14: Transformaties voor train en test (I)Exercise 15: Transformaties voor trainen en testen (II)

Tot slot werk je in dit hoofdstuk met ongestructureerde tekstdata en ontdek je manieren om kolomfeatures te maken uit een tekstcorpus. Je vergelijkt hoe verschillende aanpakken beïnvloeden hoeveel context uit tekst wordt gehaald en hoe je de behoefte aan context in balans houdt zonder te veel features te creëren.

Exercise 1: Tekst encoderen Exercise 2: Je tekst opschonen Exercise 3: Hoogwaardige tekstkenmerken Exercise 4: Woordtellingen Exercise 5: Woorden tellen (I)Exercise 6: Woorden tellen (II)Exercise 7: Je features beperken Exercise 8: Tekst naar DataFrame Exercise 9: Term frequency-inverse document frequency Exercise 10: Tf-idf Exercise 11: Tf-idf-waarden inspecteren Exercise 12: Ongeziene data transformeren Exercise 13: N-grammen Exercise 14: Langere n-grams gebruiken Exercise 15: De meest voorkomende woorden vinden Exercise 16: Afronding