Volg het geld

In deze oefening werk je met een andere versie van de banking-DataFrame die ontbrekende waarden bevat voor zowel de kolom cust_id als de kolom acct_amount.

Je wilt analyses maken over hoeveel unieke klanten de bank heeft, het gemiddelde bedrag dat klanten aanhouden en meer. Je weet dat rijen met een ontbrekende cust_id je niet echt helpen, en dat acct_amount gemiddeld meestal 5 keer zo groot is als inv_amount.

In deze oefening verwijder je rijen van banking met ontbrekende cust_id’s en imputeer je ontbrekende waarden van acct_amount met wat domeinkennis.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Oefeninstructies

Gebruik .dropna() om ontbrekende waarden in de kolom cust_id in banking te verwijderen en sla de resultaten op in banking_fullid.
Gebruik inv_amount om de geschatte rekeningbedragen voor banking_fullid te berekenen door de bedragen gelijk te zetten aan inv_amount * 5, en wijs de resultaten toe aan acct_imp.
Imputeer de ontbrekende waarden van acct_amount in banking_fullid met de nieuw aangemaakte acct_imp met .fillna().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met vuile data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen, en haalt dubbele datapunten weg om dubbeltellingen te voorkomen.

Exercise 1: Beperkingen op gegevenstypen Exercise 2: Veelvoorkomende gegevenstypen Exercise 3: Numerieke data of ... ?Exercise 4: Strings optellen en getallen aan elkaar plakken Exercise 5: Bereikbeperkingen voor data Exercise 6: Beperkingen voor bandmaten Exercise 7: Terug naar de toekomst Exercise 8: Uniciteitsbeperkingen Exercise 9: Hoe groot is je subset?Exercise 10: Duplicaten vinden Exercise 11: Duplicaten behandelen

Categorische en tekstdata zijn vaak het rommeligst in een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je inconsistenties in spaties en hoofdletters in categorielabels oplost, meerdere categorieën samenvoegt, en strings herformatteert voor consistentie.

Exercise 1: Lidmaatschapsbeperkingen Exercise 2: Alleen voor leden Exercise 3: Consistentie vinden Exercise 4: Categorische variabelen Exercise 5: Categorieën van fouten Exercise 6: Inconsistente categorieën Exercise 7: Categorieën opnieuw toewijzen Exercise 8: Tekstgegevens opschonen Exercise 9: Titels verwijderen en namen overhouden Exercise 10: Hou het beschrijvend

In dit hoofdstuk ga je dieper in op meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogrammen staan in plaats van ponden. Je ontwikkelt ook belangrijke vaardigheden om te controleren of waarden correct zijn opgeteld en of ontbrekende waarden je analyses niet negatief beïnvloeden.

Exercise 1: Uniformiteit Exercise 2: Ambigue datums Exercise 3: Eenduidige valuta Exercise 4: Eenduidige datums Exercise 5: Validatie over velden heen Exercise 6: Cross field of geen cross field?Exercise 7: Hoe staat het met onze dataintegriteit?Exercise 8: Volledigheid Exercise 9: Is dit Missing at Random?Exercise 10: Ontbrekende beleggers Exercise 11: Volg het geld

Huidige oefening

Recordlinkage is een krachtige techniek om meerdere gegevenssets samen te voegen wanneer waarden typefouten of verschillende schrijfwijzen bevatten. In dit hoofdstuk leer je records te koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe skills om twee datasets met restaurantrecensies te combineren tot één schone mastergegevensset.

Exercise 1: Strings vergelijken Exercise 2: Minimale bewerkingsafstand Exercise 3: Het afkappunt Exercise 4: Categorieën opnieuw toewijzen II Exercise 5: Paren genereren Exercise 6: Koppelen of niet koppelen?Exercise 7: Paren van restaurants Exercise 8: Vergelijkbare restaurants Exercise 9: DataFrames koppelen Exercise 10: De juiste index ophalen Exercise 11: Alles aan elkaar koppelen!Exercise 12: Gefeliciteerd!