Hoe staat het met onze dataintegriteit?

Nieuwe gegevens zijn samengevoegd in de banking DataFrame met details over hoe beleggingen in de kolom inv_amount zijn verdeeld over vier verschillende fondsen A, B, C en D.

Daarnaast zijn de leeftijden en verjaardagen van klanten nu respectievelijk opgeslagen in de kolommen age en birth_date.

Je wilt begrijpen hoe klanten uit verschillende leeftijdsgroepen beleggen. Maar eerst wil je zeker weten dat de gegevens die je analyseert kloppen. Dat doe je door waarden van inv_amount en age kruislings te controleren met de bedragen die in de verschillende fondsen zijn belegd en met de verjaardagen van klanten. Zowel pandas als datetime zijn geïmporteerd als respectievelijk pd en dt.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']

# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____

# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]

# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met vuile data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen, en haalt dubbele datapunten weg om dubbeltellingen te voorkomen.

Exercise 1: Beperkingen op gegevenstypen Exercise 2: Veelvoorkomende gegevenstypen Exercise 3: Numerieke data of ... ?Exercise 4: Strings optellen en getallen aan elkaar plakken Exercise 5: Bereikbeperkingen voor data Exercise 6: Beperkingen voor bandmaten Exercise 7: Terug naar de toekomst Exercise 8: Uniciteitsbeperkingen Exercise 9: Hoe groot is je subset?Exercise 10: Duplicaten vinden Exercise 11: Duplicaten behandelen

Categorische en tekstdata zijn vaak het rommeligst in een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je inconsistenties in spaties en hoofdletters in categorielabels oplost, meerdere categorieën samenvoegt, en strings herformatteert voor consistentie.

Exercise 1: Lidmaatschapsbeperkingen Exercise 2: Alleen voor leden Exercise 3: Consistentie vinden Exercise 4: Categorische variabelen Exercise 5: Categorieën van fouten Exercise 6: Inconsistente categorieën Exercise 7: Categorieën opnieuw toewijzen Exercise 8: Tekstgegevens opschonen Exercise 9: Titels verwijderen en namen overhouden Exercise 10: Hou het beschrijvend

In dit hoofdstuk ga je dieper in op meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogrammen staan in plaats van ponden. Je ontwikkelt ook belangrijke vaardigheden om te controleren of waarden correct zijn opgeteld en of ontbrekende waarden je analyses niet negatief beïnvloeden.

Exercise 1: Uniformiteit Exercise 2: Ambigue datums Exercise 3: Eenduidige valuta Exercise 4: Eenduidige datums Exercise 5: Validatie over velden heen Exercise 6: Cross field of geen cross field?Exercise 7: Hoe staat het met onze dataintegriteit?

Huidige oefening

Exercise 8: Volledigheid Exercise 9: Is dit Missing at Random?Exercise 10: Ontbrekende beleggers Exercise 11: Volg het geld

Recordlinkage is een krachtige techniek om meerdere gegevenssets samen te voegen wanneer waarden typefouten of verschillende schrijfwijzen bevatten. In dit hoofdstuk leer je records te koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe skills om twee datasets met restaurantrecensies te combineren tot één schone mastergegevensset.

Exercise 1: Strings vergelijken Exercise 2: Minimale bewerkingsafstand Exercise 3: Het afkappunt Exercise 4: Categorieën opnieuw toewijzen II Exercise 5: Paren genereren Exercise 6: Koppelen of niet koppelen?Exercise 7: Paren van restaurants Exercise 8: Vergelijkbare restaurants Exercise 9: DataFrames koppelen Exercise 10: De juiste index ophalen Exercise 11: Alles aan elkaar koppelen!Exercise 12: Gefeliciteerd!