Duplicaten vinden

Een nieuwe update van de datapijplijn die ride_sharing voedt, heeft de kolom ride_id toegevoegd. Deze is een unieke identificator voor elke rit.

De update viel echter samen met veel kortere gemiddelde ritduren en onregelmatige geboortedata van gebruikers die in de toekomst liggen. Het belangrijkste: het aantal gemaakte ritten is ’s nachts met 20% toegenomen, waardoor je vermoedt dat er zowel volledige als onvolledige duplicaten in de DataFrame ride_sharing zitten.

In deze oefening bevestig je dat vermoeden door die duplicaten te vinden. Een steekproef van ride_sharing staat in je omgeving, net als alle pakketten waar je tot nu toe mee hebt gewerkt.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Oefeninstructies

Zoek dubbele rijen van ride_id in de DataFrame ride_sharing en zet keep op False.
Subselecteer ride_sharing met duplicates, sorteer op ride_id en wijs het resultaat toe aan duplicated_rides.
Print de kolommen ride_id, duration en user_birth_year van duplicated_rides in die volgorde.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met vuile data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen, en haalt dubbele datapunten weg om dubbeltellingen te voorkomen.

Exercise 1: Beperkingen op gegevenstypen Exercise 2: Veelvoorkomende gegevenstypen Exercise 3: Numerieke data of ... ?Exercise 4: Strings optellen en getallen aan elkaar plakken Exercise 5: Bereikbeperkingen voor data Exercise 6: Beperkingen voor bandmaten Exercise 7: Terug naar de toekomst Exercise 8: Uniciteitsbeperkingen Exercise 9: Hoe groot is je subset?Exercise 10: Duplicaten vinden

Huidige oefening

Exercise 11: Duplicaten behandelen

Categorische en tekstdata zijn vaak het rommeligst in een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je inconsistenties in spaties en hoofdletters in categorielabels oplost, meerdere categorieën samenvoegt, en strings herformatteert voor consistentie.

Exercise 1: Lidmaatschapsbeperkingen Exercise 2: Alleen voor leden Exercise 3: Consistentie vinden Exercise 4: Categorische variabelen Exercise 5: Categorieën van fouten Exercise 6: Inconsistente categorieën Exercise 7: Categorieën opnieuw toewijzen Exercise 8: Tekstgegevens opschonen Exercise 9: Titels verwijderen en namen overhouden Exercise 10: Hou het beschrijvend

In dit hoofdstuk ga je dieper in op meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogrammen staan in plaats van ponden. Je ontwikkelt ook belangrijke vaardigheden om te controleren of waarden correct zijn opgeteld en of ontbrekende waarden je analyses niet negatief beïnvloeden.

Exercise 1: Uniformiteit Exercise 2: Ambigue datums Exercise 3: Eenduidige valuta Exercise 4: Eenduidige datums Exercise 5: Validatie over velden heen Exercise 6: Cross field of geen cross field?Exercise 7: Hoe staat het met onze dataintegriteit?Exercise 8: Volledigheid Exercise 9: Is dit Missing at Random?Exercise 10: Ontbrekende beleggers Exercise 11: Volg het geld

Recordlinkage is een krachtige techniek om meerdere gegevenssets samen te voegen wanneer waarden typefouten of verschillende schrijfwijzen bevatten. In dit hoofdstuk leer je records te koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe skills om twee datasets met restaurantrecensies te combineren tot één schone mastergegevensset.

Exercise 1: Strings vergelijken Exercise 2: Minimale bewerkingsafstand Exercise 3: Het afkappunt Exercise 4: Categorieën opnieuw toewijzen II Exercise 5: Paren genereren Exercise 6: Koppelen of niet koppelen?Exercise 7: Paren van restaurants Exercise 8: Vergelijkbare restaurants Exercise 9: DataFrames koppelen Exercise 10: De juiste index ophalen Exercise 11: Alles aan elkaar koppelen!Exercise 12: Gefeliciteerd!