Ošetření duplicit

V předchozím cvičení jsi ověřil/a, že nová aktualizace přidávaná do ride_sharing obsahuje chybu, která pro některé hodnoty sloupce ride_id generuje jak kompletní, tak nekompletní duplicitní řádky – s občasnými rozdíly v hodnotách sloupců user_birth_year a duration.

V tomto cvičení se těchto duplicitních řádků zbavíš: nejprve odstraníš kompletní duplicity a poté sloučíš nekompletní duplicitní řádky do jednoho, přičemž pro každou skupinu nekompletních duplicit zachováš průměrnou hodnotu duration a minimální hodnotu user_birth_year.

Toto cvičení je součástí kurzu

Čištění dat v Pythonu

Pokyny k cvičení

Odstraň kompletní duplicity z ride_sharing a výsledek ulož do ride_dup.
Vytvoř slovník statistics, který definuje agregaci minimum pro user_birth_year a agregaci mean (průměr) pro duration.
Odstraň nekompletní duplicity tak, že data seskupíš podle ride_id a použiješ agregaci ze slovníku statistics.
Znovu vyhledej duplicity a spusť příkaz assert, který ověří, že de-duplikace proběhla správně.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

Upravit a spustit kód

Toto cvičení je součástí kurzu

Čištění dat v Pythonu

SkillTag.level.intermediateSkillTag.label

4.8+

Začněte kurz zdarma

V této kapitole se naučíš, jak řešit nejčastější problémy s nekvalitními daty. Budeš převádět datové typy, aplikovat omezení rozsahu pro odstranění budoucích datových bodů a odstraňovat duplicitní záznamy, aby nedocházelo k dvojímu počítání.

Exercise 1: Omezení datových typů Exercise 2: Běžné datové typy Exercise 3: Číselná data, nebo ... ?Exercise 4: Sčítání řetězců a zřetězení čísel Exercise 5: Omezení rozsahu dat Exercise 6: Omezení velikosti pneumatik Exercise 7: Zpátky do budoucnosti Exercise 8: Omezení jedinečnosti Exercise 9: Jak velká je tvoje podmnožina?Exercise 10: Hledání duplicit Exercise 11: Ošetření duplicit

Aktuální cvičení

Kategorická a textová data bývají kvůli své nestrukturované povaze jedněmi z nejproblematičtějších částí datové sady. V této kapitole se naučíš, jak opravit nekonzistentní mezery a velikost písmen v popiscích kategorií, sloučit více kategorií do jedné a sjednotit formát řetězců.

Exercise 1: Omezení členství Exercise 2: Jen pro členy Exercise 3: Hledání nekonzistencí Exercise 4: Kategorické proměnné Exercise 5: Kategorie chyb Exercise 6: Nekonzistentní kategorie Exercise 7: Přemapování kategorií Exercise 8: Čištění textových dat Exercise 9: Odstranění titulů a práce se jmény Exercise 10: Dostatečně popisné odpovědi

V této kapitole se ponoříš do pokročilejších problémů s čištěním dat – například zajistíš, aby byly váhy všude uváděny v kilogramech místo librách. Získáš také cenné dovednosti, které ti pomohou ověřit správnost zadaných hodnot a zajistit, aby chybějící hodnoty negativně neovlivňovaly tvoje analýzy.

Exercise 1: Jednotnost Exercise 2: Nejednoznačná data Exercise 3: Jednotná měna Exercise 4: Jednotné formáty dat Exercise 5: Křížová validace polí Exercise 6: Křížová validace polí, nebo ne?Exercise 7: Jak je na tom integrita našich dat?Exercise 8: Úplnost dat Exercise 9: Chybí náhodně?Exercise 10: Chybějící investoři Exercise 11: Sleduj peníze

Propojování záznamů je výkonná technika sloužící ke slučování více datových sad dohromady – hodí se tehdy, když hodnoty obsahují překlepy nebo různé varianty pravopisu. V této kapitole se naučíš propojovat záznamy výpočtem podobnosti řetězců a své nové dovednosti využiješ ke spojení dvou datových sad s recenzemi restaurací do jedné čisté hlavní datové sady.

Exercise 1: Porovnávání řetězců Exercise 2: Minimální editační vzdálenost Exercise 3: Hraniční hodnota podobnosti Exercise 4: Přemapování kategorií II Exercise 5: Generování párů Exercise 6: Propojovat, nebo nepropojovat?Exercise 7: Páry restaurací Exercise 8: Podobné restaurace Exercise 9: Propojování DataFrames Exercise 10: Správný index Exercise 11: Propojení dat!Exercise 12: Gratulujeme!