Hraniční hodnota podobnosti

V tomto cvičení, a v celé této kapitole, budeš pracovat s DataFrame restaurants, který obsahuje data o různých restauracích. Tvým hlavním cílem je vytvořit systém doporučování restaurací, ale nejdřív je potřeba data vyčistit.

Tato verze restaurants byla sesbírána z mnoha zdrojů, přičemž sloupec cuisine_type je plný překlepů a má obsahovat pouze typy kuchyně italian, american a asian. Unikátních kategorií je tolik, že jejich ruční přemapování není praktické – lepší volbou je využít podobnost řetězců.

Předtím ale chceš určit hraniční hodnotu skóre podobnosti. Použij funkci process.extract() z knihovny thefuzz a najdi skóre podobnosti pro nejvzdálenější překlep v každé kategorii.

Toto cvičení je součástí kurzu

Čištění dat v Pythonu

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)

Upravit a spustit kód

Toto cvičení je součástí kurzu

Čištění dat v Pythonu

SkillTag.level.intermediateSkillTag.label

4.8+

Začněte kurz zdarma

V této kapitole se naučíš, jak řešit nejčastější problémy s nekvalitními daty. Budeš převádět datové typy, aplikovat omezení rozsahu pro odstranění budoucích datových bodů a odstraňovat duplicitní záznamy, aby nedocházelo k dvojímu počítání.

Exercise 1: Omezení datových typů Exercise 2: Běžné datové typy Exercise 3: Číselná data, nebo ... ?Exercise 4: Sčítání řetězců a zřetězení čísel Exercise 5: Omezení rozsahu dat Exercise 6: Omezení velikosti pneumatik Exercise 7: Zpátky do budoucnosti Exercise 8: Omezení jedinečnosti Exercise 9: Jak velká je tvoje podmnožina?Exercise 10: Hledání duplicit Exercise 11: Ošetření duplicit

Kategorická a textová data bývají kvůli své nestrukturované povaze jedněmi z nejproblematičtějších částí datové sady. V této kapitole se naučíš, jak opravit nekonzistentní mezery a velikost písmen v popiscích kategorií, sloučit více kategorií do jedné a sjednotit formát řetězců.

Exercise 1: Omezení členství Exercise 2: Jen pro členy Exercise 3: Hledání nekonzistencí Exercise 4: Kategorické proměnné Exercise 5: Kategorie chyb Exercise 6: Nekonzistentní kategorie Exercise 7: Přemapování kategorií Exercise 8: Čištění textových dat Exercise 9: Odstranění titulů a práce se jmény Exercise 10: Dostatečně popisné odpovědi

V této kapitole se ponoříš do pokročilejších problémů s čištěním dat – například zajistíš, aby byly váhy všude uváděny v kilogramech místo librách. Získáš také cenné dovednosti, které ti pomohou ověřit správnost zadaných hodnot a zajistit, aby chybějící hodnoty negativně neovlivňovaly tvoje analýzy.

Exercise 1: Jednotnost Exercise 2: Nejednoznačná data Exercise 3: Jednotná měna Exercise 4: Jednotné formáty dat Exercise 5: Křížová validace polí Exercise 6: Křížová validace polí, nebo ne?Exercise 7: Jak je na tom integrita našich dat?Exercise 8: Úplnost dat Exercise 9: Chybí náhodně?Exercise 10: Chybějící investoři Exercise 11: Sleduj peníze

Propojování záznamů je výkonná technika sloužící ke slučování více datových sad dohromady – hodí se tehdy, když hodnoty obsahují překlepy nebo různé varianty pravopisu. V této kapitole se naučíš propojovat záznamy výpočtem podobnosti řetězců a své nové dovednosti využiješ ke spojení dvou datových sad s recenzemi restaurací do jedné čisté hlavní datové sady.

Exercise 1: Porovnávání řetězců Exercise 2: Minimální editační vzdálenost Exercise 3: Hraniční hodnota podobnosti

Aktuální cvičení

Exercise 4: Přemapování kategorií II Exercise 5: Generování párů Exercise 6: Propojovat, nebo nepropojovat?Exercise 7: Páry restaurací Exercise 8: Podobné restaurace Exercise 9: Propojování DataFrames Exercise 10: Správný index Exercise 11: Propojení dat!Exercise 12: Gratulujeme!