Het afkappunt

In deze oefening, en de rest van dit hoofdstuk, werk je met de DataFrame restaurants met gegevens over verschillende restaurants. Je uiteindelijke doel is een aanbevelingssysteem voor restaurants bouwen, maar eerst moet je je data opschonen.

Deze versie van restaurants is afkomstig uit veel bronnen, waarbij de kolom cuisine_type vol zit met typfouten. Die kolom zou alleen de types italian, american en asian mogen bevatten. Er zijn zo veel unieke categorieën dat handmatig hercoderen niet schaalbaar is; het is beter om stringsimilariteit te gebruiken.

Voordat je dat doet, wil je het afkappunt voor de similariteitsscore bepalen met de functie process.extract() uit thefuzz, door de similariteitsscore te vinden van de meest verre typfout van elke categorie.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met vuile data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen, en haalt dubbele datapunten weg om dubbeltellingen te voorkomen.

Exercise 1: Beperkingen op gegevenstypen Exercise 2: Veelvoorkomende gegevenstypen Exercise 3: Numerieke data of ... ?Exercise 4: Strings optellen en getallen aan elkaar plakken Exercise 5: Bereikbeperkingen voor data Exercise 6: Beperkingen voor bandmaten Exercise 7: Terug naar de toekomst Exercise 8: Uniciteitsbeperkingen Exercise 9: Hoe groot is je subset?Exercise 10: Duplicaten vinden Exercise 11: Duplicaten behandelen

Categorische en tekstdata zijn vaak het rommeligst in een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je inconsistenties in spaties en hoofdletters in categorielabels oplost, meerdere categorieën samenvoegt, en strings herformatteert voor consistentie.

Exercise 1: Lidmaatschapsbeperkingen Exercise 2: Alleen voor leden Exercise 3: Consistentie vinden Exercise 4: Categorische variabelen Exercise 5: Categorieën van fouten Exercise 6: Inconsistente categorieën Exercise 7: Categorieën opnieuw toewijzen Exercise 8: Tekstgegevens opschonen Exercise 9: Titels verwijderen en namen overhouden Exercise 10: Hou het beschrijvend

In dit hoofdstuk ga je dieper in op meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogrammen staan in plaats van ponden. Je ontwikkelt ook belangrijke vaardigheden om te controleren of waarden correct zijn opgeteld en of ontbrekende waarden je analyses niet negatief beïnvloeden.

Exercise 1: Uniformiteit Exercise 2: Ambigue datums Exercise 3: Eenduidige valuta Exercise 4: Eenduidige datums Exercise 5: Validatie over velden heen Exercise 6: Cross field of geen cross field?Exercise 7: Hoe staat het met onze dataintegriteit?Exercise 8: Volledigheid Exercise 9: Is dit Missing at Random?Exercise 10: Ontbrekende beleggers Exercise 11: Volg het geld

Recordlinkage is een krachtige techniek om meerdere gegevenssets samen te voegen wanneer waarden typefouten of verschillende schrijfwijzen bevatten. In dit hoofdstuk leer je records te koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe skills om twee datasets met restaurantrecensies te combineren tot één schone mastergegevensset.

Exercise 1: Strings vergelijken Exercise 2: Minimale bewerkingsafstand Exercise 3: Het afkappunt

Huidige oefening

Exercise 4: Categorieën opnieuw toewijzen II Exercise 5: Paren genereren Exercise 6: Koppelen of niet koppelen?Exercise 7: Paren van restaurants Exercise 8: Vergelijkbare restaurants Exercise 9: DataFrames koppelen Exercise 10: De juiste index ophalen Exercise 11: Alles aan elkaar koppelen!Exercise 12: Gefeliciteerd!