Alles aan elkaar koppelen!

In de vorige les heb je het grootste deel van het werk voltooid om restaurants en restaurants_new te koppelen. Je hebt verschillende paren met mogelijk overeenkomende rijen gegenereerd, exact gezocht naar overeenkomsten in de kolommen cuisine_type en city, en vergelijkbare strings vergeleken in de kolom rest_name. De DataFrame met de scores heb je opgeslagen in potential_matches.

Nu is het eindelijk tijd om beide DataFrames te koppelen. Dat doe je door eerst alle rij-indexen van restaurants_new te extraheren die overeenkomen op de bovenstaande kolommen uit potential_matches. Vervolgens subset je restaurants_new op deze indexen en voeg je tot slot de niet-duplicaatwaarden samen met restaurants. Alle DataFrames staan in je omgeving, en pandas is geïmporteerd als pd.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Oefeninstructies

Isoleer rijen in potential_matches waarvoor de rijsom groter dan of gelijk aan 3 is met de methode .sum().
Extraheer de tweede kolomindex uit matches, die de rij-indexen van overeenkomende records uit restaurants_new voorstelt, met de methode .get_level_values().
Subselecteer restaurants_new voor rijen die niet in matching_indices staan.
Concateneer restaurants en non_dup.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]

# Get values of second column index of matches
matching_indices = matches.____.____(____)

# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]

# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je enkele van de meest voorkomende problemen met vuile data aanpakt. Je zet datatypes om, past bereikbeperkingen toe om toekomstige datapunten te verwijderen, en haalt dubbele datapunten weg om dubbeltellingen te voorkomen.

Exercise 1: Beperkingen op gegevenstypen Exercise 2: Veelvoorkomende gegevenstypen Exercise 3: Numerieke data of ... ?Exercise 4: Strings optellen en getallen aan elkaar plakken Exercise 5: Bereikbeperkingen voor data Exercise 6: Beperkingen voor bandmaten Exercise 7: Terug naar de toekomst Exercise 8: Uniciteitsbeperkingen Exercise 9: Hoe groot is je subset?Exercise 10: Duplicaten vinden Exercise 11: Duplicaten behandelen

Categorische en tekstdata zijn vaak het rommeligst in een gegevensset door hun ongestructureerde aard. In dit hoofdstuk leer je hoe je inconsistenties in spaties en hoofdletters in categorielabels oplost, meerdere categorieën samenvoegt, en strings herformatteert voor consistentie.

Exercise 1: Lidmaatschapsbeperkingen Exercise 2: Alleen voor leden Exercise 3: Consistentie vinden Exercise 4: Categorische variabelen Exercise 5: Categorieën van fouten Exercise 6: Inconsistente categorieën Exercise 7: Categorieën opnieuw toewijzen Exercise 8: Tekstgegevens opschonen Exercise 9: Titels verwijderen en namen overhouden Exercise 10: Hou het beschrijvend

In dit hoofdstuk ga je dieper in op meer geavanceerde opschoningsproblemen, zoals ervoor zorgen dat gewichten allemaal in kilogrammen staan in plaats van ponden. Je ontwikkelt ook belangrijke vaardigheden om te controleren of waarden correct zijn opgeteld en of ontbrekende waarden je analyses niet negatief beïnvloeden.

Exercise 1: Uniformiteit Exercise 2: Ambigue datums Exercise 3: Eenduidige valuta Exercise 4: Eenduidige datums Exercise 5: Validatie over velden heen Exercise 6: Cross field of geen cross field?Exercise 7: Hoe staat het met onze dataintegriteit?Exercise 8: Volledigheid Exercise 9: Is dit Missing at Random?Exercise 10: Ontbrekende beleggers Exercise 11: Volg het geld

Recordlinkage is een krachtige techniek om meerdere gegevenssets samen te voegen wanneer waarden typefouten of verschillende schrijfwijzen bevatten. In dit hoofdstuk leer je records te koppelen door de gelijkenis tussen strings te berekenen—daarna gebruik je je nieuwe skills om twee datasets met restaurantrecensies te combineren tot één schone mastergegevensset.

Exercise 1: Strings vergelijken Exercise 2: Minimale bewerkingsafstand Exercise 3: Het afkappunt Exercise 4: Categorieën opnieuw toewijzen II Exercise 5: Paren genereren Exercise 6: Koppelen of niet koppelen?Exercise 7: Paren van restaurants Exercise 8: Vergelijkbare restaurants Exercise 9: DataFrames koppelen Exercise 10: De juiste index ophalen Exercise 11: Alles aan elkaar koppelen!

Huidige oefening

Exercise 12: Gefeliciteerd!