Dataframes mergen

In de vorige oefening heb je een gegevensset opgebouwd met de top 100 cafés in New York City volgens Yelp. Nu combineer je die met demografische data om te onderzoeken welke buurt de meeste goede cafés per hoofd van de bevolking heeft.

Om dit te doen, merge je twee datasets met de DataFrame-methode merge(). De eerste, crosswalk, is een koppelbestand tussen ZIP-codes en Public Use Micro Data Sample Areas (PUMA’s), die aggregaties van censuswijken zijn en ruwweg overeenkomen met wijken in NYC. Daarna merge je pop_data, dat schattingen van de bevolking in 2016 voor elke PUMA bevat.

pandas (als pd) is geïmporteerd, net als de dataframe cafes uit de vorige oefening.

Deze oefening maakt deel uit van de cursus

Gestroomlijnde data-inname met pandas

Bekijk cursus

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening