Simpel coderen voor complexe merges
Goed nieuws! Je hebt toegang tot de Next Gen Stats-data (NGS) van de league. NGS legt voor elke speler, bij elke play, de locatie en oriëntatie vast. Gegevens worden 10 keer per seconde geregistreerd, wat betekent dat er alleen al voor punts meer dan 1,5 miljoen observaties per week zijn! De data is al ingeladen in een dataframe met de naam coords.
Je hebt ook algemene play-data voor elke punt die overeenkomt met de punts die door NGS zijn gevolgd. Rijen in dit dataframe, punts, worden geïdentificeerd door unieke combinaties van GameKey en PlayId.
Om de data in een spreadsheetomgeving te combineren, zou je in elke tabel een kolom maken met een combinatie van GameKey en PlayId en de tabellen koppelen op basis van die nieuwe kolom. Hier kun je een eenvoudige merge-instructie proberen om punts en coords samen te voegen.
Deze oefening maakt deel uit van de cursus
Pandas-joins voor spreadsheetgebruikers
Oefeninstructies
- Bekijk de eerste 10 rijen van
punts. Merk op dat rijen uniek zijn voor elke combinatieGameKey-PlayId. - Bekijk de eerste 10 rijen van
coords. - Merge de twee dataframes met
puntsals het linkerdataframe encoordsals het rechterdataframe. - Bekijk de eerste 15 rijen van het nieuwe dataframe,
punts_w_coords.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# View punts
print(____.head(10))
# View coords
print(____.head(10))
# Merge data frames
punts_w_coords = ____.merge(____)
# View new data frame
print(____.head(15))