Categorieën opnieuw toewijzen
Om de enquête-respondenten van airlines beter te begrijpen, wil je ontdekken of er een relatie is tussen bepaalde antwoorden en de dag van de week en de wachttijd bij de gate.
De DataFrame airlines bevat de kolommen day en wait_min, respectievelijk categorisch en numeriek. De kolom day bevat de exacte dag waarop een vlucht plaatsvond, en wait_min bevat het aantal minuten dat reizigers bij de gate moesten wachten. Om je analyse te vereenvoudigen, wil je twee nieuwe categorische variabelen maken:
wait_type:'short'voor 0–60 min,'medium'voor 60–180 enlongvoor 180+day_week:'weekday'als de dag een doordeweekse dag is,'weekend'als de dag in het weekend valt.
De pakketten pandas en numpy zijn geïmporteerd als pd en np. Laten we nieuwe categorische data maken!
Deze oefening maakt deel uit van de cursus
Data opschonen in Python
Oefeninstructies
- Maak de bereiken en labels voor de kolom
wait_typezoals in de beschrijving genoemd. - Maak de kolom
wait_typeop basis vanwait_minmetpd.cut(), en geeflabel_rangesenlabel_namesmee aan de juiste argumenten. - Maak de dictionary
mappingdie doordeweekse dagen koppelt aan'weekday'en weekenddagen aan'weekend'. - Maak de kolom
day_weekmet.replace().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)