Aan de slagGa gratis aan de slag

Categorieën opnieuw toewijzen

Om de enquête-respondenten van airlines beter te begrijpen, wil je ontdekken of er een relatie is tussen bepaalde antwoorden en de dag van de week en de wachttijd bij de gate.

De DataFrame airlines bevat de kolommen day en wait_min, respectievelijk categorisch en numeriek. De kolom day bevat de exacte dag waarop een vlucht plaatsvond, en wait_min bevat het aantal minuten dat reizigers bij de gate moesten wachten. Om je analyse te vereenvoudigen, wil je twee nieuwe categorische variabelen maken:

  • wait_type: 'short' voor 0–60 min, 'medium' voor 60–180 en long voor 180+
  • day_week: 'weekday' als de dag een doordeweekse dag is, 'weekend' als de dag in het weekend valt.

De pakketten pandas en numpy zijn geïmporteerd als pd en np. Laten we nieuwe categorische data maken!

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Cursus bekijken

Oefeninstructies

  • Maak de bereiken en labels voor de kolom wait_type zoals in de beschrijving genoemd.
  • Maak de kolom wait_type op basis van wait_min met pd.cut(), en geef label_ranges en label_names mee aan de juiste argumenten.
  • Maak de dictionary mapping die doordeweekse dagen koppelt aan 'weekday' en weekenddagen aan 'weekend'.
  • Maak de kolom day_week met .replace().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]

# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____, 
                                labels = ____)

# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____', 
            'Thursday': '____', '____': '____', 
            'Saturday': 'weekend', '____': '____'}

airlines['day_week'] = airlines['day'].____(mappings)
Code bewerken en uitvoeren