IniziaInizia gratis

Rimappare le categorie

Per capire meglio i rispondenti al sondaggio di airlines, vuoi scoprire se esiste una relazione tra alcune risposte, il giorno della settimana e il tempo di attesa al gate.

Il DataFrame airlines contiene le colonne day e wait_min, rispettivamente categorica e numerica. La colonna day indica il giorno esatto in cui è avvenuto il volo, mentre wait_min contiene il numero di minuti di attesa al gate. Per semplificare l'analisi, vuoi creare due nuove variabili categoriche:

  • wait_type: 'short' per 0-60 min, 'medium' per 60-180 e long per 180+
  • day_week: 'weekday' se il giorno è feriale, 'weekend' se è nel fine settimana.

I pacchetti pandas e numpy sono già stati importati come pd e np. Creiamo nuovi dati categorici!

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea gli intervalli e le etichette per la colonna wait_type come descritto sopra.
  • Crea la colonna wait_type a partire da wait_min usando pd.cut(), inserendo label_ranges e label_names negli argomenti corretti.
  • Crea il dizionario mapping che mappa i giorni feriali a 'weekday' e i giorni del fine settimana a 'weekend'.
  • Crea la colonna day_week usando .replace().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]

# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____, 
                                labels = ____)

# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____', 
            'Thursday': '____', '____': '____', 
            'Saturday': 'weekend', '____': '____'}

airlines['day_week'] = airlines['day'].____(mappings)
Modifica ed esegui il codice