Rimappare le categorie
Per capire meglio i rispondenti al sondaggio di airlines, vuoi scoprire se esiste una relazione tra alcune risposte, il giorno della settimana e il tempo di attesa al gate.
Il DataFrame airlines contiene le colonne day e wait_min, rispettivamente categorica e numerica. La colonna day indica il giorno esatto in cui è avvenuto il volo, mentre wait_min contiene il numero di minuti di attesa al gate. Per semplificare l'analisi, vuoi creare due nuove variabili categoriche:
wait_type:'short'per 0-60 min,'medium'per 60-180 elongper 180+day_week:'weekday'se il giorno è feriale,'weekend'se è nel fine settimana.
I pacchetti pandas e numpy sono già stati importati come pd e np. Creiamo nuovi dati categorici!
Questo esercizio fa parte del corso
Pulizia dei dati in Python
Istruzioni dell'esercizio
- Crea gli intervalli e le etichette per la colonna
wait_typecome descritto sopra. - Crea la colonna
wait_typea partire dawait_minusandopd.cut(), inserendolabel_rangeselabel_namesnegli argomenti corretti. - Crea il dizionario
mappingche mappa i giorni feriali a'weekday'e i giorni del fine settimana a'weekend'. - Crea la colonna
day_weekusando.replace().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)