Remaniement des catégories
Afin de mieux comprendre les participants à l'enquête de airlines, il est souhaitable de déterminer s'il existe un lien entre certaines réponses et le jour de la semaine ainsi que le temps d'attente à l'embarquement.
Le DataFrame airlines contient les colonnes day et wait_min, qui sont respectivement catégorielles et numériques. La colonne day indique le jour exact où le vol a eu lieu, et la colonne wait_min indique le nombre de minutes pendant lesquelles les voyageurs ont dû patienter à la porte. Afin de faciliter votre analyse, il est recommandé de créer deux nouvelles variables catégorielles :
wait_type:'short'0-60 min,'medium'60-180 etlongpour 180+day_week:'weekday'si c’est un jour en semaine,'weekend'si c’est un jour du week-end.
Les packages pandas et numpy ont été importés sous les noms pd et np. Créons de nouvelles données catégorielles.
Cet exercice fait partie du cours
Nettoyage des données en Python
Instructions
- Créez les plages et les étiquettes pour la colonne
wait_typementionnée dans la description. - Créez la colonne
wait_typeà partir dewait_minen utilisantpd.cut(), tout en saisissantlabel_rangesetlabel_namesdans les arguments appropriés. - Créez le dictionnaire
mappingqui associe les jours de la semaine à'weekday'et les jours du week-end à'weekend'. - Créez la colonne
day_weeken utilisant.replace().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)