Remaniement des catégories
Afin de mieux comprendre les participants à l'enquête de airlines, il est souhaitable de déterminer s'il existe un lien entre certaines réponses et le jour de la semaine ainsi que le temps d'attente à l'embarquement.
Le DataFrame airlines contient les colonnes day et wait_min, qui sont respectivement catégorielles et numériques. La colonne day indique le jour exact où le vol a eu lieu, et la colonne wait_min indique le nombre de minutes pendant lesquelles les voyageurs ont dû patienter à la porte. Afin de faciliter votre analyse, il est recommandé de créer deux nouvelles variables catégorielles :
wait_type:'short'0-60 min,'medium'60-180 etlongpour 180+day_week:'weekday'si c’est un jour en semaine,'weekend'si c’est un jour du week-end.
Les packages pandas et numpy ont été importés sous les noms pd et np. Créons de nouvelles données catégorielles.
Cet exercice fait partie du cours
<cours>Nettoyage des données en Python</cours>Instructions de l’exercice
- Créez les plages et les étiquettes pour la colonne
wait_typementionnée dans la description. - Créez la colonne
wait_typeà partir dewait_minen utilisantpd.cut(), tout en saisissantlabel_rangesetlabel_namesdans les arguments appropriés. - Créez le dictionnaire
mappingqui associe les jours de la semaine à'weekday'et les jours du week-end à'weekend'. - Créez la colonne
day_weeken utilisant.replace().
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)