Réorganisation des catégories
Afin de mieux comprendre les personnes ayant répondu à l'enquête airlines
, vous souhaitez déterminer s'il existe un lien entre certaines réponses et le jour de la semaine ainsi que le temps d'attente à l'entrée.
Le DataFrame « airlines
» contient les colonnes « day
» et « wait_min
», qui sont respectivement catégorielles et numériques. day
La colonne « Date » indique la date exacte à laquelle un vol a eu lieu, et la colonne « wait_min
» indique le nombre de minutes pendant lesquelles les voyageurs ont dû attendre à la porte d'embarquement. Pour faciliter votre analyse, il est recommandé de créer deux nouvelles variables catégorielles :
wait_type
:'short'
pour 0 à 60 minutes,'medium'
pour 60 à 180 minutes etlong
pour plus de 180 minutes.day_week
:'weekday'
si le jour est un jour de semaine,'weekend'
si le jour est un jour de week-end.
Les paquets pandas
et numpy
ont été importés sous les noms pd
et np
. Créons de nouvelles données catégorielles.
Cet exercice fait partie du cours
Nettoyage des données dans Python
Instructions
- Veuillez créer les plages et les libellés pour la colonne «
wait_type
» mentionnée dans la description. - Créez la colonne «
wait_type
» à partir de «wait_min
» en utilisant «pd.cut()
», tout en saisissant «label_ranges
» et «label_names
» dans les arguments appropriés. - Créez le dictionnaire d'
mapping
s associant les jours de la semaine à'weekday'
et les jours du week-end à'weekend'
. - Créez la colonne «
day_week
» à l'aide de la commande «.replace()
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)