Remapeamento de categorias
Para entender melhor os respondentes da pesquisa airlines
, você quer descobrir se há uma relação entre determinadas respostas e o dia da semana e o tempo de espera no portão.
O DataFrame airlines
contém as colunas day
e wait_min
, que são categóricas e numéricas, respectivamente. A coluna day
contém o dia exato em que um voo foi realizado e wait_min
contém a quantidade de minutos que os viajantes levaram para esperar no portão. Para facilitar a análise, você deseja criar duas novas variáveis categóricas:
wait_type``'short'
para 0-60 min,'medium'
para 60-180 elong
para 180+day_week
:'weekday'
se o dia for um dia da semana,'weekend'
se o dia for no fim de semana.
Os pacotes pandas
e numpy
foram importados como pd
e np
. Vamos criar alguns dados categóricos novos!
Este exercício faz parte do curso
Limpeza de dados em Python
Instruções de exercício
- Crie os intervalos e rótulos para a coluna
wait_type
mencionada na descrição. - Crie a coluna
wait_type
a partir dewait_min
usandopd.cut()
, enquanto você inserelabel_ranges
elabel_names
nos argumentos corretos. - Crie o dicionário
mapping
mapeando os dias da semana para'weekday'
e os dias de fim de semana para'weekend'
. - Crie a coluna
day_week
usando.replace()
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)