ComeçarComece gratuitamente

Remapeamento de categorias

Para entender melhor os respondentes da pesquisa airlines, você quer descobrir se há uma relação entre determinadas respostas e o dia da semana e o tempo de espera no portão.

O DataFrame airlines contém as colunas day e wait_min, que são categóricas e numéricas, respectivamente. A coluna day contém o dia exato em que um voo foi realizado e wait_min contém a quantidade de minutos que os viajantes levaram para esperar no portão. Para facilitar a análise, você deseja criar duas novas variáveis categóricas:

  • wait_type``'short' para 0-60 min, 'medium' para 60-180 e long para 180+
  • day_week: 'weekday' se o dia for um dia da semana, 'weekend' se o dia for no fim de semana.

Os pacotes pandas e numpy foram importados como pd e np. Vamos criar alguns dados categóricos novos!

Este exercício faz parte do curso

Limpeza de dados em Python

Ver Curso

Instruções de exercício

  • Crie os intervalos e rótulos para a coluna wait_type mencionada na descrição.
  • Crie a coluna wait_type a partir de wait_min usando pd.cut(), enquanto você insere label_ranges e label_names nos argumentos corretos.
  • Crie o dicionário mapping mapeando os dias da semana para 'weekday' e os dias de fim de semana para 'weekend'.
  • Crie a coluna day_week usando .replace().

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]

# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____, 
                                labels = ____)

# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____', 
            'Thursday': '____', '____': '____', 
            'Saturday': 'weekend', '____': '____'}

airlines['day_week'] = airlines['day'].____(mappings)
Editar e executar código