Recursos de data
Você já criou alguns recursos básicos usando variáveis numéricas. Agora é hora de criar recursos baseados em data e hora. Você vai praticar com uma subamostra dos dados da competição Taxi Fare Prediction no Kaggle. Os dados trazem informações sobre corridas de táxi, e o objetivo é prever o preço de cada corrida.
Seu objetivo é gerar recursos de data a partir do horário de embarque (pickup datetime). Lembre-se de que é melhor criar novos recursos para os dados de treino e de teste simultaneamente. Depois de criar os recursos, divida novamente os dados nos DataFrames de treino e de teste. Aqui isso é feito usando o método isin() do pandas.
Os DataFrames train e test já estão disponíveis no seu workspace.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Instruções do exercício
- Concatene os DataFrames
trainetestem um único DataFrametaxi. - Converta a coluna "pickup_datetime" para um objeto
datetime. - Crie os recursos de dia da semana (usando o atributo
.dayofweek) e hora (usando o atributo.hour) a partir da coluna "pickup_datetime".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Concatenate train and test together
taxi = ____.____([train, test])
# Convert pickup date to datetime object
taxi['pickup_datetime'] = ____.____(taxi['pickup_datetime'])
# Create a day of week feature
taxi['dayofweek'] = taxi['pickup_datetime'].dt.____
# Create an hour feature
taxi['hour'] = taxi['pickup_datetime'].dt.____
# Split back into train and test
new_train = taxi[taxi['id'].isin(train['id'])]
new_test = taxi[taxi['id'].isin(test['id'])]