Características de fecha
Ya has creado algunas características básicas a partir de variables numéricas. Ahora toca crear características basadas en fecha y hora. Practicarás con una submuestra del conjunto de datos de la competición de Kaggle Taxi Fare Prediction. Los datos recogen información sobre trayectos en taxi y el objetivo es predecir el precio de cada viaje.
Tu objetivo es generar características de fecha a partir de la fecha y hora de recogida. Recuerda que es mejor crear las nuevas características para los datos de train y test a la vez. Después de crear las características, vuelve a dividir los datos en los DataFrames de train y test. Aquí se hace usando el método isin() de pandas.
Los DataFrames train y test ya están disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Cómo ganar una competición de Kaggle con Python
Instrucciones del ejercicio
- Concatena los DataFrames
trainytesten un único DataFrametaxi. - Convierte la columna "pickup_datetime" a un objeto
datetime. - Crea las características de día de la semana (usando el atributo
.dayofweek) y hora (usando el atributo.hour) a partir de la columna "pickup_datetime".
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Concatenate train and test together
taxi = ____.____([train, test])
# Convert pickup date to datetime object
taxi['pickup_datetime'] = ____.____(taxi['pickup_datetime'])
# Create a day of week feature
taxi['dayofweek'] = taxi['pickup_datetime'].dt.____
# Create an hour feature
taxi['hour'] = taxi['pickup_datetime'].dt.____
# Split back into train and test
new_train = taxi[taxi['id'].isin(train['id'])]
new_test = taxi[taxi['id'].isin(test['id'])]