Caratteristiche di data
Hai già creato alcune caratteristiche di base usando variabili numeriche. Ora è il momento di creare feature basate su data e ora. Esercitati su un sottoinsieme dei dati della competizione Kaggle Taxi Fare Prediction. I dati contengono informazioni sulle corse in taxi e l'obiettivo è prevedere il prezzo di ciascuna corsa.
Il tuo obiettivo è generare feature di data a partire dal pickup datetime. Ricorda che è meglio creare le nuove feature per train e test contemporaneamente. Dopo aver creato le feature, separa di nuovo i dati nei DataFrame train e test. Qui la separazione viene fatta usando il metodo isin() di pandas.
I DataFrame train e test sono già disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Vincere una competizione Kaggle con Python
Istruzioni dell'esercizio
- Concatena i DataFrame
trainetestin un unico DataFrametaxi. - Converti la colonna "pickup_datetime" in un oggetto
datetime. - Crea le feature giorno della settimana (usando l'attributo
.dayofweek) e ora (usando l'attributo.hour) a partire dalla colonna "pickup_datetime".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Concatenate train and test together
taxi = ____.____([train, test])
# Convert pickup date to datetime object
taxi['pickup_datetime'] = ____.____(taxi['pickup_datetime'])
# Create a day of week feature
taxi['dayofweek'] = taxi['pickup_datetime'].dt.____
# Create an hour feature
taxi['hour'] = taxi['pickup_datetime'].dt.____
# Split back into train and test
new_train = taxi[taxi['id'].isin(train['id'])]
new_test = taxi[taxi['id'].isin(test['id'])]