Datumfeatures
Je hebt al enkele basisfeatures gebouwd met numerieke variabelen. Nu is het tijd om features te maken op basis van datum en tijd. Je oefent met een steekproef uit de data van de Kaggle-wedstrijd Taxi Fare Prediction. De data bevat informatie over taxiritten en het doel is om de prijs per rit te voorspellen.
Je doel is om datumfeatures te genereren uit de ophaaldatumtijd. Onthoud dat het beter is om nieuwe features voor train- en testdata tegelijk te maken. Nadat de features zijn gemaakt, splits je de data weer op in de DataFrames train en test. Hier gebeurt dat met de methode isin() van pandas.
De DataFrames train en test zijn al beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Een Kaggle-competitie winnen met Python
Oefeninstructies
- Concateneer de DataFrames
trainentesttot één DataFrametaxi. - Converteer de kolom "pickup_datetime" naar een
datetime-object. - Maak de features dag van de week (met het attribuut
.dayofweek) en uur (met het attribuut.hour) uit de kolom "pickup_datetime".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Concatenate train and test together
taxi = ____.____([train, test])
# Convert pickup date to datetime object
taxi['pickup_datetime'] = ____.____(taxi['pickup_datetime'])
# Create a day of week feature
taxi['dayofweek'] = taxi['pickup_datetime'].dt.____
# Create an hour feature
taxi['hour'] = taxi['pickup_datetime'].dt.____
# Split back into train and test
new_train = taxi[taxi['id'].isin(train['id'])]
new_test = taxi[taxi['id'].isin(test['id'])]