Aan de slagGa gratis aan de slag

Datumfeatures

Je hebt al enkele basisfeatures gebouwd met numerieke variabelen. Nu is het tijd om features te maken op basis van datum en tijd. Je oefent met een steekproef uit de data van de Kaggle-wedstrijd Taxi Fare Prediction. De data bevat informatie over taxiritten en het doel is om de prijs per rit te voorspellen.

Je doel is om datumfeatures te genereren uit de ophaaldatumtijd. Onthoud dat het beter is om nieuwe features voor train- en testdata tegelijk te maken. Nadat de features zijn gemaakt, splits je de data weer op in de DataFrames train en test. Hier gebeurt dat met de methode isin() van pandas.

De DataFrames train en test zijn al beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Een Kaggle-competitie winnen met Python

Cursus bekijken

Oefeninstructies

  • Concateneer de DataFrames train en test tot één DataFrame taxi.
  • Converteer de kolom "pickup_datetime" naar een datetime-object.
  • Maak de features dag van de week (met het attribuut .dayofweek) en uur (met het attribuut .hour) uit de kolom "pickup_datetime".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Concatenate train and test together
taxi = ____.____([train, test])

# Convert pickup date to datetime object
taxi['pickup_datetime'] = ____.____(taxi['pickup_datetime'])

# Create a day of week feature
taxi['dayofweek'] = taxi['pickup_datetime'].dt.____

# Create an hour feature
taxi['hour'] = taxi['pickup_datetime'].dt.____

# Split back into train and test
new_train = taxi[taxi['id'].isin(train['id'])]
new_test = taxi[taxi['id'].isin(test['id'])]
Code bewerken en uitvoeren