Aan de slagGa gratis aan de slag

Datum-tijdkolommen analyseren

Feature engineering is een belangrijke stap in elke Machine Learning-workflow om features uit verschillende datatypen te verwerken. Vooral datum-tijdkolommen komen vaak voor in gegevenssets. In deze oefening ga je de kolom hour in de gegevensset verkennen. Deze is opgeslagen als een geheel getal, maar stelt een datetime voor. Eerst parse je de kolom hour om die om te zetten naar een datetime-kolom. Daarna haal je het uur van de dag uit die datetime-kolom en bereken je het totale aantal klikken per uur van de dag.

De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Zet de kolom hour om van een geheel getal naar een datetime-kolom met pd.to_datetime().
  • Gebruik de datetime-accessor .dt om het uurveld uit de omgezette kolom te halen met .hour.
  • Bereken het totale aantal klikken per uitgenomen uur van de dag met .sum().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Change the hour column to a datetime and extract hour of day
df['hour'] = pd.____(df['hour'], format = '%y%m%d%H')
df['hour_of_day'] = df['hour'].____.____
print(df.head(5))

# Get and plot total clicks by hour of day
df.____('hour_of_day')['click'].____.plot.bar(figsize=(12,6))
plt.ylabel('Number of clicks')
plt.title('Number of clicks by hour of day')
plt.show()
Code bewerken en uitvoeren