Datum-tijdkolommen analyseren
Feature engineering is een belangrijke stap in elke Machine Learning-workflow om features uit verschillende datatypen te verwerken. Vooral datum-tijdkolommen komen vaak voor in gegevenssets. In deze oefening ga je de kolom hour in de gegevensset verkennen. Deze is opgeslagen als een geheel getal, maar stelt een datetime voor. Eerst parse je de kolom hour om die om te zetten naar een datetime-kolom. Daarna haal je het uur van de dag uit die datetime-kolom en bereken je het totale aantal klikken per uur van de dag.
De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Zet de kolom
hourom van een geheel getal naar eendatetime-kolom metpd.to_datetime(). - Gebruik de datetime-accessor
.dtom het uurveld uit de omgezette kolom te halen met.hour. - Bereken het totale aantal klikken per uitgenomen uur van de dag met
.sum().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Change the hour column to a datetime and extract hour of day
df['hour'] = pd.____(df['hour'], format = '%y%m%d%H')
df['hour_of_day'] = df['hour'].____.____
print(df.head(5))
# Get and plot total clicks by hour of day
df.____('hour_of_day')['click'].____.plot.bar(figsize=(12,6))
plt.ylabel('Number of clicks')
plt.title('Number of clicks by hour of day')
plt.show()