Datetime-Spalten analysieren
Feature Engineering ist ein wichtiger Schritt in jedem Machine-Learning-Workflow, um Merkmale aus unterschiedlichen Datentypen aufzubereiten. Besonders häufig kommen Datetime-Spalten in Datensätzen vor. In dieser Übung untersuchst du die Spalte hour, die als Integer gespeichert ist, aber eigentlich eine datetime repräsentiert. Zuerst wirst du die Spalte hour parsen und in eine datetime-Spalte umwandeln. Anschließend extrahierst du aus dieser datetime-Spalte die Stunde des Tages und berechnest die Gesamtzahl der Klicks für diese Stunde.
Das pandas-Modul steht dir als pd zur Verfügung, und der Beispiel-DataFrame ist als df geladen.
Diese Übung ist Teil des Kurses
CTR-Vorhersage mit Machine Learning in Python
Anleitung zur Übung
- Wandle die Spalte
hourmitpd.to_datetime()von Integer in einedatetime-Spalte um. - Extrahiere mit dem Datetime-Accessor
.dtdas Stundenfeld über.houraus der konvertierten Spalte. - Berechne die gesamten Klicks pro extrahierter Stunde des Tages mit
.sum().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Change the hour column to a datetime and extract hour of day
df['hour'] = pd.____(df['hour'], format = '%y%m%d%H')
df['hour_of_day'] = df['hour'].____.____
print(df.head(5))
# Get and plot total clicks by hour of day
df.____('hour_of_day')['click'].____.plot.bar(figsize=(12,6))
plt.ylabel('Number of clicks')
plt.title('Number of clicks by hour of day')
plt.show()