La journalisation dans un pipeline de données
Dans cet exercice, nous allons revenir sur la fonction que vous avez écrite dans une vidéo précédente et nous entraîner à ajouter la journalisation à la fonction. Cela vous aidera à résoudre les erreurs ou à apporter des modifications à la logique !
pandas
a été importé en tant que pd
. En outre, le module logging
a été importé et le niveau de journalisation par défaut a été fixé à "debug"
.
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Créez un journal de niveau d'information après la transformation, en transmettant la chaîne de caractères :
"Transformed 'Order Date' column to type 'datetime'."
- Enregistrez l'adresse
.shape
du DataFrame au niveau du débogage avant et après le filtrage.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def transform(raw_data):
raw_data["Order Date"] = pd.to_datetime(raw_data["Order Date"], format="%m/%d/%y %H:%M")
clean_data = raw_data.loc[raw_data["Price Each"] < 10, :]
# Create an info log regarding transformation
logging.____("Transformed 'Order Date' column to type 'datetime'.")
# Create debug-level logs for the DataFrame before and after filtering
____(f"Shape of the DataFrame before filtering: {raw_data.shape}")
____(f"Shape of the DataFrame after filtering: {clean_data.shape}")
return clean_data
clean_sales_data = transform(raw_sales_data)