La journalisation dans un pipeline de données

Dans cet exercice, nous allons revenir sur la fonction que vous avez écrite dans une vidéo précédente et nous entraîner à ajouter la journalisation à la fonction. Cela vous aidera à résoudre les erreurs ou à apporter des modifications à la logique !

pandas a été importé en tant que pd. En outre, le module logging a été importé et le niveau de journalisation par défaut a été fixé à "debug".

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Instructions de l’exercice

Créez un journal de niveau d'information après la transformation, en transmettant la chaîne de caractères : "Transformed 'Order Date' column to type 'datetime'."
Enregistrez l'adresse .shape du DataFrame au niveau du débogage avant et après le filtrage.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

def transform(raw_data):
    raw_data["Order Date"] = pd.to_datetime(raw_data["Order Date"], format="%m/%d/%y %H:%M")
    clean_data = raw_data.loc[raw_data["Price Each"] < 10, :]
    
    # Create an info log regarding transformation
    logging.____("Transformed 'Order Date' column to type 'datetime'.")
    
    # Create debug-level logs for the DataFrame before and after filtering
    ____(f"Shape of the DataFrame before filtering: {raw_data.shape}")
    ____(f"Shape of the DataFrame after filtering: {clean_data.shape}")
    
    return clean_data
  
clean_sales_data = transform(raw_sales_data)

Modifier et exécuter le code