CommencerCommencer gratuitement

La journalisation dans un pipeline de données

Dans cet exercice, nous allons revenir sur la fonction que vous avez écrite dans une vidéo précédente et nous entraîner à ajouter la journalisation à la fonction. Cela vous aidera à résoudre les erreurs ou à apporter des modifications à la logique !

pandas a été importé en tant que pd. En outre, le module logging a été importé et le niveau de journalisation par défaut a été fixé à "debug".

Cet exercice fait partie du cours

ETL et ELT en Python

Afficher le cours

Instructions

  • Créez un journal de niveau d'information après la transformation, en transmettant la chaîne de caractères : "Transformed 'Order Date' column to type 'datetime'."
  • Enregistrez l'adresse .shape du DataFrame au niveau du débogage avant et après le filtrage.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def transform(raw_data):
    raw_data["Order Date"] = pd.to_datetime(raw_data["Order Date"], format="%m/%d/%y %H:%M")
    clean_data = raw_data.loc[raw_data["Price Each"] < 10, :]
    
    # Create an info log regarding transformation
    logging.____("Transformed 'Order Date' column to type 'datetime'.")
    
    # Create debug-level logs for the DataFrame before and after filtering
    ____(f"Shape of the DataFrame before filtering: {raw_data.shape}")
    ____(f"Shape of the DataFrame after filtering: {clean_data.shape}")
    
    return clean_data
  
clean_sales_data = transform(raw_sales_data)
Modifier et exécuter le code