Een ETL-pijplijn uitvoeren
Klaar om je eerste ETL-pijplijn te draaien? Aan de slag!
Hier zijn de functies extract(), transform() en load() al voor je gedefinieerd. Om deze ETL-pijplijn voor data uit te voeren, ga je elk van deze functies aanroepen. Ben je benieuwd? Neem gerust een kijkje hoe de extract()-functie eruitziet.
def extract(file_name):
print(f"Extracting data from {file_name}")
return pd.read_csv(file_name)
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Gebruik de functie
extract()om data uit het bestandraw_data.csvte halen. - Transformeer de DataFrame
extracted_datamet de functietransform(). - Laad tot slot de DataFrame
transformed_datanaar de SQL-tabelcleaned_data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract data from the raw_data.csv file
extracted_data = ____(file_name="raw_data.csv")
# Transform the extracted_data
transformed_data = transform(data_frame=____)
# Load the transformed_data to cleaned_data.csv
____(data_frame=transformed_data, target_table="cleaned_data")