Gegevens extraheren uit parquet-bestanden
Een van de meest gebruikte manieren om data uit een bronsysteem te halen, is door data uit een bestand te lezen, zoals een CSV-bestand. Naarmate data groter werd, ontstond de behoefte aan betere bestandsformaten, wat leidde tot nieuwe kolomgeoriënteerde bestandstypen zoals parquet-bestanden.
In deze oefening ga je oefenen met het extraheren van data uit een parquet-bestand.
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Lees het parquet-bestand op het pad
"sales_data.parquet"in eenpandasDataFrame. - Controleer de datatypes van de DataFrame door ze te
print()en. - Toon de vorm van de DataFrame en de kop (
.head()).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import pandas as pd
# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")
# Check the data type of the columns of the DataFrames
print(sales_data.____)
# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())