Gegevens extraheren uit parquet-bestanden

Een van de meest gebruikte manieren om data uit een bronsysteem te halen, is door data uit een bestand te lezen, zoals een CSV-bestand. Naarmate data groter werd, ontstond de behoefte aan betere bestandsformaten, wat leidde tot nieuwe kolomgeoriënteerde bestandstypen zoals parquet-bestanden.

In deze oefening ga je oefenen met het extraheren van data uit een parquet-bestand.

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Bekijk cursus

Oefeninstructies

Lees het parquet-bestand op het pad "sales_data.parquet" in een pandas DataFrame.
Controleer de datatypes van de DataFrame door ze te print()en.
Toon de vorm van de DataFrame en de kop (.head()).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

import pandas as pd

# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")

# Check the data type of the columns of the DataFrames
print(sales_data.____)

# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())

Code bewerken en uitvoeren