Aan de slagGa gratis aan de slag

Gegevens extraheren uit parquet-bestanden

Een van de meest gebruikte manieren om data uit een bronsysteem te halen, is door data uit een bestand te lezen, zoals een CSV-bestand. Naarmate data groter werd, ontstond de behoefte aan betere bestandsformaten, wat leidde tot nieuwe kolomgeoriënteerde bestandstypen zoals parquet-bestanden.

In deze oefening ga je oefenen met het extraheren van data uit een parquet-bestand.

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Oefeninstructies

  • Lees het parquet-bestand op het pad "sales_data.parquet" in een pandas DataFrame.
  • Controleer de datatypes van de DataFrame door ze te print()en.
  • Toon de vorm van de DataFrame en de kop (.head()).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

import pandas as pd

# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")

# Check the data type of the columns of the DataFrames
print(sales_data.____)

# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())
Code bewerken en uitvoeren