Extraction de données à partir de fichiers parquet
L'une des façons les plus courantes d'ingérer des données à partir d'un système source consiste à lire des données à partir d'un fichier, tel qu'un fichier CSV. Avec l'augmentation de la taille des données, la nécessité d'améliorer les formats de fichiers a donné naissance à de nouveaux types de fichiers orientés vers les colonnes, tels que les fichiers parquet.
Dans cet exercice, vous vous entraînerez à extraire des données d'un fichier parquet.
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Lisez le fichier parquet au chemin
"sales_data.parquet"
dans un DataFramepandas
. - Vérifiez les types de données du DataFrame via
print()
ing. - Affiche la forme du DataFrame, ainsi que sa tête.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import pandas as pd
# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")
# Check the data type of the columns of the DataFrames
print(sales_data.____)
# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())