CommencerCommencer gratuitement

Extraction de données à partir de fichiers parquet

L'une des façons les plus courantes d'ingérer des données à partir d'un système source consiste à lire des données à partir d'un fichier, tel qu'un fichier CSV. Avec l'augmentation de la taille des données, la nécessité d'améliorer les formats de fichiers a donné naissance à de nouveaux types de fichiers orientés vers les colonnes, tels que les fichiers parquet.

Dans cet exercice, vous vous entraînerez à extraire des données d'un fichier parquet.

Cet exercice fait partie du cours

ETL et ELT en Python

Afficher le cours

Instructions

  • Lisez le fichier parquet au chemin "sales_data.parquet" dans un DataFrame pandas.
  • Vérifiez les types de données du DataFrame via print()ing.
  • Affiche la forme du DataFrame, ainsi que sa tête.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import pandas as pd

# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")

# Check the data type of the columns of the DataFrames
print(sales_data.____)

# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())
Modifier et exécuter le code