Extração de dados de arquivos parquet
Uma das maneiras mais comuns de ingerir dados de um sistema de origem é ler dados de um arquivo, como um arquivo CSV. Com o aumento do tamanho dos dados, a necessidade de melhores formatos de arquivo trouxe novos tipos de arquivo orientados por coluna, como os arquivos parquet.
Neste exercício, você praticará a extração de dados de um arquivo parquet.
Este exercício faz parte do curso
ETL e ELT em Python
Instruções do exercício
- Leia o arquivo de parquet no caminho
"sales_data.parquet"
em um DataFramepandas
. - Verifique os tipos de dados do DataFrame pelo site
print()
ing. - Você produz a forma do DataFrame, bem como sua cabeça.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
import pandas as pd
# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")
# Check the data type of the columns of the DataFrames
print(sales_data.____)
# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())