Extraer datos de archivos parquet
Una de las formas más comunes de ingerir datos de un sistema fuente es leyendo datos de un archivo, como un archivo CSV. A medida que los datos han ido creciendo, la necesidad de mejores formatos de archivo ha dado lugar a nuevos tipos de archivo orientados a columnas, como los archivos parquet.
En este ejercicio, practicarás la extracción de datos de un archivo parquet.
Este ejercicio forma parte del curso
Introducción a las canalizaciones de datos
Instrucciones de ejercicio
- Lee el archivo de parquet en la ruta
"sales_data.parquet"
en un DataFramepandas
. - Comprueba los tipos de datos del DataFrame mediante
print()
ing. - Da salida a la forma del Marco de datos, así como a su cabeza.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
import pandas as pd
# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")
# Check the data type of the columns of the DataFrames
print(sales_data.____)
# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())