Extracción de datos desde archivos parquet
Una de las formas más comunes de ingerir datos desde un sistema origen es leerlos desde un archivo, como un CSV. A medida que los datos han crecido, la necesidad de mejores formatos de archivo ha dado lugar a nuevos tipos orientados a columnas, como los archivos parquet.
En este ejercicio, vas a practicar cómo extraer datos de un archivo parquet.
Este ejercicio forma parte del curso
ETL and ELT con Python
Instrucciones del ejercicio
- Lee el archivo parquet en la ruta
"sales_data.parquet"en un DataFrame depandas. - Comprueba los tipos de datos del DataFrame usando
print(). - Muestra la forma del DataFrame y también su encabezado con
.head().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
import pandas as pd
# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")
# Check the data type of the columns of the DataFrames
print(sales_data.____)
# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())