Filtrar DataFrames de pandas
Una vez que se ha extraído la información de un sistema de origen, ¡toca transformarla! A menudo, los datos de origen contienen más información de la necesaria para los casos de uso posteriores. Si es así, conviene reducir la dimensionalidad durante la fase de "transformación" del pipeline de datos.
Se ha importado pandas como pd, y la función extract() está disponible para cargar un DataFrame desde la ruta que se le pase.
Este ejercicio forma parte del curso
ETL and ELT con Python
Instrucciones del ejercicio
- Usa la función
extract()para cargar el DataFrame almacenado en la ruta"sales_data.parquet". - Actualiza la función
transform()para devolver todas las filas y columnas con"Quantity Ordered"mayor que 1. - Filtra aún más el DataFrame
clean_datapara incluir solo las columnas"Order Date","Quantity Ordered"y"Purchase Address". - Devuelve el DataFrame filtrado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)