Filtrar DataFrames de pandas
Una vez extraídos los datos de un sistema fuente, ¡es hora de transformarlos! A menudo, los datos de origen pueden tener más información de la necesaria para los casos de uso posteriores. Si es así, la dimensionalidad debe reducirse durante la fase de "transformación" del canal de datos.
pandas
se ha importado como pd
, y la función extract()
está disponible para cargar un DataFrame desde la ruta que se le pase.
Este ejercicio forma parte del curso
ETL y ELT en Python
Instrucciones del ejercicio
- Utiliza la función
extract()
para cargar el DataFrame almacenado en la ruta"sales_data.parquet"
. - Actualiza la función
transform()
para que devuelva todas las filas y columnas con"Quantity Ordered"
mayor que 1. - Filtra aún más el DataFrame
clean_data
para que sólo incluya las columnas"Order Date"
,"Quantity Ordered"
y"Purchase Address"
. - Devuelve el DataFrame filtrado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)