Filtrar DataFrames de pandas

Una vez que se ha extraído la información de un sistema de origen, ¡toca transformarla! A menudo, los datos de origen contienen más información de la necesaria para los casos de uso posteriores. Si es así, conviene reducir la dimensionalidad durante la fase de "transformación" del pipeline de datos.

Se ha importado pandas como pd, y la función extract() está disponible para cargar un DataFrame desde la ruta que se le pase.

Este ejercicio forma parte del curso

ETL y ELT en Python

Ver curso

Instrucciones del ejercicio

Usa la función extract() para cargar el DataFrame almacenado en la ruta "sales_data.parquet".
Actualiza la función transform() para devolver todas las filas y columnas con "Quantity Ordered" mayor que 1.
Filtra aún más el DataFrame clean_data para incluir solo las columnas "Order Date", "Quantity Ordered" y "Purchase Address".
Devuelve el DataFrame filtrado.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)

Editar y ejecutar código