ComenzarEmpieza gratis

Filtrar DataFrames de pandas

Una vez extraídos los datos de un sistema fuente, ¡es hora de transformarlos! A menudo, los datos de origen pueden tener más información de la necesaria para los casos de uso posteriores. Si es así, la dimensionalidad debe reducirse durante la fase de "transformación" del canal de datos.

pandas se ha importado como pd, y la función extract() está disponible para cargar un DataFrame desde la ruta que se le pase.

Este ejercicio forma parte del curso

ETL y ELT en Python

Ver curso

Instrucciones del ejercicio

  • Utiliza la función extract() para cargar el DataFrame almacenado en la ruta "sales_data.parquet".
  • Actualiza la función transform() para que devuelva todas las filas y columnas con "Quantity Ordered" mayor que 1.
  • Filtra aún más el DataFrame clean_data para que sólo incluya las columnas "Order Date", "Quantity Ordered" y "Purchase Address".
  • Devuelve el DataFrame filtrado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Editar y ejecutar código