Filtragem de DataFrames do pandas

Uma vez que os dados tenham sido extraídos de um sistema de origem, é hora de transformá-los! Muitas vezes, os dados de origem podem ter mais informações do que o necessário para os casos de uso downstream. Se esse for o caso, a dimensionalidade deve ser reduzida durante a fase de "transformação" do pipeline de dados.

pandas foi importado como pd, e a função extract() está disponível para carregar um DataFrame a partir do caminho que é passado.

Este exercicio faz parte do curso

ETL e ELT em Python

Ver curso

Instruções do exercicio

Use a função extract() para carregar o DataFrame armazenado no caminho "sales_data.parquet".
Atualize a função transform() para retornar todas as linhas e colunas com "Quantity Ordered" maior que 1.
Filtre ainda mais o DataFrame clean_data para incluir apenas as colunas "Order Date", "Quantity Ordered" e "Purchase Address".
Retorna o DataFrame filtrado.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)

Editar e Executar Código