ComeçarComece gratuitamente

Filtragem de DataFrames do pandas

Uma vez que os dados tenham sido extraídos de um sistema de origem, é hora de transformá-los! Muitas vezes, os dados de origem podem ter mais informações do que o necessário para os casos de uso downstream. Se esse for o caso, a dimensionalidade deve ser reduzida durante a fase de "transformação" do pipeline de dados.

pandas foi importado como pd, e a função extract() está disponível para carregar um DataFrame a partir do caminho que é passado.

Este exercício faz parte do curso

ETL e ELT em Python

Ver Curso

Instruções de exercício

  • Use a função extract() para carregar o DataFrame armazenado no caminho "sales_data.parquet".
  • Atualize a função transform() para retornar todas as linhas e colunas com "Quantity Ordered" maior que 1.
  • Filtre ainda mais o DataFrame clean_data para incluir apenas as colunas "Order Date", "Quantity Ordered" e "Purchase Address".
  • Retorna o DataFrame filtrado.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Editar e executar código