Filtragem de DataFrames do pandas
Uma vez que os dados tenham sido extraídos de um sistema de origem, é hora de transformá-los! Muitas vezes, os dados de origem podem ter mais informações do que o necessário para os casos de uso downstream. Se esse for o caso, a dimensionalidade deve ser reduzida durante a fase de "transformação" do pipeline de dados.
pandas
foi importado como pd
, e a função extract()
está disponível para carregar um DataFrame a partir do caminho que é passado.
Este exercício faz parte do curso
ETL e ELT em Python
Instruções de exercício
- Use a função
extract()
para carregar o DataFrame armazenado no caminho"sales_data.parquet"
. - Atualize a função
transform()
para retornar todas as linhas e colunas com"Quantity Ordered"
maior que 1. - Filtre ainda mais o DataFrame
clean_data
para incluir apenas as colunas"Order Date"
,"Quantity Ordered"
e"Purchase Address"
. - Retorna o DataFrame filtrado.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)