Filtragem de DataFrames do pandas
Uma vez que os dados tenham sido extraídos de um sistema de origem, é hora de transformá-los! Muitas vezes, os dados de origem podem ter mais informações do que o necessário para os casos de uso downstream. Se esse for o caso, a dimensionalidade deve ser reduzida durante a fase de "transformação" do pipeline de dados.
pandas foi importado como pd, e a função extract() está disponível para carregar um DataFrame a partir do caminho que é passado.
Este exercício faz parte do curso
ETL e ELT em Python
Instruções do exercício
- Use a função
extract()para carregar o DataFrame armazenado no caminho"sales_data.parquet". - Atualize a função
transform()para retornar todas as linhas e colunas com"Quantity Ordered"maior que 1. - Filtre ainda mais o DataFrame
clean_datapara que você inclua apenas as colunas"Order Date","Quantity Ordered"e"Purchase Address". - Retorna o DataFrame filtrado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)