1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 Python 的 ETL 和 ELT

Connected

道练习

筛选 pandas DataFrame

从源系统提取数据后,就该开始转换了!源数据往往包含超出下游用例所需的信息。遇到这种情况,应在数据管道的 "transform" 阶段降低维度。

已将 pandas 以 pd 导入,并提供了 extract() 函数,您可以传入路径来加载一个 DataFrame。

说明

100 XP
  • 使用 extract() 函数从 "sales_data.parquet" 路径加载 DataFrame。
  • 更新 transform() 函数,使其返回 "Quantity Ordered" 大于 1 的所有行和列。
  • 进一步筛选 clean_data DataFrame,只保留列 "Order Date"、"Quantity Ordered" 和 "Purchase Address"。
  • 返回筛选后的 DataFrame。