1. Nauka
  2. /
  3. Kursy
  4. /
  5. ETL i ELT w Pythonie

Connected

ćwiczenie

Filtrowanie DataFrames w pandas

Gdy dane zostaną wyodrębnione ze źródłowego systemu, czas je przekształcić! Dane źródłowe często zawierają więcej informacji, niż jest potrzebne w dalszych zastosowaniach. W takim przypadku należy zredukować ich wymiarowość na etapie „transform" potoku danych.

pandas został zaimportowany jako pd, a funkcja extract() jest dostępna i służy do wczytania DataFrame ze ścieżki podanej jako argument.

Instrukcje

100 XP
  • Użyj funkcji extract(), aby wczytać DataFrame zapisany pod ścieżką "sales_data.parquet".
  • Zaktualizuj funkcję transform() tak, aby zwracała wszystkie wiersze i kolumny, w których wartość "Quantity Ordered" jest większa niż 1.
  • Przefiltruj DataFrame clean_data tak, aby zawierał tylko kolumny "Order Date", "Quantity Ordered" i "Purchase Address".
  • Zwróć przefiltrowany DataFrame.