1. Nauka
  2. /
  3. Kursy
  4. /
  5. ETL i ELT w Pythonie

Connected

ćwiczenie

Grupowanie danych za pomocą pandas

Wynikiem potoku danych jest zazwyczaj zbiór danych w postaci „zamodelowanej". Taki zbiór zapewnia odbiorcom danych łatwy dostęp do informacji – bez konieczności wykonywania wielu przekształceń. Grupowanie danych za pomocą pandas ułatwia budowanie takich zamodelowanych zbiorów danych.

pandas został zaimportowany jako pd, a DataFrame raw_testing_scores zawiera dane w następującej postaci:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Instrukcje

100 XP
  • Użyj .loc[], aby zachować tylko kolumny "city", "math_score", "reading_score" i "writing_score".
  • Zgrupuj DataFrame według kolumny "city" i oblicz średnią wyników z matematyki, czytania i pisania dla każdego miasta.
  • Użyj funkcji transform(), aby utworzyć zgrupowany DataFrame.