1. Učit se
  2. /
  3. Kurzy
  4. /
  5. ETL a ELT v Pythonu

Connected

cvičení

Seskupování dat v pandas

Výstupem datového pipeline je zpravidla „modelovaná" datová sada. Ta umožňuje spotřebitelům dat snadný přístup k informacím bez nutnosti složitých úprav. Seskupování dat pomocí pandas pomáhá takovéto modelované datové sady vytvářet.

pandas je naimportován jako pd a DataFrame raw_testing_scores obsahuje data v následující podobě:

              street_address       city  math_score  reading_score  writing_score
01M539   111 Columbia Street  Manhattan       657.0          601.0          601.0
02M294      350 Grand Street  Manhattan       395.0          411.0          387.0
02M308      350 Grand Street  Manhattan       418.0          428.0          415.0

Pokyny

100 XP
  • Pomocí .loc[] ponech v DataFrame pouze sloupce "city", "math_score", "reading_score" a "writing_score".
  • Seskup DataFrame podle sloupce "city" a zjisti průměr matematického, čtenářského a písemného skóre pro každé město.
  • Pomocí funkce transform() vytvoř seskupený DataFrame.